近日,來自美國、法國和瑞士等國的國際研究團隊,借助人工智能機器學習,從世界各地收集的海水樣本中確定了5500種新的RNA病毒,創建了一個關于RNA病毒的數據庫。相關研究成果以“Cryptic and abundant marine viruses at the evolutionary origins of Earth’s RNA virome”為題,發表在Science上。這項研究增加了生態學研究的可能性,重塑了人們對這些小但重要的亞微觀粒子如何進化的理解。另外,此項發現也有助于科學家更好地了解地球上的早期生命是如何進化的,進而追溯生命的起源。

圖1 研究成果(圖源:Science)
目前科學界對于RNA病毒在疾病之外的研究和認識并不充分,其進化速度比DNA病毒快得多。雖然科學家們已經對自然生態系統中數十萬種DNA病毒進行分類,但對RNA病毒的研究卻相對較少。
在這項研究中,為了識別含有RNA遺傳物質的新病毒,研究人員通過運用機器學習和系統發育樹兩種方法,對全球約35000個水樣進行分析,發現了5500種新病毒。在此前,國際病毒分類委員會(ICTV)確認了RNA病毒界的五個門類,而此次新發現的RNA病毒并不能全被歸入已知的病毒門類當中,至少需要5個新的RNA病毒門類才能囊括它們。研究人員將這些病毒分別歸入五個新提出的病毒門類,包括Taravircota、Pomiviricota、Paraxenviricota、Wamoviricota和Arctivicota。
論文主要作者Matthew Sullivan表示,在整個海洋中發現了一個完整的RNA病毒門類Taravircota,這表明它們在生態上很重要。這一新的RNA病毒門類可能是數十億年前早期RNA病毒進化中“缺失的一環”,將RNA病毒兩個不同的已知分支連接起來,這兩個分支據稱在復制方式上存在分歧。這些努力為將RNA病毒整合到生態和流行病學模型中提供了關鍵基礎知識。
研究人員從海上浮游生物體中提取基因序列,并將分析范圍縮小到含有RdRp這一基因的RNA序列,這種基因在RNA病毒中已經進化了數十億年,而在其他病毒或細胞中并不存在。RdRp的存在可以追溯到地球上發現生命時,到如今,它的序列位置已經發生多次變化,因而傳統的系統發育樹關系不能僅用序列來描述。研究人員使用機器學習來分析44000個新序列,以總結數十億年的序列變化,并通過展示該技術已準確分類已識別的RNA病毒序列來驗證該方法。
對此,Sullivan表示:“我們創造了一種計算可復制的方式來校準RNA病毒序列,我們有信心可以更準確地反映RNA病毒的進化”。Zayed表示:“RdRp是較為古老的基因之一,弄清楚RdRp是如何隨時間進化的,可能有助于更好地理解地球上早期生命是如何進化的。這不僅是在追溯病毒的起源,也是在追溯生命的起源”。
參考資料:
近日,來自美國、法國和瑞士等國的國際研究團隊,借助人工智能機器學習,從世界各地收集的海水樣本中確定了5500種新的RNA病毒,創建了一個關于RNA病毒的數據庫。相關研究成果以“Cryptic and abundant marine viruses at the evolutionary origins of Earth’s RNA virome”為題,發表在Science上。這項研究增加了生態學研究的可能性,重塑了人們對這些小但重要的亞微觀粒子如何進化的理解。另外,此項發現也有助于科學家更好地了解地球上的早期生命是如何進化的,進而追溯生命的起源。

圖1 研究成果(圖源:Science)
目前科學界對于RNA病毒在疾病之外的研究和認識并不充分,其進化速度比DNA病毒快得多。雖然科學家們已經對自然生態系統中數十萬種DNA病毒進行分類,但對RNA病毒的研究卻相對較少。
在這項研究中,為了識別含有RNA遺傳物質的新病毒,研究人員通過運用機器學習和系統發育樹兩種方法,對全球約35000個水樣進行分析,發現了5500種新病毒。在此前,國際病毒分類委員會(ICTV)確認了RNA病毒界的五個門類,而此次新發現的RNA病毒并不能全被歸入已知的病毒門類當中,至少需要5個新的RNA病毒門類才能囊括它們。研究人員將這些病毒分別歸入五個新提出的病毒門類,包括Taravircota、Pomiviricota、Paraxenviricota、Wamoviricota和Arctivicota。
論文主要作者Matthew Sullivan表示,在整個海洋中發現了一個完整的RNA病毒門類Taravircota,這表明它們在生態上很重要。這一新的RNA病毒門類可能是數十億年前早期RNA病毒進化中“缺失的一環”,將RNA病毒兩個不同的已知分支連接起來,這兩個分支據稱在復制方式上存在分歧。這些努力為將RNA病毒整合到生態和流行病學模型中提供了關鍵基礎知識。
研究人員從海上浮游生物體中提取基因序列,并將分析范圍縮小到含有RdRp這一基因的RNA序列,這種基因在RNA病毒中已經進化了數十億年,而在其他病毒或細胞中并不存在。RdRp的存在可以追溯到地球上發現生命時,到如今,它的序列位置已經發生多次變化,因而傳統的系統發育樹關系不能僅用序列來描述。研究人員使用機器學習來分析44000個新序列,以總結數十億年的序列變化,并通過展示該技術已準確分類已識別的RNA病毒序列來驗證該方法。
對此,Sullivan表示:“我們創造了一種計算可復制的方式來校準RNA病毒序列,我們有信心可以更準確地反映RNA病毒的進化”。Zayed表示:“RdRp是較為古老的基因之一,弄清楚RdRp是如何隨時間進化的,可能有助于更好地理解地球上早期生命是如何進化的。這不僅是在追溯病毒的起源,也是在追溯生命的起源”。
參考資料: