AI發現超16萬種新RNA病毒?阿里雲、中山大學合作研究登Cell

ScienceAI發表於2024-10-12
圖片

編輯 | 蘿蔔皮

人工智慧(AI)已被用來揭示地球各個角落的多種基本生命體。

阿里雲、中山大學、悉尼大學等機構的合作團隊開發了一種深度學習演算法,稱為 LucaProt,用於發現來自全球不同生態系統的 10,487 個宏轉錄組中高度分化的 RNA 依賴性 RNA 聚合酶 (RdRP) 序列。LucaProt 整合了序列和預測結構資訊,從而能夠準確檢測 RdRP 序列。

藉助 LucaProt,研究人員發現了總共 161,979 種新的 RNA 病毒,認為這將極大地改善地球生命的繪製,並有助於識別數百萬種尚未鑑定的病毒。

新發現的 RNA 病毒存在於各種環境中,包括空氣、溫泉和熱液噴口,病毒多樣性和豐度在不同的生態系統中存在很大差異。這項研究推動了病毒的發現,突出了病毒圈的規模,並提供了更好地記錄全球 RNA 病毒組的計算工具。

該研究以「Using artificial intelligence to document the hidden RNA virosphere」為題,於 2024 年 10 月 9 日釋出在《Cell》。

圖片

論文連結:https://www.cell.com/cell/fulltext/S0092-8674(24)01085-7

「這項研究為我們揭示了地球生命中不為人知的一部分,揭示了驚人的生物多樣性。」文章的通訊作者之一、悉尼大學的 Edwards Holmes 教授說,「這是單項研究中發現的新病毒種類數量最多的一次,極大地擴充套件了我們對人類自身病毒的認識。」

「一下子發現這麼多新病毒真是令人難以置信,這只是冰山一角,開啟了一個探索的世界。還有數百萬種病毒有待發現,我們可以用同樣的方法來識別細菌和寄生蟲。」

Holmes 教授說:「極端環境攜帶如此多型別的病毒,只是它們驚人的多樣性和在最惡劣環境中生存的韌性的另一個例子,可能為我們提供有關病毒和其他基本生命形式如何產生的線索。」

LucaProt 是一種基於 Transformer 的 RNA 病毒發現工具,該工具利用蛋白質序列和病毒 RdRP 序列的結構特徵。該工具應用於包含來自不同生態系統的 10,487 個宏轉錄組的資料集。

為了驗證和進行比較分析,使用其他可用的生物資訊學工具處理了同一資料集,並使用 DNA 和 RNA 測序分析了 50 個樣本。

透過將該工具與大量序列資料結合使用,研究人員展示了人工智慧如何準確有效地檢測表現出超出傳統基於相似性的方法能力的遺傳差異的 RNA 病毒。

如果不實施結構模型,LucaProt 在測試資料集上的特異性和準確性分別只有 41.8% 和 94.9%,並且只能檢測到 44.5% 的預測 RdRP 蛋白。

因此,在識別高度分化的 RNA 病毒時,RdRP 結構的保守性比 RdRP 序列的重要性更重要。

圖片

圖示:整體概述。(來源:論文)

研究人員鑑定出 161,979 種潛在 RNA 病毒種類和 180 個 RNA 病毒超群,其中包括許多之前研究不足的群體,以及基因組長度極長(長達 47,250 個核苷酸)且基因組複雜的 RNA 病毒。

這些新型 RNA 病毒的一個子集透過 RT-PCR 和 RNA/DNA 測序得到確認。

總之,研究人員建立了一個用於大規模 RNA 病毒發現的 AI 框架正規化,一旦準備好訓練資料集,就可以很容易地擴充套件到對任何生物「暗物質」的準確描述。

「這些病毒中的絕大多數都已經測序並儲存在公共資料庫中,但它們的差異太大,以至於沒人知道它們是什麼,」Holmes 教授說,「它們構成了通常被稱為序列‘暗物質’的東西。我們的人工智慧方法能夠組織和分類所有這些不同的資訊,首次揭示了這種暗物質的含義。」

論文的通訊作者之一、中山大學的施莽教授表示:「我們過去依靠繁瑣的生物資訊學流程來發現病毒,這限制了我們可以探索的多樣性。現在,我們有了一個更有效的基於人工智慧的模型,它提供了卓越的靈敏度和特異性,同時讓我們能夠更深入地研究病毒多樣性。我們計劃將此模型應用於各種應用。」

圖片

圖示:RNA 病毒圈。(來源:論文)

研究人員將鑑定的所有 RNA 病毒序列分為簇和超組,然後將超組與 ICTV 定義的病毒綱和門進行比較。在這裡鑑定的超組中,只有 21 個包含 ICTV 目前分類的病毒門/綱,因此與最新的 ICTV 報告相比,超組水平的 RNA 病毒多樣性擴大了 8.6 倍,迄今為止描述的所有 RNA 病毒的多樣性擴大了 1.5 倍。

這次擴充套件既包括現有的病毒超群,也包括之前的 RNA 病毒發現專案中很大程度上被忽視的 60 個高度分化的超群。

這裡鑑定的病毒超群與現有的門(例如,Narna-Levi 超群的 Lenarviricota 門)或類(例如,Astro-Poty、Hepe-Virga 和 Flavi 超群的 Stelpaviricetes、Alsuviricetes 和 Flasuviricetes 類)分類系統大致相當,非常具有多樣性。

雖然這裡記錄了 RNA 病毒多樣性的大幅增加,但我們對新發現病毒的進化和生態學的瞭解仍然存在重大差距。特別是,大多數已發現病毒的宿主仍然未知。

由於目前已知的大多數 RNA 病毒都感染真核生物,並且微生物真核生物在自然環境中具有極高的豐富度和多樣性,因此這裡鑑定的病毒進化枝和超群可能與多樣化的微生物真核宿主有很大聯絡。然而,也有可能發現相當一部分新發現的病毒與細菌(或許還有古細菌)宿主有關。

事實上,越來越多的證據有力地支援了這樣一種觀點:與細菌有關的 RNA 病毒種類比目前記錄的要多。

RNA 噬菌體在多個 RNA 病毒超群中的存在強調了細菌和真核宿主 RNA 病毒之間的進化聯絡。如果從病毒-宿主共同分化的角度來看,這種聯絡表明 RNA 病毒的進化史至少與細胞生物的進化史一樣長,甚至更長。

儘管如此,該研究依然是一項十分重大進步。論文共同作者、阿里雲智慧飛天實驗室李兆融博士表示:「LucaProt代表了前沿AI技術與病毒學的重要結合,證明了AI能夠有效完成生物探索任務。這種整合為進一步解碼生物序列、從新視角解構生物系統提供了寶貴的見解和鼓勵。我們還將繼續在病毒學人工智慧領域的研究。」

Holmes 教授表示:「顯然,下一步就是訓練我們的方法來發現更多令人驚歎的多樣性,誰知道還會有什麼額外的驚喜呢。」

相關內容:https://phys.org/news/2024-10-hidden-virosphere-ai-virus-species.html

相關文章