Nature子刊,香港浸大、英偉達團隊多模態深度語言模型,用於複雜的宏基因組研究

ScienceAI發表於2024-10-15

圖片

編輯 | 蘿蔔皮

宏基因組組裝基因組 (MAG) 為利用宏基因組測序資料探索微生物「暗物質」提供了寶貴的見解。

然而,人們越來越擔心 MAG 中的汙染可能會嚴重影響下游分析的結果。目前的 MAG 淨化工具主要依賴於標記基因,並沒有充分利用基因組序列的背景資訊。

為了克服這一限制,香港浸會大學(Hong Kong Baptist University)和英偉達 AI 技術中心(NVIDIA AI Technology Center)的研究人員提出了 Deepurify 來進行 MAG 淨化。

Deepurify 使用多模態深度語言模型和對比學習來匹配微生物基因組序列與其分類譜系。它將 MAG 內的 contig 分配給 MAG 分離樹,並應用樹遍歷演算法將 MAG 劃分為子 MAG,目的是最大化高質量和中質量子 MAG 的數量。

Deepurify 在模擬資料、CAMI 資料集和複雜程度各異的真實資料集上的表現均優於競品(MDMclearer 和 MAGpurify)。在土壤、海洋、植物、淡水和人類糞便宏基因組測序資料集中,Deepurify 分別使高質量 MAG 的數量增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。

該研究以「A multi-modal deep language model for contaminant removal from metagenome-assembled genomes」為題,於 2024 年 10 月 7 日釋出在《Nature Machine Intelligence》。

圖片

利用短讀宏基因組測序資料進行基因組組裝已成為研究複雜環境中微生物暗物質的常用方法。然而,單個重疊群僅捕獲完整微生物基因組的一個片段。因此,需要進行重疊群分箱,將具有相似序列特徵和豐度的重疊群分組以代表微生物基因組。

有研究表明,MAG 汙染是宏基因組組裝中重疊群分箱過程中的一大挑戰。已經開發出 MAGpurify 和 MDMcleaner 等工具來解決此問題,方法是從 MAG 中去除受汙染的重疊群。

然而,這些工具有一些侷限性。如果核心基因組和受汙染基因組的 LCA 屬於同一科或屬,它們很難區分重疊群。

同時,還有來自源基因組的重疊群的挑戰,這些重疊群在參考資料庫中是不存在的。此外,這些工具主要關注基因,而忽略了基因順序和基因組重排等基因組變異。

在最新的研究中,香港浸會大學和英偉達 AI 技術中心的研究人員開發了 Deepurify,一種多模態深度語言模型,用於高解析度和廣義的 MAG 淨化。

在訓練過程中,Deepurify 使用兩個編碼器,GseqFormer 和長短期記憶 (LSTM),分別生成基因組序列及其源基因組分類譜系的嵌入。然後,這些嵌入用於對比學習,以建立這兩種型別的模態之間的關係。

圖片

圖示:Deepurify 訓練流程。(來源:論文)

在淨化過程中,Deepurify 首先根據預測的分類譜系評估 MAG 中重疊群的分類相似性。預測的分類譜系用於構建 MAG 分離樹,其中每個節點包含特定分類群中具有相同分類譜系的重疊群。每個節點的重疊群根據其序列嵌入和註釋的單複製基因 (SCG) 分組為子 MAG。

圖片

圖示:Deepurify 用於 MAG 淨化的工作流程。(來源:論文)

研究人員使用了一種樹遍歷演算法來選擇子 MAG,旨在從樹中最大化高質量和中等質量 MAG 的總數。此外,他們實施了一種名為 Deepurify_Iter 的迭代淨化策略,以促進來自多個分箱工具的 MAG 的逐步淨化。

圖片

圖示:Deepurify_Iter 中使用的迭代淨化策略的工作流程。(來源:論文)

對於模擬資料,Deepurify 在 MAG 淨化方面的表現優於兩種最先進的工具 MAGpurify 和 MDMcleaner,如下圖所示。

圖片

圖示:不同汙染率下平衡宏觀 F1 得分的平均數。(來源:論文)

Deepurify 還展示了出色的泛化能力,即使訓練集中沒有源基因組,也能準確識別受汙染的重疊群,如下圖。對於宏基因組解釋的關鍵評估 (CAMI) I 和真實世界的宏基因組測序資料集,研究團隊使用 GUNC 來評估淨化後的 MAG 的汙染水平。

圖片

圖示:不同汙染率下平衡宏觀 F1 得分的平均數(訓練集中沒有源基因組)。(來源:論文)

對於 CAMI I 資料集,研究人員將 MAGpurify、MDMcleaner、Deepurify 和 Deepurify_Iter 應用於由三個 contig 分箱工具生成的 MAG:CONCOCT、MetaBAT2 和 SemiBin2。

結果表明,Deepurify 和 Deepurify_Iter 顯著減少了 MAG 的汙染,在所有分箱工具中都超過了 MAGpurify 和 MDMcleaner,如下圖所示。

圖片

圖示:透過 GUNC 汙染標準的高質量和中等質量 MAG 的數量,以及 CAMI I 和五個真實世界資料集的質量得分(1k = 1,000)。(來源:論文)

同時,他們將 Deepurify_Iter 應用於現實世界中複雜程度各異的宏基因組測序資料集,包括來自土壤、海洋、植物、淡水和人類糞便的樣本。研究結果表明,Deepurify_Iter 顯著提高了所有這些樣本中 MAG 的質量,高質量 MAG 分別增加了 20.0%、45.1%、45.5%、33.8% 和 28.5%。並且,即使處理來自高度複雜生態系統的 MAG,Deepurify_Iter 的效能仍然保持穩健。

總之,該團隊證明了 Deepurify 在從短讀長宏基因組組裝中去除 MAG 方面具有顯著的效果。

論文連結:https://www.nature.com/articles/s42256-024-00908-5

相關文章