生成超10萬bp的DNA序列,北理工邵斌團隊生成式DNA大語言模型,登Nature子刊

ScienceAI發表於2024-11-17

圖片

作者 | 邵斌團隊

編輯 | ScienceAI

2024 年 10 月 30 日,北京理工大學邵斌教授團隊在《Nature Communications》雜誌上發表了題為:《A long-context language model for deciphering and generating bacteriophage genomes》的最新研究成果,實現了首個生成式 DNA 大語言模型,megaDNA。

該模型利用無標註的噬菌體(感染細菌的病毒)基因組資料進行預訓練,不僅能準確預測噬菌體的必需基因,更能夠生成長達 10 萬鹼基對的嶄新基因組片段,即像寫作自然語言一樣生成 DNA 序列。

另外,模型在學習過程中獲得的嵌入層資訊(embedding),還能應用於蛋白質功能預測、基因調控研究,以及無標註 DNA 片段分類等多個下游任務。

圖片

文章連結:https://www.nature.com/articles/s41467-024-53759-4

背景介紹

什麼是「生成式」語言模型?簡單來說,就是以 GPT 為代表的語言模型。自 transformer 架構提出以來,發展出了語言模型的兩個流派,一個是 BERT 模型,採用類似完形填空的方式來訓練;一個是 GPT 模型,採用詞語接龍的方式來進行訓練。

可以想見,後者更接近普通人說話或者寫作的過程,即逐字地構建句子和段落,因而它具備更強大的生成能力,也是目前大語言模型的主流架構。生成式任務一方面與人類語言和溝通的形式天然一致,因為遣詞造句是交流的基礎。另一方面,詞語接龍本身是一類比較難的任務,能夠完成這類任務的語言模型實際上已經很好地掌握了序列資料中所蘊含的資訊和概念。

為什麼要開發針對 DNA 序列的大語言模型?

我們知道人類的語言是一種序列資訊,而生命的語言 DNA 也是一種序列資訊。生成式大語言模型在人類語言處理和生成上取得了巨大的成功,成為我們閱讀,學習和寫作的有力助手。

我們就想能否把這套方法應用在生命的序列上,即在生命的語言 DNA 上訓練大語言模型,從而幫助我們解讀 DNA 編碼的資訊,設計出具有特定功能的 DNA 片段,甚至構建具有醫療或者工業應用價值的新型微生物。

倘若我們能像寫作有意義的文字一樣編寫具有功能的 DNA 序列,像閱讀論文一樣從 DNA 編碼中獲取有價值的資訊,那麼這樣的模型將具有巨大的學術和應用價值。

模型架構

訓練基於 DNA 序列的語言模型既有優勢,也有挑戰。優勢在於訓練資料的規模。歷史的經驗表明,語言模型的訓練效果高度依賴於訓練資料的規模大小,資料越多,模型可以做的更大,訓練的效果也會越好。

隨著 DNA 測序技術的飛速發展,DNA 序列積累的速度非常快,比如一個完整人類基因組的測序成本已經從本世紀初的約一億美元下降到現在的幾百美元。而這些大規模資料還沒有得到有效的應用,對機器學習來講無疑是很大的一個「富礦」。

然而,訓練這類 DNA 語言模型也存在困難,主要挑戰是生成式語言模型難以應用於長序列,輸入序列越長而視訊記憶體消耗越大。而對於 DNA 序列,即使是簡單的噬菌體(針對細菌的病毒)也往往長達幾萬個鹼基對,傳統的 transformer 模型難以對其進行處理。

從去年開始,語言模型的輸入長度問題得到了極大關注,研究者提出了很多解決這一問題的技術。

我們借鑑了最新的長讀長語言模型的研究結果,即目前在 Meta 工作的大語言模型專家 Yu Lili 博士提出的多層 Transformer 結構。

我們模型設計了三層的 Transformer 結構,用來處理不同精度的 DNA 資訊,最終實現了大約 10 萬個鹼基對的輸入長度,這個長度雖然小於人類基因組或者細菌基因組的長度,但已經足夠覆蓋噬菌體的基因組了。因此,我們使用完整的噬菌體基因組序列作為模型的輸入來進行訓練。並且,我們採集了大約 10 萬個高質量噬菌體基因組序列,訓練後得到 megaDNA 模型。

圖片

圖示:模型概述。(來源:論文)

從頭生成基因組DNA序列

以 GPT 為代表的生成式語言模型最重要的能力之一是產生全新的具有豐富內涵的文字序列。我們利用 megaDNA 模型生成了一千條嶄新的基因組 DNA 序列,並利用軟體 geNomad 對序列進行系統評估。

這些人工生成的基因組序列平均長度為 4.3 萬鹼基對,包含 67 個預測基因,這些特徵與訓練資料中的真實噬菌體基因組高度相似。其中 22% 的序列被識別為有尾噬菌體目(Caudoviricetes)。

在表達調控方面,這些序列具有完整的可能發揮功能的基因表達系統,包括典型的細菌啟動子序列(-35 和-10 區),其 5 端非翻譯序列的轉錄活性顯著高於隨機 DNA。同時在起始密碼子 ATG 前具有富含 A 和 G 鹼基的核糖體結合位點(RBS)。透過 EMSFold 進行結構預測,結果顯示這些預測的基因能夠形成有效的蛋白質摺疊結構。

在功能方面,預測基因編碼了噬菌體所需的關鍵功能蛋白,涵蓋尾部結構、DNA 代謝、頭部組裝以及細胞裂解等功能。值得一提的是,這些生成的基因組序列以及預測基因跟已有的訓練資料具有極低的序列相似性。

必需基因的無監督預測

megaDNA 模型的另外一個應用是之前模型或者生物資訊學軟體很難實現的,就是必需基因的預測。必需基因的含義在於如果這些基因喪失了功能,噬菌體就不能完成完整的複製的過程。

實驗上確定必需基因十分繁瑣而耗時,通常需要對每個基因進行敲除實驗來觀察噬菌體能否正常複製。而我們的模型能夠在不經過任何調整和額外訓練的情況下,對必需基因進行計算預測。

我們在 lambda 噬菌體這種大家廣泛研究的模式生物上做了驗證,針對基因組序列進行了基因敲除的模擬實驗,對基因組不同位置片段進行突變,利用語言模型計算序列損失,並與實際的 CRISPR 基因敲除實驗結果進行直接比對。

計算發現模型預測的高突變損失區域與實驗驗證的必需基因高度重合,相應的預測準確度(AUROC)達到 0.86。

進一步思考,我們的模型可以在幾萬個噬菌體基因組上得到應用,極大提升找尋對應必需基因的效率。

結論

綜上,該研究展示了生成式語言模型在基因組序列分析和生成上的巨大潛力,為噬菌體基因組註釋和功能序列設計開闢了全新的路徑。

雖然目前生成的基因組片段還未能實現噬菌體的完整生命功能(如有效自我複製)。但該研究及後續工作為從頭設計以噬菌體為代表的完整生物體基因組奠定了新的計算基礎,有望在醫療、農業、食品安全等多個領域取得廣泛應用。

北京理工大學準聘教授邵斌(前 Broad Institute 計算科學家)為文章的第一作者兼通訊作者。上海獨立研究者閆嘉偉博士為該工作提供了重要支援。

程式碼:https://github.com/lingxusb/megaDNA

相關文章