編輯 | X_X
ChatGPT 可以寫小說、編寫計算機程式碼、給出食譜,它的矽片上包含了網際網路上的大部分資訊。如果它能對 DNA 做同樣的事情會怎麼樣?
今天,刊登在《Science》封面上一項最新研究,美國 Arc 研究所(Arc Institute)和史丹佛大學的研究團隊提出了一種機器學習模型「Evo」,其能夠以無與倫比的準確性解碼和設計從分子到基因組規模的 DNA、RNA 和蛋白質序列。
Evo 預測、生成和設計整個基因組序列的能力,可能會改變合成生物學的運作方式。
Evo 模型以數十億條基因序列為基礎,可以推斷出細菌和病毒基因組的運作方式,並利用這些資訊設計新的蛋白質甚至整個微生物基因組。
Evo 可以幫助科學家探索進化、研究疾病、開發新的治療方法,並可能解答許多其他生物醫學問題。
「該研究意義重大,作者對 Evo 進行的測試為 AI 提供了一個很好的應用展示。」阿貢國家實驗室的計算生物學家 Arvind Ramanathan 看到論文後評價道。
該研究以「Sequence modeling and design from molecular to genome scale with Evo」為題,於 2024 年 11 月 15 釋出在《Science》。
論文連結:https://www.science.org/doi/10.1126/science.ado9336
眾所周知,AlphaFold 可以根據蛋白質的氨基酸序列預測其結構。但 ChatGPT 和許多其他 AI 都是通用程式,即基礎模型。基礎模型的多功能性很有優勢,科學家不必為每個任務構建和訓練不同的模型,從而節省時間和金錢。ChatGPT 被稱為大型語言模型 (LLM),因為它適用於幾乎任何包含文字的文件,無論是政府報告還是食譜。
在分子生物學中,沒有什麼比 DNA 更基礎的了,科學家們已經開發了一些基礎模型,可以像分析 LLM 中的單詞一樣分析 DNA 序列。然而,這些 AI 只能解釋和預測相對較短的 DNA 片段。
基因組基礎模型 Evo
Evo 是為了克服這些限制而開發的,它是史丹佛大學計算生物學家 Brian Hie 團隊的心血結晶,其中包括一些來自新成立的 Arc 研究所的研究人員。
基因組基礎模型 Evo 是一個基於 StripedHyena 的基礎模型,該模型在 270 萬個進化多樣的原核生物和噬菌體基因組上進行了預訓練,從而獲得對 DNA 語言的基本理解,可以預測 DNA 的功能或生成新的 DNA 序列。StripedHyena 架構混合了密集二次 Transformer 運算元和次二次型 Hyena 運算元。
為了確定 Evo 的最佳架構和縮放比例,研究比較了在計算最優邊界上預訓練的不同模型的縮放率,即在資料集大小和模型大小之間進行最佳計算分配。
圖示:基因組基礎模型 Evo。(來源:論文)
該團隊的一項改進是增加所謂的上下文長度,即模型在嘗試尋找 DNA 模式時使用的搜尋視窗。更大的上下文長度可以提高模型識別基因或其他 DNA 序列之間聯絡的能力。這種設計還使團隊能夠將 Evo 的解析度提高到單個核苷酸(DNA 的組成部分)的水平,而之前的模型只能處理核苷酸組。
研究人員在構建 Evo 後對其進行了 4 周的訓練,在此期間,該模型對 80,000 個微生物基因組以及數百萬個針對細菌的病毒序列和質粒進行了自我學習。
Hie 說,理論上,惡意使用者可以利用像 Evo 這樣的模型來設計生物武器,因此研究人員從 AI 的訓練集中刪除了任何攻擊人類或其他真核生物的病毒序列。總的來說,Evo 從 3000 億個核苷酸的序列資訊中學習。
圖示:對原核生物的基因組基礎模型進行預訓練。(來源:論文)
從分子到基因組的序列建模和設計
為了測試 Evo,研究人員要求它預測突變對蛋白質效能的影響。這些知識對於理解 DNA 「故障」如何導致疾病以及設計新藥非常重要。
研究小組透過將 Evo 的預測與其他科學家在細菌細胞中誘發相同突變的已發表實驗進行比較,來檢查 Evo 的準確度。Evo 勝過之前從 DNA 序列資料推斷突變效應的人工智慧模型;其工作效果與其他依賴蛋白質序列的 AI 模型一樣好。
像 ChatGPT 這樣的 AI 模型如此有用的一個原因是它們可以建立新內容。「我們想證明我們的模型有這種能力,」Hie 說。因此,他的團隊讓 Evo 設計新版本的 CRISPR 基因組編輯器。這項任務很有挑戰性,因為 CRISPR 包括兩種必須協同工作的元件:DNA 切片 Cas 蛋白和將酶引導到要編輯的基因組位置的 RNA 分子。
Evo 首先研究了 70,000 多個編碼 Cas 蛋白及其伴侶 RNA 的細菌 DNA 序列。然後,該模型設計了數百萬個分子的潛在版本。研究人員挑選了 11 個最有前途的 Cas9 變體,並在實驗室中合成了這些蛋白質。
研究人員發現,在試管實驗中,Evo 設計的 Cas9 酶中最好的一種,在切割 DNA 方面與商業版本的蛋白質一樣好。為了改進 Cas 蛋白,科學家們傳統上一直在尋找具有更有效酶版本的細菌。
圖示:對 CRISPR-Cas 序列進行微調可以實現蛋白質-RNA 複合物的生成設計。(來源:論文)
Evo 還擅長多模態生成任務,團隊透過生成合成的 CRISPR-Cas 分子複合物和轉座系統證明了這一點。研究人員實驗驗證了 Evo 生成的 CRISPR-Cas 分子複合物以及 IS200 和 IS605 轉座系統的功能活性,這是使用語言模型進行蛋白質-RNA 和蛋白質-DNA 協同設計的第一個例項。
圖示:對 IS200/IS605 序列進行微調可以實現可轉座生物系統的生成設計。(來源:論文)
Hie 說,有了 Evo,「我們不必等待進化來創造新的 Cas9。」然而,和許多 LLM 一樣,Evo 也「產生了幻覺」,提出了沒有機會起作用的 Cas9。Hie 說,儘管產生了幻覺,但 AI 在尋找新分子選擇方面仍然比「蠻力篩選或隨機猜測」要好。
在 Hie 所說的研究中「最具未來感和最瘋狂」的部分,研究人員要求 Evo 生成足夠長的 DNA 序列作為細菌的基因組。他們發現,這些模擬基因組攜帶了細胞所需的許多基因,但缺少其他必需基因。不過,Hie 認為,這些結果可能是邁向 AI 設計的合成基因組的一步。
圖示:Evo 瞭解突變對不同細菌和噬菌體基因組的生物體適應性的影響。(來源:論文)
總體而言,研究人員報告了 DNA 的縮放定律,補充了自然語言和視覺中的類似觀察結果。
Evo 經過 270 萬個原核生物和噬菌體基因組的訓練,展示了跨 DNA、RNA 和蛋白質模態的零樣本函式預測,其效能可與特定領域的語言模型相媲美,甚至優於特定領域的語言模型。
基礎模型很重要,實驗室驗證非常有力
基礎模型很重要,因為「它們增強了我們理解和描述基因組的能力」,未參與這項研究的美國石溪大學(Stony Brook University)計算生物學家 Ramana Davuluri 說。「我認為這是超越現有模型的一大步。」
紐約市非營利組織 Tatta Bio 的計算生物學家 Yunha Hwang 說,這項研究之所以引人注目的一個原因是,研究人員在實驗上證實了該模型的預測。Tatta Bio 專注於改進基因組 AI 模型。
「能夠進行實驗室驗證非常有力,」未參與這項研究的 Hwang 說。德克薩斯大學 MD 安德森癌症中心的統計學家 Chong Wu 補充說,Evo 從中學到的大量資料也使這項研究與眾不同。他說,模型吸收的資訊越多,它就越可靠。
AI 的大部分研究工作都是在公司秘密進行的。但研究人員已公開發布 Evo,以便其他研究人員可以使用它,而 Hie 表示,該團隊沒有計劃將其發明商業化。「目前,我將其視為一個研究專案。」
關於美國 Arc 研究所(Arc Institute)
Arc 總部位於加利福尼亞州帕洛阿爾託,是一家非營利性研究機構,其成立的初衷是相信許多重要的科學專案都可以透過新的組織模式來實現。Arc 是與史丹佛大學、加州大學舊金山分校和加州大學伯克利分校合作運營的。
Arc 為科學家提供無附加條件的多年期資金,這樣他們就不必申請外部資助,並投資於實驗和計算技術工具的快速開發。
Arc 的研究人員可以以個人身份跨學科合作研究複雜疾病,包括癌症、神經退行性疾病和免疫功能障礙。
Arc 的終極目標是加速科學進步,瞭解疾病的根本原因,並縮小發現與對患者的影響之間的差距。
機構官網:https://arcinstitute.org/
參考內容: