預測所有物種DNA、RNA、蛋白質的形式和功能,Arc、史丹佛、NVIDIA釋出最大AI生物模型Evo2

ScienceAI發表於2025-02-20

DNA、RNA、蛋白質資料的視覺化

編輯 | 蘿蔔皮

所有生命都用 DNA 編碼資訊。雖然測序、合成和編輯基因組程式碼的工具已經改變了生物學研究,但智慧地編寫新的生物系統還需要深入瞭解基因組編碼的巨大複雜性。

科學家們今天釋出了他們所稱的有史以來最大的生物學人工智慧(AI)模型——Evo-2。

該模型基於 128,000 個基因組進行訓練,涵蓋了從人類到單細胞細菌和古細菌的生命之樹,可以從頭開始編寫整個染色體和小基因組。它還可以理解現有的 DNA,包括與疾病相關的難以解釋的「非編碼」基因變體。

Evo-2 由加利福尼亞州帕洛阿爾託的 Arc 研究所和史丹佛大學的研究人員以及晶片製造商 NVIDIA 共同開發,科學家可以透過線上介面使用,也可以免費下載其軟體程式碼、資料和複製模型所需的其他引數

專案連結:https://github.com/ArcInstitute/evo2

開發人員將 Evo-2 視為一個平臺,其他科研人員可以根據自己的用途進行調整。

「我們非常期待科學家和工程師如何為生物學打造這個『應用商店』,」Arc 研究所和加州大學伯克利分校的生物工程師 Patrick Hsu 在宣佈 Evo-2 釋出的新聞釋出會上表示。

該模型在 Arc 研究所網站上釋出的一篇論文中進行了描述,並提交給了 bioRxiv 預印本伺服器。但他們表示,在得出確切結論之前,他們需要多進行一些測試。

「我們必須在預印本釋出後看看它在獨立基準測試中的表現如何。」史丹佛大學帕洛阿爾託分校的計算基因組學家 Anshul Kundaje 說。

AWS 發推文稱 Evo 2 使用 AWS 上的 Nvidia DGX Cloud 構建,現在是跨物種分析 DNA、RNA 和蛋白質的最大的公共 AI 模型。

圖片

關於 Evo-2 模型

在過去的幾年裡,研究人員開發出了越來越強大的「蛋白質語言模型」,例如由 Meta 前員工開發的 ESM-3 模型,該模型經過數百萬個蛋白質序列的訓練後,已用於幫助預測蛋白質結構和設計全新的蛋白質,包括基因編輯器和熒光分子。

與這些模型不同的是,Evo-2 的訓練所用基因組資料既包含「編碼序列」(攜帶製造蛋白質的指令),也包含非編碼 DNA,後者包括可以控制基因何時、何地和如何活躍的序列。

2024 年釋出的 Evo 的第一個版本是在 80,000 種細菌和古細菌(稱為原核生物的簡單生物)的基因組以及它們的病毒和其他序列上進行訓練的。

最新模型基於 128,000 個基因組,包括人類和其他動物、植物和其他真核生物的基因組。這些基因組總共包含 9.3 萬億個 DNA 鹼基對。根據處理這些資料和其他特徵所需的計算能力,Evo-2 是迄今為止釋出的最大的生物 AI 模型,Hsu 說。

研究人員使用 7B 和 40B 引數訓練 Evo 2,以獲得前所未有的 100 萬個具有單核苷酸解析度的標記上下文視窗。

Evo 2 僅從 DNA 序列中學習,即可準確預測遺傳變異的功能影響,而無需針對特定任務進行微調。透過應用機械可解釋性分析,團隊發現 Evo 2 可以自主學習廣泛的生物學特徵,包括外顯子-內含子邊界、轉錄因子結合位點、蛋白質結構元素和噬菌體基因組區域。

除了預測能力之外,Evo 2 還能在基因組規模上生成線粒體、原核生物和真核生物序列,其自然性和連貫性比以前的方法更高。透過推理時間搜尋引導 Evo 2 可以實現可控的表觀基因組結構生成,為此研究人員在論文裡展示了生物學中第一個推理時間縮放結果。

圖片

論文連結:https://arcinstitute.org/manuscripts/Evo2

圖片

圖示:Evo 2 的模型架構、訓練程式、資料集和評估概述。(來源:論文)

在模型架構與訓練方面,研究人員提出了卷積多混合架構,其設計基於兩個簡單的觀察。首先,混合模型中的運算子可以根據 token 操作任務進行定製,例如上下文回憶、多 token 回憶和壓縮,其中輸入相關的卷積和注意力機制可提供互補的效能。

其次,在以前的替代架構難以超越 Transformers 的領域,共同設計卷積運算子和硬體感知演算法可以提高效率。在 400 億個引數規模下,我們的端到端訓練速度比最佳化的 Transformers 快 1.2 到 2.9 倍,比上一代混合模型快 1.1 到 1.4 倍。

在 H100 GPU 和 4096 模型寬度上,建議的多混合 StripedHyena 2 架構中的各個運算子的吞吐量比線性注意和狀態空間模型提高了兩倍。多混合在位元組標記資料的序列建模方面表現出色,正如 Evo 2 系列模型所證明的那樣。

圖片

論文連結:https://arcinstitute.org/manuscripts/Evo2-ML

圖片
圖示:線上操作介面。(來源:官網)

所有序列都能生成

與原核生物相比,真核生物的基因組往往更長、更復雜:基因由散佈的編碼區和非編碼區片段組成,非編碼的「調控 DNA」可能遠離它們控制的基因。為了處理這種複雜性,Evo-2 的設計使其能夠學習遠至 100 萬個鹼基對的 DNA 序列中的模式。

為了證明其解讀複雜基因組的能力,Hsu 團隊使用 Evo-2 預測了之前研究過的與乳腺癌有關的基因 BRCA1 突變的影響。Hsu 說,在確定編碼區的變化是否會導致疾病方面,它的表現幾乎與最好的生物人工智慧模型一樣好。「它是非編碼突變的最新技術。」未來,該模型可以幫助識別患者基因組中這些難以解釋的變化。

研究人員還測試了該模型解讀其他複雜基因組特徵的能力——包括猛獁象基因組的特徵。加州舊金山格拉德斯通研究所的計算生物學家 Christina Theodoris 說:「Evo-2 代表著學習 DNA 調控語法的重要一步。」

Kundaje 表示,Evo-2 似乎擅長尋找編碼序列以及附近的非編碼 DNA。但目前尚不清楚該模型是否已經瞭解調節基因活動的遠距離非編碼序列。

像 Evo-2 這樣的基因組模型的一個吸引力在於,它們可以生成不僅與蛋白質相對應的新 DNA 序列,還可以生成與蛋白質協同作用的非編碼序列。Hsu 團隊利用 Evo-1 建立了新的 CRISPR 基因編輯器,其中包括一種 DNA 切割酶和將蛋白質引導至目標位點的 RNA 分子。這些在實驗室實驗中被證明是有效的。

他們還嘗試設計細菌和病毒基因組,但這些基因組缺乏真正基因組的許多特徵。「我們將其比作基因組的模糊影像,」史丹佛大學和 Arc 研究所的計算生物學家 Brian Hie 在簡報會上說。

有了 Evo-2,這些影像就不那麼模糊了。研究人員利用該模型建立了受生殖支原體(一種細菌,是第一個基因組完全合成的細胞生物)、人類線粒體和 330,000 個 DNA 字母長的酵母染色體啟發的基因組。這些看起來比 Evo-1 產生的基因組更真實(在某些情況下缺乏合理的蛋白質),但「仍有改進空間」,Hie 說。如果沒有進一步改進,他懷疑這些基因組如果放入細胞中是否會起作用。

圖片

圖示:Evo 2 的機械可解釋性揭示了 DNA、RNA、蛋白質和生物體水平的特徵。(來源:論文)

計算生物學家、紐約市非營利性基因組模型開發公司 Tatta Bio 的執行長 Yunha Wang 表示,由於 Evo-2 接受了來自整個生命之樹的 DNA 訓練,因此它可以熟練地應用從細菌和古細菌基因組中學到的知識來生成新的人類蛋白質。

研究人員希望透過實驗室實驗驗證 Evo-2。例如,他們設計了改變摺疊 DNA(稱為染色質)可及性的序列(染色質會影響多細胞生物體細胞的身份),並正在與另一個實驗室合作在小鼠胚胎幹細胞中測試這些設計。

蛋白質語言模型和其他用於蛋白質設計的 AI 工具引發了一場生物設計革命。Hie 團隊最終希望用 AI 模擬整個細胞,他們希望像 Evo-2 這樣的基因組模型能夠進一步推動這一程序。

「我們希望將該領域從蛋白質設計推向基因組設計。」Hie 表示。

預測所有物種DNA、RNA、蛋白質的形式和功能,Arc、史丹佛、NVIDIA釋出最大AI生物模型Evo2

影片連結:https://mp.weixin.qq.com/s/o4ECM6F-dK2PUagS8kSYbg

相關報導:

https://news.stanford.edu/stories/2025/02/generative-ai-tool-marks-a-milestone-in-biology-and-accelerates-the-future-of-life-sciences

https://arcinstitute.org/news/blog/evo2

https://blogs.nvidia.com/blog/evo-2-biomolecular-ai/

https://www.nature.com/articles/d41586-025-00531-3

https://x.com/awscloud/status/1892244930292015336

相關文章