模擬5億年的進化資訊,首個同時推理蛋白質序列、結構和功能的生物學大模型

ScienceAI發表於2024-06-26

圖片

編輯 | 蘿蔔皮

在三十億年的自然進化歷程中,現存蛋白質的形態得以形成,經歷了漫長的自然篩選過程。進化如同在地質時間尺度上進行的平行實驗,透過隨機突變和選擇機制,依據蛋白質的序列、結構與功能進行篩選。

在這裡,EvolutionaryScale 的研究人員展示了在進化產生的標記上訓練的語言模型可以充當進化模擬器,用於生成不同於已知蛋白質序列的功能性蛋白質。

研究人員提出了 ESM3,這是一種前沿的多模態生成語言模型,可推理蛋白質的序列、結構和功能。ESM3 可以結合其模態來遵循複雜的提示,並且對生物學對齊(biological alignment)高度敏感。

研究人員使用 ESM3 生成熒光蛋白。其中一種功能上明亮的熒光蛋白,與已知的熒光蛋白的序列差異很大(58% 同源性)。

該研究的預印版文章「Simulating 500 million years of evolution with a language model」近期將釋出在 bioRxiv 預印平臺。

圖片

自然進化是如何在超過三十億年的時間裡,雕琢出當前自然界中蛋白質的多樣性的呢?

這一過程涉及無數隨機突變與自然選擇事件,每一個環節都嚴格考驗著蛋白質的序列、結構及其執行的生物功能,只有最適應環境變化的蛋白質才能留存下來。

因此,現存蛋白質序列資訊中實質上是蘊含著生物學變數對幾十億年漫長進化路徑的影響。

EvolutionaryScale 團隊中提出了一種創新方法,即利用名為 ESM3 的多模態生成語言模型,可以模擬這一宏大的進化過程。

模擬5億年的進化資訊,首個同時推理蛋白質序列、結構和功能的生物學大模型
影片連結:https://mp.weixin.qq.com/s/S_BRIJcFKuKk111Gomo7xQ
影片:ESM3 概述。(來源:公司官網)

ESM3 不僅能夠理解和生成蛋白質序列,還能綜合考慮蛋白質的結構與功能,成為一個強大的進化模擬工具。該模型設計有獨特的幾何注意力機制,能高效處理蛋白質的三維結構資訊,這對於理解及預測蛋白質行為至關重要。

圖片

圖示:ESM3 可以同時推理蛋白質序列、結構和功能。(來源:論文)

語言模型基於離散單元或標記進行操作。為了建立一個能夠推理蛋白質的三個基本生物學特性(序列、結構和功能)的模型,研究人員必須將三維結構和功能轉換為離散字母表,並構建一種將每個三維結構寫成字母序列的方法。

這使得 ESM3 能夠進行大規模訓練,從而釋放新興的生成能力。ESM3 的詞彙表將序列、結構和功能都整合在同一個語言模型中。

圖片

圖示:ESM3 透過序列、結構和功能的多模態提示為 PETase 活性位點設計了一個支架。(來源:論文)

ESM3 的訓練目標很簡單。對於每種蛋白質,提取、標記和部分遮蔽其序列、結構和功能。ESM3 的任務是使用受自然語言處理模型啟發的遮蔽語言建模目標來預測遮蔽位置。

為了完成這項任務,ESM3 必須學習深入瞭解進化規模資料中序列、結構和功能之間的聯絡。當擴充套件到數十億種蛋白質和數十億個引數時,ESM3 學會模擬進化。

ESM3 能夠生成不同於現有已知蛋白質序列的功能性蛋白質。此模型的特點在於其能夠理解和響應複雜的多模式提示,同時對生物學對齊有很高的敏感度。

ESM3 對生物學對齊的高度敏感,意味著它能精準地識別並遵循生物進化和功能相關的模式。透過這種對齊,模型能夠更好地理解蛋白質如何根據其生物學角色和環境需求進化,從而在設計新蛋白質時,更準確地反映自然界的生物邏輯和進化約束。

它可以按照提示生成新的蛋白質。ESM3 的多模態推理能力使科學家能夠以前所未有的控制程度生成新蛋白質。例如,可以提示模型結合結構、序列和功能,為 PETase 的活性位點提出潛在的支架,PETase 是一種降解聚對苯二甲酸乙二醇酯 (PET) 的酶,這是蛋白質工程師分解塑膠廢物的研究目標。

解決了更難的生成問題

圖片

圖示:ESM3 模型在生成滿足原子配位提示的蛋白質的任務上進行了評估。(來源:論文)

ESM3 解決具有挑戰性的蛋白質設計任務的能力,會隨著蛋白質規模的擴大而顯現。其中一項任務是原子協調,即根據指定序列中距離較遠但結構中距離較近的氨基酸原子位置的提示來設計蛋白質。

這衡量了模型在結構生成中實現原子級精度的能力,這對於設計功能性蛋白質至關重要。ESM3 解決這些任務的能力隨著規模的擴大而提高,也就是說,ESM3 解決了更難的生成問題,而規模是其中的一個函式。

ESM3 透過使用類似於 LLM 中應用的人類反饋強化學習 (RLHF) 的對齊方法,透過反饋進一步改進。ESM3 無需接收人類的反饋,而是可以自我改進,提供有關其自身生成質量的反饋。溼實驗室實驗或現有實驗資料的反饋也可用於使 ESM3 的生成與生物學保持一致。

跨越 5 億年的自然進化距離

研究人員利用 ESM3 設計了一種名為 esmGFP 的新熒光蛋白,它與已知最相似的熒光蛋白序列同源性僅為 58%,這在以往的人工設計中是極為罕見的。

透過指導 ESM3 關注熒光蛋白形成和催化色素體反應所必需的序列和結構特徵,模型經過一系列迭代設計,最終產生了具有明亮熒光效果的 esmGFP。

圖片

圖示:esmGFP 與已知熒光蛋白比較。(來源:論文)

該蛋白不僅在序列上與已知蛋白有顯著差異,而且在實驗中展現出與常見熒光蛋白相似的熒光強度。這相當於跨越了超過 5 億年的自然進化距離。

EvolutionaryScale 是一家非盈利公司。他們的使命是透過與科學界合作以及開放、安全和負責任的研究,開發人工智慧來理解生物學,造福人類健康和社會。自成立以來,ESM 專案一直致力於透過程式碼和模型釋出來開放科學,該團隊承諾將繼續堅持下去。

該公司成立於 2023 年 7 月已經完成 1.42 億美元種子輪融資,並已經與亞馬遜(Amazon)和英偉達(NVIDIA)公司達成合作。

ESM相關程式碼:https://github.com/evolutionaryscale/esm
論文連結:https://evolutionaryscale-public.s3.us-east-2.amazonaws.com/research/esm3.pdf
相關報導:
https://www.evolutionaryscale.ai/blog/esm3-release
https://twitter.com/ylecun/status/1805634811773571496
https://twitter.com/ylecun/status/1805581310548697360
https://x.com/ebetica/status/1805599844246884677
https://www.businesswire.com/news/home/20240625717839/en/

相關文章