模擬5億年進化的ESM3在Science釋出了,可推理蛋白質序列、結構和功能

ScienceAI發表於2025-01-17

模擬5億年進化的ESM3在Science釋出了,可推理蛋白質序列、結構和功能

編輯 | 蘿蔔皮

2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白質語言的大模型,成功在自然進化未曾涉足的區域設計出功能性蛋白。同期上線了該研究的預印版本。

時隔半年,該研究以「Simulating 500 million years of evolution with a language model」為題,於 2025 年 1 月 16 日在《Science》釋出。

圖片

讓我們簡單回顧一下。

超過 30 億年的進化產生了編碼在天然蛋白質空間中的生物影像。

論文裡,研究人員展示了在進化資料上進行大規模訓練的語言模型,可以生成遠離已知蛋白質的功能性蛋白質。

他們提出了 ESM3,這是一種前沿的多模態生成語言模型,可推理蛋白質的序列、結構和功能。

圖片

圖示:ESM3 可以同時推理蛋白質序列、結構和功能。(來源:論文)

ESM3 可以結合其模態來遵循複雜的提示,並且對生物學對齊(biological alignment)反應靈敏,從而提高其保真度。


圖片

圖示:ESM3 透過序列、結構和功能的多模態提示為 PETase 活性位點設計了一個支架。(來源:論文)

研究人員使用 ESM3 設計了一種名為 esmGFP 的新熒光蛋白,它與已知最相似的熒光蛋白序列同源性僅為 58%,這在以往的人工設計中是極為罕見的。

透過指導 ESM3 關注熒光蛋白形成和催化色素體反應所必需的序列和結構特徵,模型經過一系列迭代設計,最終產生了具有明亮熒光效果的 esmGFP。

圖片
圖示:esmGFP 與已知熒光蛋白比較。(來源:論文)

該蛋白不僅在序列上與已知蛋白有顯著差異,而且在實驗中展現出與常見熒光蛋白相似的熒光強度。這相當於跨越了超過 5 億年的自然進化距離。

關於 EvolutionaryScale

EvolutionaryScale 是一家非盈利公司。他們的使命是透過與科學界合作以及開放、安全和負責任的研究,開發人工智慧來理解生物學,造福人類健康和社會。

自成立以來,ESM 專案一直致力於透過程式碼和模型釋出來開放科學,該團隊承諾將繼續堅持下去。

該公司成立於 2023 年 7 月已經完成 1.42 億美元種子輪融資,並已經與亞馬遜(Amazon)和英偉達(NVIDIA)公司達成合作。

論文連結: https://www.science.org/doi/10.1126/science.ads0018

相關內容:
https://x.com/ScienceMagazine/status/1880012426503962927
https://www.evolutionaryscale.ai/blog/esm3-release

相關文章