編輯 | 蘿蔔皮
2024 年夏天 EvolutionaryScale 推出了 ESM3,一款面向蛋白質語言的大模型,成功在自然進化未曾涉足的區域設計出功能性蛋白。同期上線了該研究的預印版本。
時隔半年,該研究以「Simulating 500 million years of evolution with a language model」為題,於 2025 年 1 月 16 日在《Science》釋出。
讓我們簡單回顧一下。
超過 30 億年的進化產生了編碼在天然蛋白質空間中的生物影像。
論文裡,研究人員展示了在進化資料上進行大規模訓練的語言模型,可以生成遠離已知蛋白質的功能性蛋白質。
他們提出了 ESM3,這是一種前沿的多模態生成語言模型,可推理蛋白質的序列、結構和功能。
ESM3 可以結合其模態來遵循複雜的提示,並且對生物學對齊(biological alignment)反應靈敏,從而提高其保真度。
研究人員使用 ESM3 設計了一種名為 esmGFP 的新熒光蛋白,它與已知最相似的熒光蛋白序列同源性僅為 58%,這在以往的人工設計中是極為罕見的。
透過指導 ESM3 關注熒光蛋白形成和催化色素體反應所必需的序列和結構特徵,模型經過一系列迭代設計,最終產生了具有明亮熒光效果的 esmGFP。
該蛋白不僅在序列上與已知蛋白有顯著差異,而且在實驗中展現出與常見熒光蛋白相似的熒光強度。這相當於跨越了超過 5 億年的自然進化距離。
關於 EvolutionaryScale
EvolutionaryScale 是一家非盈利公司。他們的使命是透過與科學界合作以及開放、安全和負責任的研究,開發人工智慧來理解生物學,造福人類健康和社會。
自成立以來,ESM 專案一直致力於透過程式碼和模型釋出來開放科學,該團隊承諾將繼續堅持下去。
該公司成立於 2023 年 7 月已經完成 1.42 億美元種子輪融資,並已經與亞馬遜(Amazon)和英偉達(NVIDIA)公司達成合作。
論文連結: https://www.science.org/doi/10.1126/science.ads0018