登Nature子刊,中科院計算所團隊開發CarbonDesign,進行準確且穩健的蛋白質序列設計

ScienceAI發表於2024-05-28

登Nature子刊,中科院計算所團隊開發CarbonDesign,進行準確且穩健的蛋白質序列設計

編輯 | 蘿蔔皮

蛋白質是生物體內執行生物功能的基礎元件,在催化、免疫和訊號傳遞等生物過程中起著重要作用。

一般認為,蛋白質序列設計是蛋白質結構預測的逆問題。具體地,是指從給定的蛋白質三維結構出發,設計出能夠摺疊成為目標蛋白結構、具有目標蛋白功能的序列。

它是從頭蛋白質設計的關鍵一步,一旦主鏈結構被生成,為其設計最佳序列就變得至關重要。蛋白質序列設計在藥物設計、酶工程等領域具有重要應用。

由於可能的蛋白質序列和結構比宇宙中的粒子數量還要多,當前實現準確且穩健的蛋白質序列設計,仍然是一個挑戰。

中國科學院計算技術研究所張海倉、卜東波帶領的蛋白質設計團隊開發了蛋白質序列設計新方法 CarbonDesign。

CarbonDesign 是蛋白質序列設計版的 AlphaFold,它從用於蛋白質結構預測的 AlphaFold 模型中汲取靈感,並專門針對蛋白質序列設計進行了演算法改進。

該工具能夠準確且穩健的設計蛋白質序列,可以被廣泛應用於不同蛋白質設計場景,並且可以預測蛋白質突變的功能影響。

該研究「Accurate and robust protein sequence design with CarbonDesign」於2024 年 5 月 23 日釋出在《Nature Machine Intelligence》。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00838-2

圖片

圖示:CarbonDesign 整體模型架構。(來源:論文)

CarbonDesign 的核心是利用新穎的網路架構 Inverseformer 作為主鏈結構編碼器,並利用馬爾可夫隨機場(MRF)模組作為序列解碼器。Inverserformer 使用一系列節點更新和三角邊更新學習蛋白質結構的單點表示和成對錶示,並用這些表示引數化馬爾可夫隨機場的單體項和雙體項。

直觀上,與 AlphaFold 的 Evoformer 相比,Inverseformer 反轉了資訊流:Evoformer 是學習從蛋白質序列到結的對映,而 Inverseformer 是學習從蛋白質結構到序列的對映。

論文還介紹了另外兩個重要概念:

1. CarbonDesign 採用網路迴圈策略(network recycling),以端到端的方式引入蛋白質序列語言模型。在數以億計的蛋白質序列上預訓練的蛋白質語言模型,為 CarbonDesign 提供了有效的進化約束和設計序列的先驗資訊。

2. CarbonDesign 利用多工學習策略,同時生成蛋白質序列和對應的側鏈結構。

論文使用不同的資料集廣泛評估了 CarbonDesign,包括 CAMEO 資料集、CASP15 資料集以及 AlphaFold 的預測結構。更重要的是,論文也在蛋白質從頭設計應用場景下(例如 RFDiffusion 和 FrameDiff)生成的主鏈結構上,評估了 CarbonDesign 的序列生成能力。

圖片

圖示:在 RFdiffusion 生成的 de novo 主鏈結構上評估 CarbonDesign 的效能。(來源:論文)

結果表明,在晶體結構、預測結構和擴散模型生成的主鏈結構上,CarbonDesign 都顯示出準確且穩健的序列生成能力,表明其在多種從頭蛋白質設計場景中的實用性。

此外,CarbonDesign 支援以零樣本學習的方式來預測序列變異的功能效應,證明了其捕獲蛋白質序列及其功能之間內在關係的能力。這表明 CarbonDesgin 也可以作為蛋白質功能突變影響的零樣本預測器。

圖片

圖示:CarbonDesgin 在解釋變異功能效應方面的評估。(來源:論文)

CarbonDesign 的論文作者包括任密龍、於春功、卜東波和張海倉;ScienceAI 之前曾報導過卜東波、楊懷義、葉盛老師共同通訊發表在Bioinformatcs 上的演算法 ProDesign-LE,其核心思想是用神經網路刻畫氨基酸的區域性結構微環境進行蛋白質設計,可以點選連結跳轉閱讀。

圖片

圖示:蛋白質AI設計平臺-CarbonMatrix。(來源:CarbonMatrix團隊提供)

另外,張海倉老師指出,CarbonDesign 是 CarbonMatrix-蛋白質 AI 設計平臺的一部分。目前 CarbonMatrix 平臺已包括:

1、CarbonDesign, 用於蛋白質序列設計。

2、CarbonNovo, 用於端到端的蛋白質從頭結構和序列設計。

3、AbX, 用於抗體設計。

CarbonNovo 和 AbX 也於近日發表在 AI 頂會 ICML 2024 上。

圖片

圖示:CarbonNovo 端到端生成蛋白質結構和序列的模型圖。(來源:論文)

CarbonNovo 是端到端的蛋白質結構和序列聯合設計模型。之前的蛋白質從頭設計演算法都是兩階段法:1.主鏈結構生成;2.序列生成。

例如,領域內代表軟體 RFdiffusion 等先利用擴散模型生成主鏈結構,再利用 ProteinMPNN 生成序列。兩階段法的主要問題在於,序列生成的誤差不能反饋給結構生成模組。

基於此,CarbonNovo 融合了擴散模型和馬爾可夫隨機場模型,端到端地生成蛋白質結構和序列,保證了蛋白質序列和結構的一致性。CarbonNovo 能夠在蛋白質可設計性等指標上超越了當前最有代表性的方法,如 RFdiffusion,Chroma,FrameDiff 等,顯示了一階段的端到端生成模型優於兩階段生成模型。

圖片

圖示:AbX抗體設計模型圖。(來源:論文)

AbX 是專門用於抗體設計的生成模型。當前 AI 抗體設計領域,面臨的主要困難在於抗體-抗原複合物資料嚴重不足,難以訓練大規模抗體生成模型。基於此,AbX 將蛋白質語言模型中的進化約束和 Rosetta 能量函式中的幾何和物理約束引入擴散模型,用於指導抗體生成過程,縮小結構和序列的可能搜尋空間。

論文在兩個抗原抗體獨立測試集上進行評測, AbX 在所有指標上(例如抗體-抗原結合能)大幅度超越了當前主流 AI 方法如 DyMean,Diffab 等。CarbonMatrix 團隊正在進行抗體設計方面的生物實驗,以進一步驗證 AbX 在抗體設計上的有效性。

目前,CarbonDesign 已經開源,CarbonNovo 和AbX 等軟體也將會在近期全部開源。

github 地址:https://github.com/zhanghaicang/carbonmatrix_public

CarbonMatrix 團隊將繼續致力於 AI 蛋白質設計模型的開發,也歡迎業界人士使用其平臺。

CarbonMatrix平臺相關論文:

1、Accurate and robust protein sequence design with CarbonDesign. Milong Ren, Chungong Yu, Dongbo Bu, Haicang Zhang. Nature Machine Intelligence. 6, 536–547 (2024).

論文連結:https://doi.org/10.1038/s42256-024-00838-2

2、Antibody Design Using a Score-based Diffusion Model Guided by Evolutionary, Physical and Geometric Constraints. Tian Zhu, Milong Ren, Haicang Zhang. ICML 2024.

論文連結:https://icml.cc/virtual/2024/poster/35143

3、CarbonNovo: Joint Design of Protein Structure and Sequence Using a Unified Energy-based Model. Milong Ren, Tian Zhu, Haicang Zhang. ICML 2024.

論文連結:https://icml.cc/virtual/2024/poster/34533

相關文章