Nature子刊,快10倍,基於Transformer的逆向蛋白質序列設計方法

ScienceAI發表於2024-08-05

圖片

編輯 | 蘿蔔皮

藉助深度學習的進步,蛋白質設計和工程正以前所未有的速度發展。然而,目前的模型無法在設計過程中自然地考慮非蛋白質實體。

在這裡,瑞士洛桑聯邦理工學院(EPFL)的研究人員提出了一種完全基於原子座標和元素名稱的幾何 transformer 的深度學習方法,該方法可以根據不同分子環境所施加限制的主鏈支架,預測蛋白質序列。

使用該方法,研究人員可以以高成功率生產出高熱穩定性、催化活性的酶。這有望提高蛋白質設計流程的多功能性,以實現所需的功能。

該研究以「Context-aware geometric deep learning for protein sequence design」為題,於 2024 年 7 月 25 日釋出在《Nature Communications》。

圖片

設計蛋白質以實現功能性任務是一個具有重大生物學、醫學、生物技術和材料科學影響的挑戰。一個關鍵應用領域是蛋白質治療藥物的設計,透過定製蛋白質來精確針對特定疾病,可能比小分子藥物更具競爭力。這種方法可能革新許多健康問題的治療方式,從自身免疫疾病到癌症,提供更有效和個性化的治療方案。

此外,設計酶功能也是蛋白質設計中的另一個重要挑戰。酶作為天然催化劑在生物過程中起關鍵作用。透過設計新酶或改造現有酶,可以創造出促進自然界中罕見或不存在反應的催化劑。這對多個行業有深遠影響,包括製藥業和環保技術,例如合成複雜藥物分子或分解汙染物和塑膠。

深度學習方法顯著加速了蛋白質設計的成功率和多樣性。然而,雖然目前的蛋白質設計模型可以處理多條蛋白質鏈,但在處理非蛋白質實體時表現較差,限制了其應用範圍。

為解決這一問題,EPFL 的研究團隊曾經引入了一種深度學習模型——Protein Structure Transformer(PeSTo),一種幾何 transformer 架構,作用於原子點雲。

PeSTo 結合了 transformer 注意力機制,利用標量和向量狀態表示原子,可以預測幾乎任何分子與蛋白質介面的相互作用,包括蛋白質、核酸、脂類、離子、小配體、輔因子或碳水化合物。

在最新的工作中,該團隊利用該模型的獨特功能,並引入了基於 PeSTo 的蛋白質序列生成器模型 CARBonAra(Context-aware Amino acid Recovery from Backbone Atoms and heteroatoms)。

CARBonAra 基於 PDB 中可用的結構資料進行獨特訓練,可預測給定主鏈支架所有位置的氨基酸置信度,這些主鏈支架可以單獨提供,也可以與任何種類和數量的有助於推動序列設計的分子複合。

圖片

圖示:CARBonAra的架構以及與 SOTA 方法的比較。(來源:論文)

CARBonAra 的組成與效能

CARBonAra 使用由幾何 transformer 組成的深度學習模型,預測從輸入主幹支架中在蛋白質序列的每個位置找到給定氨基酸的可能性。CARBonAra 將主鏈原子(Cα、C、N、O)的座標和元素作為輸入,並使用理想的鍵角和鍵長新增虛擬 Cβ 原子。幾何形狀使用每個原子之間的距離和歸一化相對位移向量來描述。

幾何 transformer 操作對所有相鄰原子的相互作用進行編碼,並使用 transformer 處理標量和向量資訊並更新每個原子的狀態。最後,透過將原子狀態從原子級別彙集到殘基級別,研究人員訓練模型以位置特定評分矩陣的形式預測蛋白質序列每個位置的氨基酸置信度。

實際上,這些置信度可以被解釋為並對映到機率中,透過表徵在給定每種氨基酸型別的預測置信度的情況下正確預測的機率。

圖片

圖示:預測置信分析。(來源:論文)

與其他模型一樣,CARBonAra 透過使用獨熱編碼將特定氨基酸的先前序列資訊印入主鏈原子來支援自迴歸預測。

最重要的是,CARBonAra 繼承了 PeSTo 僅使用元素名稱和原子座標的能力,無需進行大量引數化,從而可以輕鬆適應各種場景。

因此,CARBonAra 可以解析和處理正在設計的蛋白質主鏈附近的任何分子實體,其中包括其他蛋白質、小分子、核酸、脂質、離子和水分子等一系列輸入。

資料集

利用 CARBonAra 固有的靈活性,研究人員能夠將 RCSB PDB 中的所有生物組裝體納入他們的訓練資料集。

這包括與其他分子實體(如離子、配體、核酸等)複合的蛋白質。訓練資料集由大約 370,000 個亞基組成,驗證資料集中還使用了另外 100,000 個亞基,所有這些亞基均來自 RCSB PDB 生物組裝體,並被註釋為最佳可能。

與以前建立的方法相比,遵循稍微更嚴格的協議,測試資料集由大約 70,000 個亞基組成,與沒有共享 CATH 域的訓練集不同,並且在低於 30% 的序列同一性下進行過濾。

該選擇標準確保了測試的穩健性,因為它排除了訓練資料集中存在的類似摺疊和序列。

圖片

圖示:在 GPU 上執行時分析。(來源:論文)

對於從不含非蛋白質分子的骨架結構中分離蛋白質或蛋白質複合物的序列設計,CARBonAra 的表現與 ProteinMPNN 和 ESM-IF1 等最先進的序列預測方法相當,並且計算成本具有競爭力(在 GPU 上比 ProteinMPNN 快約 3 倍,比 ESM-IF1 快 10 倍)。

從主鏈結構重建蛋白質序列

該方法在從主鏈結構重建蛋白質序列時,蛋白質單體設計的序列恢復率中值為 51.3%,二聚體設計的序列恢復率中值為 56.0%。儘管恢復率相似,但三種方法的最佳序列之間的序列同一性中值為 54% 至 58% 不等。

此外,研究人員觀察到 CARBonAra 可以生成高質量序列,當在單序列模式下使用 AlphaFold 預測時,這些序列可以按預期摺疊,TM 分數高於 0.9。

CARBonAra 在蛋白質核心處學習了更緊密的氨基酸包裝,從而導致更高的回收率並反映了對典型的埋藏氨基酸取代的較低耐受性,同時允許蛋白質表面具有更高的可變性,除非提供額外的功能或結構限制。

圖片

圖示:埋藏於表面的氨基酸的分析。(來源:論文)

從主幹支架進行序列預測的方法主要在具有理想主幹幾何形狀的實驗資料上進行訓練,當應用於生成的主幹時會導致效能下降。在訓練過程中向幾何圖形新增噪聲可以緩解此問題。

研究人員透過將 CARBonAra 應用於分子動力學 (MD) 模擬的結構軌跡來表徵該方法的穩健性。由於主鏈構象變化和先前顯示低恢復率的病例增加,序列恢復率(53±10%)與一致預測(54±7%)沒有顯著下降。

同時,研究人員觀察到每個位置預測的可能的氨基酸數量普遍減少,這表明探索構象空間正在限制序列空間,從而使得能夠設計有針對性的結構構象。

圖片

圖示:主鏈構象對預測的影響。(來源:論文)

具有超出蛋白質設計本身的意義

研究人員在一個主力系統(即 TEM-1 絲氨酸 β-內醯胺酶)上進行了實驗,展示了 CARBonAra 如何處理酶工程的挑戰,設計出在高溫下摺疊並保持催化活性的實際蛋白質。此外,研究人員還探索了從 CARBonAra 的輸出中取樣蛋白質序列空間的重點策略。

由於不能確定由得分最高的氨基酸產生的蛋白質序列是否具有功能性,因此需要採用取樣策略來產生可以在體外重組表達且穩定且具有功能的蛋白質。

目前為止,這尚未經過徹底測試。該團隊在此表明,適當的取樣策略不僅可以生成豐富的資訊來產生起作用的蛋白質,而且還可以生成反映在自然序列中觀察到的或透過誘變和選擇實驗取樣的自然變異的合成多序列比對。

這具有超出蛋白質設計本身的意義,特別是為了解蛋白質在生物物理一致的蛋白質進化模型框架內如何進化開啟了一扇窗戶。

從根本上來說,提高計算設計的成功率對於真正掌握這一領域非常重要,更實際的是,可以在實驗室中嘗試實際表達和純化時降低成本。

超高成功率

現在基於人工智慧的方法開始穩定下來,這成為一個重要的討論點。不同的方法和報告顯示的成功率差異很大,但通常不清楚如何評估每種方法。

Chroma 進行了非常保守的評估,將其成功率設定為 3% 左右,而 RoseTTAFold/ProteinMPNN 論文報告稱幾種蛋白質的平均成功率為 15%。

使用該研究報告的 TEM-1 β-內醯胺酶設計,成功率達到 40%。同樣,TIM 桶和 NTF2 摺疊的成功率也高達 40-55%,遠高於之前的平均 15%。

適合提高蛋白熱穩定性

除了直接應用於設計新蛋白質和調整蛋白質功能之外,CARBonAra 似乎還非常適合提高熱穩定性,就像其他蛋白質設計方法一樣,它們也能產生堅固、高熱穩定性的蛋白質。

這一觀察結果揭示的一個有趣方面與用於穩定製造和工業過程的酶的設計序列的智慧財產權有關:通常,設計的酶會以覆蓋較小但相當大的序列相似性範圍的方式受到保護。

從歷史上看,這已經足夠全面了;然而,包括 CARBonAra 在內的現代蛋白質設計方法可以設計出相似性低得多的蛋白質,這些蛋白質可以保留功能並高度穩定。

結語

展望未來,與其他蛋白質設計方法相比,CARBonAra 具有一些優勢,主要與其僅基於元素名稱和座標的內部工作有關,不需要任何進一步的引數化或中間計算。

因此,CARBonAra 看起來比其他替代方案更靈活。因為它可以從本質上解析任何型別的分子系統,所以可以對其他型別的生物分子(例如核酸、小分子、離子,甚至水)或生物組合中未發現的分子(如材料和表面)進行訓練,前提是有足夠的資料。

總之,CARBonAra 獨特地基於結構資料,是一種概念上不同的蛋白質序列預測和設計方法,具有解決分子設計和合成生物學未來挑戰所需的額外靈活性。

論文連結:https://www.nature.com/articles/s41467-024-50571-y

相關文章