編輯 | KX
準確預測蛋白質突變效應在蛋白質工程和設計中至關重要。
近日,清華大學龔海鵬團隊提出了一套基於幾何學習的模型套件——GeoStab-suite,其中包含 GeoFitness、GeoDDG 和 GeoDTm 三個模型,分別用於預測蛋白質突變後的適應度得分、ΔΔG 和 ΔTm。
GeoFitness 採用專門的損失函式,允許使用深度突變掃描資料庫中的大量多標記適應度資料對統一模型進行監督訓練。為了進一步改進 ΔΔG 和 ΔTm 預測的下游任務,GeoFitness 的編碼器被重新用作 GeoDDG 和 GeoDTm 中的預訓練模組,來克服缺乏足夠標記資料的挑戰。
這種預訓練策略與資料擴充套件相結合,顯著提高了模型效能和通用性。
在基準測試中,就 Spearman 相關係數而言,GeoDDG 和 GeoDTm 分別比其他最先進的方法高出至少 30% 和 70%。
相關研究以「Improving the prediction of protein stability changes upon mutations by geometric learning and a pre-training strategy」為題,於 10 月 25 日發表在《Nature Computational Science》上。
論文連結:https://www.nature.com/articles/s43588-024-00716-2
蛋白質設計
蛋白質適應度是指蛋白質發揮特定功能的能力,但在不同的實驗情況下,通常用不同的指標來量化,例如酶活性、肽結合親和力和蛋白質穩定性。蛋白質設計和工程的主要目標之一是提高蛋白質適應度,從而提高生物技術和生物製藥過程中的蛋白質效能。
在各種蛋白質適應度指標中,蛋白質穩定性備受關注,通常用 ΔG 和 Tm 兩個指標來評估。ΔG 表示室溫下展開自由能變化,描述蛋白質的熱力學穩定性;Tm 代表蛋白質熔化溫度,反映蛋白質在溫度波動下保持摺疊狀態的能力。
圖示:DMS、ΔΔG 和 ΔTm 資料彙總。(來源:論文)
基於深度突變掃描 (DMS) 資料庫可以開發和最佳化蛋白質適應度預測方法。然而,DMS 資料的多標籤特性阻礙了統一預測模型的訓練。
與多標記適應度資料不同,突變後蛋白質穩定性的變化明確地由兩個指標 ΔΔG 和 ΔTm 定義,實驗資料的積累可以開發相應的預測演算法。
近年來,ΔΔG 的預測受到了極大的關注。目前的方法主要可分為機制預測器、機器學習預測器和深度學習預測器。與 ΔΔG 預測相比,ΔTm 預測的研究相對較少。
基於幾何學習的三個模型
GeoStab 套件包含三個不同的軟體程式:GeoFitness、GeoDDG 和 GeoDTm,它們都將蛋白質序列和結構的資訊彙總到基於幾何學習的編碼器中進行預測。
幾何編碼器採用圖注意 (GAT) 神經網路架構,其中節點(一維,1D)代表氨基酸殘基,邊緣(2D)反映殘基間的相互作用。
GeoFitness 是一個統一模型,能夠預測所有單個突變的蛋白質變體的適應度景觀。具體來說,研究人員設計了一個特殊的損失函式,允許使用 DMS 資料庫中的多標記適應度資料訓練統一模型。透過這種方式得出的模型避免了實際使用前模型重新訓練的先驗限制,同時實現了優於其他最先進方法(如 ECNet)的效能。
此外,透過重新利用 GeoFitness 的幾何編碼器,研究人員開發了兩個額外的下游模型 GeoDDG 和 GeoDTm,分別用於預測蛋白質突變後的 ΔΔG 和 ΔTm,模型架構經過專門設計,從而確保預測結果的反對稱性。
蛋白質結構資訊可以從蛋白質資料庫 (PDB) 中獲取,也可以使用 AlphaFold2 純粹基於序列進行預測。因此,研究人員訓練了兩個版本的 GeoDDG 和 GeoDTm,分別使用字尾「-3D」和「-Seq」來註釋依賴於實驗結構的版本和實際使用中只需要序列資訊的版本。
值得注意的是,研究人員透過兩種策略解決了 ΔΔG 和 ΔTm 預測中資料有限的挑戰:透過資料收集擴充套件訓練資料以及繼承在 DMS 資料庫上預訓練的 GeoFitness 模型的幾何編碼器。考慮到蛋白質變體的適應度資料至少比 ΔΔG 和 ΔTm 的資料多一個數量級,以及蛋白質適應度與生物學穩定性的相關性,後一種策略尤其顯著提高了模型效能和通用性。
在基準測試集上進行評估時,S669 用於 ΔΔG 和 S571(該研究中的自組集)用於 ΔTm 預測,就預測值和實驗值之間的 Spearman 相關係數而言,GeoDDG 和 GeoDTm 分別比其他最先進的方法至少高出 30% 和 70%。
研究人員已經為 GeoStab-suite 建立了一個 Web 伺服器,GeoStab-suite 是一套由三個預測因子 GeoFitness、GeoDDG 和 GeoDTm 組成的套件。GeoStab-suite 將成為蛋白質科學領域研究人員的有用工具。