用基於結構的突變偏好進行蛋白質設計,加州大學、MIT、哈佛醫學院團隊開發了一種無監督方法

ScienceAI發表於2024-03-06

圖片

編輯 | 蘿蔔皮

當前最新的蛋白質設計方法,往往依賴於具有多達數百個數百萬個引數的大型神經網路,同時並不清楚哪些殘基依賴性對於確定蛋白質功能至關重要。

加州大學(University of California)、麻省理工學院(Massachusetts Institute of Technology)以及哈佛醫學院(Harvard Medical School)的研究人員表明:在不考慮突變相互作用的情況下,單個殘基的氨基酸偏好,可以解釋 8 個資料集中的大部分甚至有時幾乎所有的組合突變效應 (R^2 ~ 78-98%);所以,很少有觀察結果(約突變殘基數量的 100 倍)能夠準確預測「保留的變異效應(held-out variant effects)」 (Pearson r > 0.80)。

該團隊假設殘基周圍的區域性結構背景足以預測突變偏好(mutation preferences),開發了一種稱為 CoVES(Combinatorial Variant Efluects from Structure)的無監督方法,可使用基於結構的突變偏好進行蛋白質設計。

測試結果證明,CoVES 不僅優於無模型方法,而且還優於用於建立功能性和多樣化蛋白質變體的複雜模型。CoVES 為識別功能性蛋白質突變的複雜模型提供了一種有效的替代方案。

該研究以「Protein design using structure-based residue preferences」為題,於 2024 年 2 月 22 日釋出在《Nature Communications》。

圖片

分子進化和蛋白質工程的一個關鍵問題是:「多個突變如何結合起來影響功能和未來的突變軌跡(mutational trajectories)」。給定蛋白質的可能突變軌跡可能是有限的,例如,如果單個取代的負面影響只能在另一個啟用突變存在的情況下才能容忍。

從概念上講,突變之間的這種特定依賴性產生了「崎嶇」的適應度景觀,其中對適應度增加突變的自然或實驗選擇,並不一定會產生最佳功能的蛋白質。另一方面,如果多個突變組合在一起而彼此之間沒有特定的依賴關係,則序列適應度函式將產生一個簡單的單調函式,選擇可以更有效地發揮作用。同樣,瞭解這種特定的依賴性對於確定突變組合,從而設計具有所需功能的蛋白質療法至關重要。

蛋白質功能建模的新成果,主要集中在提高模型適應更復雜適應性景觀的能力上,但生物蛋白質適應性景觀的複雜性尚不明確。特定依賴性的數量隨相互作用順序增加。例如,氨基酸長度為 100的蛋白質有 2000 個一階位點項,約 100 萬個二階項和約 2 億個三階項。

訓練這類任務模型需要大量資料、昂貴的計算資源,超引數調整和大量訓練時間;並且,過度引數化的模型,容易過度擬合和產生誤報。對於大多數蛋白質,準確預測組合蛋白質變異效應需要哪些依賴關係尚不清楚。生物適應度景觀的複雜性將決定任何模型近似適應度函式的能力。

CoVES:一種無監督方法

為了確定上位性在蛋白質適應性景觀中的重要性,加州大學、麻省理工學院以及哈佛醫學院的聯合研究團隊檢查了 6 種蛋白質的組合變異效應(使用 8 個單獨收集的資料集)。

研究人員發現,測量到的這些蛋白質的組合變異效應,可以透過僅考慮 20*N 殘基突變偏好的函式得到很好的解釋 (R^2~0.78–0.98),其中 N 表示突變位置的數量,透過全域性非線性傳遞,不考慮突變之間的特定依賴性。

研究表明,少量的觀察(對殘基突變偏好引數的數量進行 5 倍過取樣,並且在一個資料集中,觀測值少至 100-200 個)足以對保留的組合變異效應實現高預測精度(Pearson r > 0.8),優於任何預測變異效應的無監督方法。

圖片

圖示:僅使用結構資訊設計蛋白質序列,並使用根據實驗觀察訓練的替代適應度函式評估設計的序列。(來源:論文)

據此,該團隊設計了一種無監督策略,稱為 CoVES(Combinatorial Variant Effects from Structure)。CoVES 透過使用等變圖神經模型(將殘基周圍的結構背景作為輸入)來推斷所需的殘基突變偏好,從而設計功能多樣的蛋白質變體,而無需進行實驗變體效應測量。

具體來說,只需使用 CoVES 獨立地考慮殘基微環境,就可以有效地設計出功能豐富且多樣的變異體,這種方法在使用替代適應度函式評估蛋白質設計時,其表現與最先進的高容量神經方法相當。

圖片

圖示:CoVES 是一種從結構微環境中學習殘基突變偏好的無監督方法,可以預測變異效應並生成設計功能性和多樣化的序列。(來源:論文)

雖然這種突變偏好模型並未顯式地捕獲突變殘基之間的依賴性,但這並不排除存在更高階的上位性。

首先,每個殘基的突變偏好本質上捕獲了對鄰近殘基的隱含依賴性;實際上,研究人員觀察到在接觸殘基處的突變可以改變給定殘基的突變偏好。

其次,雖然 78-98% 的觀察到的組合變異效應可以僅由突變偏好解釋,但在某些資料集中,剩餘的變異可能會由殘基之間的真正的生物特異性依賴性解釋。

觀察結果表明,緊密的結構環境是變異效應預測和設計的主要決定因素。CoVES 與可以學習任意突變依賴性的自迴歸方法的效能相似,這表明區域性結構環境可以捕獲大部分預測效應。此外,研究人員還發現,在監督的全域性上位性模型中,接觸殘基處的突變可以改變位點偏好。

結語

總的來說,該團隊提供了一個新的視角來理解和設計蛋白質的變異效應,這對於未來的蛋白質工程和藥物設計具有重要的啟示意義。研究結果表明,透過考慮每個殘基的突變偏好,可以有效地設計出功能豐富且多樣的蛋白質變異體,這為蛋白質設計提供了一種新的可能性。這無疑將為蛋白質設計領域帶來新的啟示和挑戰,值得我們進一步探索和研究。

論文連結:https://www.nature.com/articles/s41467-024-45621-4

相關文章