蛋白質功能預測新SOTA,上海理工、牛津等基於統計的AI方法,登Nature子刊

ScienceAI發表於2024-08-22
圖片

編輯 | KX

蛋白質與其他分子相結合,促進幾乎所有的基礎生物活動。因此,瞭解蛋白質功能對於理解健康、疾病、進化和分子水平上的生物體功能至關重要。

然而,超過 2 億種蛋白質仍未得到表徵,計算方法在很大程度上依賴於蛋白質的結構資訊來預測不同質量的註釋。

近日,來自牛津大學、蘇黎世聯邦理工學院、上海理工大學和北京師範大學組成的研究團隊,設計了一種基於統計的圖網絡方法,稱為 PhiGnet,從而促進蛋白質的功能註釋和功能位點的識別。

PhiGnet 不僅在效能上優於其它方法,而且即使在沒有結構資訊的情況下也縮小了序列-功能差距。研究結果表明,將深度學習應用於進化資料可以突出殘基級別的功能位點,為解釋和研究生物醫學中蛋白質的現有特性和新功能提供寶貴支援。

相關研究以「Accurate prediction of protein function using statistics-informed graph networks」為題,於 8 月 4 日釋出在《Nature Communications》上。

圖片

論文連結:https://www.nature.com/articles/s41467-024-50955-0

瞭解蛋白質功能對於理解許多關鍵生物活動的複雜機制至關重要,對醫學、生物技術和藥物開發領域具有深遠的影響。

迄今為止,UniProt 資料庫(6/2023)中已有超過 3.56 億種蛋白質被測序,其中絕大多數(~80%)沒有已知的功能註釋。

深度學習方法在預測蛋白質 3D 結構方面取得了顯著的準確性,超越了從頭算方法和同源性建模等經典方法的能力。然而,準確地將功能註釋分配給蛋白質仍然具有挑戰性,尤其是與實驗測定相比。

為了應對這些挑戰,研究人員假設可以利用共同進化殘基中所包含的資訊來註釋殘基級別的功能。

牛津大學團隊提出利用基於統計的圖網絡僅從蛋白質序列預測其功能。該方法固有地表徵了進化特徵,可以對執行特定功能的殘基的重要性進行定量評估。

該方法利用從進化資料中獲得的知識來驅動兩個堆疊圖卷積網路。藉助所獲得的知識和設計的網路架構,可以準確地為蛋白質分配功能註釋,並且重要的是,可以量化每個殘基相對於特定功能的重要性。

用於蛋白質功能註釋的 PhiGnet

PhiGnet 方法使用基於統計的圖網絡來註釋蛋白質功能並根據其序列識別跨物種的功能位點。

圖片

圖示:PhiGnet 註釋蛋白質功能。(來源:論文)

為了從進化耦合(EVC,兩個共變位點的成對殘基之間的關係)和殘基群落(RC,殘基之間的層次相互作用)中吸收知識,研究人員設計了雙通道架構的方法,採用堆疊圖卷積網路 (GCN)。該方法專門用於為蛋白質分配功能註釋,包括酶委員會 (EC) 編號和基因本體 (GO) 術語(生物過程、BP、細胞成分、CC 和分子功能、MF)。

當提供蛋白質序列時,研究使用預先訓練的 ESM-1b 模型得出其嵌入。隨後,將嵌入作為圖節點以及 EVC 和 RC(圖邊)輸入到雙堆疊 GCN 的六個圖卷積層中。這些層與兩個完全連線 (FC) 層塊協同工作,精心處理來自兩個 GCN 的資訊,最終生成一個機率張量,用於評估為蛋白質分配功能註釋的可行性。

此外,使用梯度加權類啟用圖 (Grad-CAM) 方法得出的啟用分數(activation score)用於評估每個殘基在特定功能中的重要性。該分數使 PhiGnet 能夠在單個殘基水平上精確定位功能位點。

例如,透過計算含有絲氨酸-天冬氨酸重複序列的蛋白質 D (SdrD) 的 RC,表明功能位點的殘基透過自然進化而得以保留,並且 PhiGnet 能夠捕獲此類資訊,從而改進在殘基水平上預測蛋白質功能的方法,即使在沒有結構資料的情況下也是如此。

註釋蛋白質功能位點

計算預測是否與實驗確定的功能註釋一樣準確?為了解決這個問題,研究使用啟用分數對每種氨基酸對蛋白質功能的貢獻進行了定量檢查。評估了 PhiGnet 的預測效能,並評估了九種蛋白質中殘基的重要性(它們對蛋白質功能的貢獻)。

圖片

圖示:PhiGnet 在殘基水平上註釋蛋白質功能。(來源:論文)

透過計算九種蛋白質中每個殘基的啟用分數,並將它們與透過實驗或半手動註釋確定的殘基進行比較。PhiGnet 在預測殘基水平的重要位點方面表現出了良好的準確性(平均 ⩾ 75%),與實際的配體/離子/DNA 結合位點非常一致。PhiGnet 準確地識別出具有高啟用分數的蛋白質的功能重要殘基。

優於其他最先進的方法

為了評估 PhiGnet 的預測效能,應用該方法來推斷兩個基準測試集中蛋白質的功能註釋(EC 編號和 GO 術語)。將 PhiGnet 與最先進的方法進行比較,包括基於比對的方法、基於深度學習的方法。比較使用了兩個基本指標,包括以蛋白質為中心的 Fmax 得分和精確召回曲線下面積 (AUPR)。

圖片

圖示:不同方法在不同本體和 EC 編號中的 GO 術語之間的比較。(來源:論文)

PhiGnet 展示了在兩個測試集中為蛋白質分配功能註釋的預測能力。它分別對 GO 術語和 EC 編號實現了 0.70 和 0.89 的平均 AUPR,以及 0.80 和 0.88 的 Fmax 分數。

總體而言,PhiGnet 在基準資料集上的表現明顯優於所有監督和無監督方法。

此外,還證明了 PhiGnet 的泛化穩健性,可以測試與訓練集中的蛋白質具有不同序列同一性閾值的蛋白質。在不同的最大序列同一性水平(30%、40%、50%、70% 和 95%)下,隨著序列同一性的增加,PhiGnet 表現出更好的預測效能。

由進化特徵驅動

進化資料在 PhiGnet 中起著重要作用,可用於預測蛋白質功能註釋和識別功能位點。首先,進行了消融實驗,以測試 EVC/RC 對 PhiGnet 的貢獻。實驗表明,PhiGnet 可以準確分配蛋白質功能註釋。此外,使用 EVC 或 RC 的 PhiGnet 證明了學習一般序列功能關係的強大能力,通常比其他方法更好或一樣好。

其次,進一步研究了 PhiGnet 從殘基群落中已識別的功能相關殘基中表徵有意義特徵的能力。計算了殘基的啟用分數以強調它們對蛋白質功能的貢獻。值得注意的是,預測的殘基與透過實驗測定確定的功能位點的殘基一致,比 RC 中的殘基識別得更好。

圖片

圖示:PhiGnet 學習進化特徵以識別蛋白質功能位點。(來源:論文)

研究表明,進化資訊,特別是 RC 中包含的資訊,足以指定蛋白質的功能並定量表徵功能位點的殘基。此外,與 EVC 中較低階水平的資訊相比,RC 包含更高階水平的進化知識。同時,RC 中包含的資訊對於增強 PhiGnet 在殘留水平上識別功能相關位點的能力起著重要作用。

成功之處與侷限

總之,PhiGnet 的更好效能可以歸因於它利用了蛋白質序列的進化資料和資料的高階模式,從而可以更深入、更準確地理解蛋白質功能。

PhiGnet 的主要成功之處在於利用統計資訊圖卷積神經網路,來促進對來自海量序列資料集的進化資料的分層學習。這種方法大大超越了現有的監督和無監督方法,可用於指導未來的生物和臨床實驗。

PhiGnet 方法的侷限性包括序列多樣性較低的蛋白質家族中出現的偏差/噪音。將(共同)進化資訊納入 PhiGnet 可能會影響殘基群落的準確識別,特別是如果資訊來自高度保守的蛋白質家族。雖然將物理提取的知識整合到 PhiGnet 中與其他方法相比取得了顯著的改進,但在解釋 PhiGnet 中的學習機制方面仍然存在重大挑戰。

進化資料和機器學習之間的協同作用將為準確確定和設計蛋白質的生物物理特性鋪平道路。

相關文章