編輯丨&
預測蛋白質功能的計算方法對於理解生物學機制和治療複雜疾病具有重要意義。然而,現有的預測計算方法缺乏可解釋性,難以理解蛋白質結構和功能之間的關係。
在研究中,來自中南大學的團隊提出了一種基於深度學習的解決方案,名為 DPFunc,用於使用域引導的結構資訊進行準確的蛋白質功能預測。
DPFunc 可以在結構域資訊的指導下檢測蛋白質結構中的重要區域並準確預測相應的功能。它優於當前最先進的方法,並與現有的基於結構的方法相比取得了顯著改進。
他們的研究成果以「DPFunc: accurately predicting protein function via deep learning with domain-guided structure information」為題,於 2025 年 1 月 2 日刊登在《Nature Communications》。
詳細分析表明,結構域資訊的引導有助於 DPFunc 進行蛋白質功能預測,能夠檢測蛋白質結構中與其功能密切相關的關鍵殘基或區域。故而,該方法是大規模蛋白質功能預測的有效工具。
DPFunc 概述
DPFunc 是一種基於深度學習的方法,用於使用域引導結構資訊進行蛋白質功能預測。
它由三個模組組成:基於預先訓練的蛋白質語言模型和圖神經網路的殘基級特徵學習模組;蛋白質水平特徵學習模組;蛋白質功能預測模組。
圖 1:DPFunc 的模型架構。(圖源:論文)
殘基水平特徵學習模組將蛋白質序列和結構作為輸入。它首先從預訓練的蛋白質語言模型(ESM-1b)中為每個殘基生成初始特徵,根據相應的蛋白質結構構建接觸圖。隨後,這些接觸圖和殘基層特徵被進一步饋送到幾個圖神經網路(GCN)層中,以更新和學習最終的殘基層特徵。
為了評估不同殘基的重要性,受 transformer 結構的啟發,團隊引入了一種注意力機制,將蛋白質水平的結構域特徵和殘基水平特徵交織在一起,從而檢測每個殘基的重要性。
預測結果透過通用的後處理程式進行處理,以確保與基因本體論(GO)項結構的一致性。
為了獲得模型的效能,團隊將其與與僅基於序列和兩種基於結構的方法進行公平比較。他們採用了以前使用過的資料集,在其他模型平均得分近似的情況下,新模型的效能超過了現有模型一大截。這一發現表明,蛋白質序列中包含的結構域資訊為蛋白質功能預測提供了有價值的見解。
模型效能分析
團隊根據不同的時間戳將大規模資料集劃分為訓練集、驗證集和測試集。與以前使用的 PDB 資料集不同,這個大規模資料集包含更多的蛋白質和相應的附加資訊。
為了確保公平的比較,標準化的方式被應用於後續的所有處理過程。
圖 2:模型效能的詳細分析(圖源:論文)
除了整體效能之外,DPFunc 還擅長預測具有高 IC 值特徵的資訊性 GO 項。由於這些項出現次數少且訓練樣本有限,因此帶來了更大的挑戰。在預測樣本較少的 GO 項時,DPFunc 的效能始終優於其他方法。
DPFunc 表現出優於 SOTA 方法的明顯優勢,特別是它能夠處理具有低序列同一性的不可見蛋白質、具有高 IC 值的資訊性 GO 項以及具有更深節點的特定 GO 項。
為了明確證明域資訊在 DPFunc 中的關鍵作用,團隊採用平均池化層替換了域注意力塊。憑藉領域洞察力,DPFunc 的幾個模組中的 AUPR 中位數分別提高了 12.0%、14.7% 和 16.3%。這些結果明確證實了整合結構域資訊進行蛋白質功能預測的無與倫比的價值。
為了進一步說明 DPFunc 在檢測相似結構基序方面的潛力,即使沒有序列相似性,團隊也進行了兩個案例研究。對兩種將細胞與外部環境分離的關鍵質膜蛋白,DPFunc 能夠捕捉結構相似性並準確預測功能,即使面對不同的序列也是如此,突顯了它在蛋白質功能預測方面的巨大潛力。
除此之外,DPFunc 可有效檢測酶功能的重要活性位點。這種非凡的能力歸功於圖神經網路的強大功能,它可以聚合來自兩個相鄰活動站點的資訊。不過,儘管 DPFunc 有效地進行了檢測,但在無序區域尋找活性位點仍然是一個挑戰,可能會在未來的模型中進一步探索。
學習模組
團隊使用兩個資料集來評估其方法的效能。前者是一個非冗餘集,透過以 95% 的序列同一性對所有 PDB 鏈進行聚類。後者是從 UniProt 和 Gene Ontology 資料庫中收集的。
DPFunc 整合了這兩個模組並預測了蛋白質功能。具體來說,它利用初始殘基特徵和蛋白質特徵來註釋功能。此外,一旦該模型經過訓練,它就可以根據注意力機制檢測結構中的重要殘留物。
圖 3:DPFunc 檢測到的關鍵殘基。(圖源:論文)
小結
結合了結構域引導的結構資訊來識別蛋白質結構中的關鍵區域,從而能夠根據潛在結構基序和關鍵殘基準確預測功能。與其他最先進的深度學習方法的全面比較證明了此次提出的方法的優勢。
DPFunc 在稀有功能、特定功能和與已知蛋白質序列相似性較低的困難蛋白質方面也優於其他方法。其表現出區分不同結構之間蛋白質的令人印象深刻的能力。DPFunc 可以學習相似的結構基序,即使它們的序列相似性並不如訓練集那麼高。
DPFunc 僅使用蛋白質序列作為起始量。具體來說,它透過掃描序列生成結構域資訊,透過預先訓練的蛋白質語言模型提取殘基特徵,並根據預測的結構構建結構圖。
由於蛋白質在細胞環境中執行功能,因此它們的功能會隨著環境而動態改變。如何準確預測動態函式是未來需要解決的另一個挑戰。
原文連結:https://www.nature.com/articles/s41467-024-54816-8
原始碼:https://github.com/CSUBioGroup/DPFunc