從結構準確預測蛋白質功能,東北大學「CNN+GCN」統一框架,優於現有方法

ScienceAI發表於2024-10-18

圖片

編輯 | KX

蛋白質在生物體內扮演著不可或缺的角色,準確預測其功能對於實際應用至關重要。儘管高通量技術促進了蛋白質序列資料的激增,但揭示蛋白質的確切功能仍然需要大量時間和資源。目前,許多方法都依賴於蛋白質序列進行預測,而針對蛋白質結構的方法很少。

為了應對這些挑戰,東北大學的研究人員從蛋白質結構出發,提出將卷積神經網路 (CNN)和圖卷積網路 (GCN)結合成一個統一框架,稱為雙模型自適應權重融合網路 (Two-model Adaptive Weight Fusion Network,TAWFN),用於蛋白質功能預測。

TAWFN 在預測蛋白質結構功能方面表現出了良好的效能,優於現有方法。

相關研究以「TAWFN: a deep learning framework for protein function prediction」為題,於 9 月 23 日釋出在《Bioinformatics》上。

圖片

論文連結:https://academic.oup.com/bioinformatics/article/40/10/btae571/7766190

單獨使用 CNN、GCN 預測蛋白功能的缺陷

準確識別蛋白質功能有助於更深入地瞭解疾病機制,並有望發現新的治療靶點。

開發一種準確有效的蛋白質功能預測方法至關重要。當前預測蛋白質功能的方法主要集中在三個領域:蛋白質序列、蛋白質結構和蛋白質-蛋白質相互作用網路。

當前針對蛋白質結構的方法很少,通常單獨使用卷積神經網路 (CNN) 或圖卷積網路 (GCN)。單獨使用 CNN 或 GCN 存在以下問題:

  • 使用 CNN 時可能會發生資訊丟失,因為它們的區域性接受場可能無法捕捉蛋白質的整體結構。如果關鍵特徵分佈在很大的區域,CNN 可能會因為只關注區域性區域而錯過它們。同樣,對於 GCN,如果蛋白質結構具有圖卷積層無法完全捕捉的複雜關係,則會導致蛋白質特徵的表示不完整。
  • GCN 更適合處理圖結構資料,而 CNN 更適合序列資料。僅使用其中一個網路可能無法完全捕獲蛋白質中的各種資訊,從而導致特徵表示受限。當蛋白質結構同時包含序列和圖資訊時,僅依賴一種型別的網路無法充分利用這些不同的來源,從而限制了對蛋白質結構的全面理解。

TAWFN:用於蛋白質功能預測

為了解決這些問題,東北大學研究人員提出了一種新型蛋白質功能預測方法 TAWFN。該方法整合了 CNN 和 GCN,同時利用了蛋白質結構和蛋白質語言模型。對蛋白質結構進行處理,得到相應的蛋白質序列。

研究的主要貢獻總結如下:

  • 在 GCN 方面,使用處理後的蛋白質序列特徵和蛋白質接觸圖構建圖形輸入網路。使用 GCN 編碼器來捕獲短程資訊,並引入 Transformers 來捕獲長程資訊。為了更好地理解拓撲語義,利用注意機制來生成圖表示。
  • 在卷積網路方面,使用處理後的蛋白質序列特徵作為輸入。使用多層卷積編碼器,其中多個卷積層級聯。此外,將特徵金字塔結構與多尺度深度特徵提取器整合在一起以捕獲區域性特徵。此外,引入了多頭注意機制來捕獲多尺度區域性特徵之間的長程依賴關係。
  • 透過採用自適應權重計算,將兩個網路的初步預測結果融合,得到最終的預測結果。
  • 透過大量實驗,將 TAWFN 與基線方法進行比較,結果表明,TAWFN 的效能超越了其他最先進的方法。模型還表現出出色的通用性和可解釋性,表明結合兩種方法可以提高效率。

具體而言,TAWFN 的結構如下圖所示,主要由四個模組組成:(1)輸入資料生成模組:該模組生成蛋白質接觸圖和序列編碼特徵,包括 ESM-1b 編碼和獨熱編碼。(2)基於 GCN 的 AGCN 模組:該模組包括兩個子模組 AGCN1 和 AGCN2,兩個子模組在處理不同的輸入時共享同一個 AGCN 網路。它產生初步的預測結果圖片。(3)基於 CNN 的 MCNN 模組:該模組生成初步的預測結果圖片。(4)自適應融合模組:該模組透過計算將兩個初步預測結果,圖片圖片融合,生成最終的預測分數。

圖片

圖示:TAWFN 模型圖。(來源:論文)

TAWFN 與其他最先進方法的比較

為了評估方法的有效性,研究人員在 PDBset 和 AFset 資料集上進行了實驗。主要使用指標 Fmax、Smin 和 AUPR 來評估方法的效能。Fmax 指標表示在所有預測閾值上計算出的最大 F 值。Smin 表示預測註釋和真實註釋之間的語義距離,考慮到每個函式的資訊內容。AUPR 使用梯形規則近似計算精確度-召回率曲線下的面積,評估模型在不同預測閾值上的效能。Smin 值越低越好,而 Fmax 和 AUPR 值越高則表示效能越好。

為了評估方法的有效性,研究人員在 PDBset 和 AFset 資料集上進行了實驗。將 TAWFN 方法與幾種基線方法進行了比較,包括 Blast、FunFam、DeepGO、DeepGOPlus、DeepFRI、GAT-GO、ATGO、SPROF-GO、DeepGO-SE 和 HEAL。

對於分子功能、生物過程和細胞成分任務,TAWFN 的精確召回曲線下面積 (AUPR) 值分別為 0.718、0.385 和 0.488,對應的 Fmax 得分分別為 0.762、0.628 和 0.693,Smin 得分分別為 0.326、0.483 和 0.454。

圖片

這些結果超越了基於 GCN 的最佳方法 HEAL 的效能。這表明結合了 GCN 和 CNN 的 TAWFN 可以更全面地學習蛋白質結構內的特徵。此外,AGCN 中的多頭注意力機制(MHA)透過圖池化有效地學習蛋白質圖特徵,而 MCNN 中的 MCAM 則捕獲蛋白質序列的全域性特徵。這些因素有助於 TAWFN 在蛋白質功能預測中的有效性。

消融研究

針對 MCNN 和 AGCN,研究人員設計了消融實驗來驗證二者結合的有效性,並驗證了 LSTM 在 AGCN 中的作用。結果如表 2 所示。

圖片

可以觀察到,MCNN 的效能優於 AGCN,說明 MCNN 中 MCAM 產生的全域性資訊有利於蛋白質預測。而且,當 MCNN 和 AGCN 在網路中結合時,效能優於每個模組單獨預測。這表明這種組合不僅從區域性和全域性的角度提高了特徵的學習,而且還注重細節。總體而言,TAWFN 方法對蛋白質功能預測效能有增強作用。

研究人員表示:「在未來的研究中,我們的目標是引入更多可學習的特徵,利用多檢視技術,並預測新的蛋白質結構。」

相關文章