深度學習預測蛋白質-蛋白質相互作用

ScienceAI發表於2022-01-13

編輯 | 蘿蔔皮

塔夫茨大學的 Lenore Cowen 教授和麻省理工學院的研究人員合作設計了一種基於神經語言建模的最新進展的結構驅動的深度學習方法。該團隊的深度學習模型稱為 D-SCRIPT,能夠從初級氨基酸序列預測蛋白質 - 蛋白質相互作用 (PPI)。

研究人員結合神經語言建模和結構驅動設計的進步來開發 D-SCRIPT,這是一種可解釋且可推廣的深度學習模型,它僅使用其序列來預測兩種蛋白質之間的相互作用,並在有限的訓練資料和跨物種的情況下保持高精度。

測試結果表明,與最先進的方法相比,在 38,345 個人類 PPI 上訓練的 D-SCRIPT 模型能夠顯著改善果蠅蛋白質的功能表徵。在具有已知 3D 結構的蛋白質複合物上評估相同的 D-SCRIPT 模型,研究人員發現 D-SCRIPT 輸出的蛋白質間接觸圖與基本事實有顯著重疊。

該團隊應用 D-SCRIPT 在全基因組範圍內篩選奶牛(Bos taurus)的 PPI,並專注於瘤胃生理學,識別與代謝和免疫反應相關的功能基因模組。然後可以利用預測的相互作用進行大規模的功能預測,解決基因組到現象組的挑戰,特別是在資料很少的物種中。

該研究以「D-SCRIPT translates genome to phenome with sequence-based, structure-aware, genome-scale predictions of protein-protein interactions」為題,於 2021 年 9 月 17 日刊載在《Cell Systems》。

圖片

D-SCRIPT 是一種從序列預測 PPI 的可解釋方法。D-SCRIPT 追求基於結構的方法,將蛋白質對的預測分數計算為它們各自結構的結合相容性。由於結構在進化過程中比序列更保守,因此這種相互作用的物理模型可以很好地推廣到整個物種。

圖片

圖示:D-SCRIPT 動機和工作流程。(來源:論文)

模型中的中間接觸圖表示是可直接解釋的,可用於驗證預測或研究殘基尺度上的蛋白質結合區域。因此,D-SCRIPT 加入了計算生物學中可解釋的深度學習方法中規模雖小但不斷增長的一系列進展。該團隊的模組化設計還支援在不同階段研究模型輸出,並且研究人員證明每一層都捕獲增量結構資訊。

基於序列的方法(如 D-SCRIPT)的優勢在於,由於低成本基因組測序的巨大進步,輸入序列資料幾乎總是可用的。與同樣採用序列作為輸入的最先進的深度學習方法 PIPR 相比,D-SCRIPT 在物種間的通用性更好;因此,對於非模式生物或蒼蠅等生物中研究較少的蛋白質的精確從頭 PPI 預測更為有效。

圖片

圖示:D-SCRIPT 架構。(來源:論文)

研究人員懷疑 D-SCRIPT 在物種間的相對成功,但在物種內評估中表現不佳是由於模型的簡單性和正則化的程度。這些設計選擇增強了 D-SCRIPT 的普遍性,引導它學習相互作用的一般結構方面,而不是使用網路結構或任何單個蛋白質的頻率作為相互作用夥伴。然而,對於某些任務,可能需要在 D-SCRIPT 的跨物種泛化性和其他最先進方法的物種內特異性之間取得平衡。未來的研究方向可能是遷移學習,將預訓練的 D-SCRIPT 模型調整到目標物種,而另一種方法可能是將其與關聯圖論 PPI 預測相結合。

圖片

圖示:牛瘤胃中的蛋白質相互作用網路。(來源:論文)

值得注意的是,D-SCRIPT 不需要多序列比對 (MSA)。然而,在 D-SCRIPT 中使用的預訓練語言模型是在整個蛋白質語料庫的 MSA 上共同訓練的,允許其輸入特徵化隱含地捕獲進化保守的某些方面。以前,明確使用 MSA 的基於協同進化的方法已被證明在重建單蛋白質接觸圖和 3D 結構方面非常有效。將它們擴充套件到 PPI 預測時,另一個挑戰是確定兩個 MSA 行之間的正確對應順序。

在同線性保守可以提供大量資訊的原核基因組中,ComplexContact、EV Complex 和 Gremlin 等方法已被證明表現良好,並提供殘基級相互作用的細節。然而,將這些方法擴充套件到更復雜的真核基因組方面的成功率較低。

圖片

圖示:D-SCRIPT 嵌入表示結構和互動。(來源:論文)

研究人員發現需要計算 MSA 是一個效能瓶頸,使得用它們進行真核基因組規模預測變得不可行,因此,限制了類似 EV 複合物的方法在該設定中的適用性。儘管如此,明確結合共同進化的見解可以提高 D-SCRIPT 的準確性,未來的工作可能會探索在不犧牲速度的情況下這樣做的方法。來自預測接觸圖和單個蛋白質結構的相關進展的見解也可以納入我們的模型架構。

D-SCRIPT 說明學習單個蛋白質的語言是一項非常成功的深度學習努力,也有助於解碼蛋白質相互作用的語言。利用 Bepler 和 Berger 的預訓練語言模型,能夠間接受益於單個蛋白質 3D 結構的豐富資料。相比之下,直接用蛋白質複合物的 3D 結構監督的 PPI 預測方法,為了學習相互作用的物理機制,需要與相對較小的語料庫抗衡。

圖片

圖示:D-SCRIPT 預測具有生物學意義的接觸圖。(來源:論文)

迫切需要可擴充套件的計算方法,以從非模式生物中的序列推斷基因的功能。儘管測序革命有助於使基因組更廣泛地可用,但仍然缺乏功能資料。使用 D-SCRIPT 進行 PPI 預測速度快,使基因組規模篩選成為可能。例如,該團隊能夠在 8 天內在單個 GPU 上評估 B. taurus 的 5000 萬個候選 PPI。

使用 D-SCRIPT,一個由基因組規模 PPI 預測組成的工作流程,然後是 PPI 網路的圖論分析以識別功能模組,可以生成大規模基因功能的高可信度預測;該團隊在奶牛瘤胃案例研究中證明了這一點。

圖片

這種從頭 PPI 預測甚至在模型生物中也很有用,例如線蟲,對於這些模型生物,PPI 網路的已知部分仍然非常稀疏。在確實存在一些 PPI 資料的其他生物體中,未來的工作可以將這些資料與 D-SCRIPT 預測有效地結合起來。研究人員希望它的廣泛適用性、跨物種準確性和速度的結合將使 D-SCRIPT 成為解決「基因組到現象」挑戰的有用社群資源。

論文連結:https://doi.org/10.1016/j.cels.2021.08.010

相關報導:https://www.eurekalert.org/news-releases/936669

相關文章