精度媲美AlphaFold,EPFL的AI方法從序列中匹配蛋白質互作

ScienceAI發表於2024-07-11
圖片

編輯 | 枯葉蝶

蛋白質是生命的基石,參與幾乎所有的生物過程。瞭解蛋白質如何相互作用對於解釋細胞功能的複雜性至關重要,對藥物開發和疾病治療也具有重要意義。

洛桑聯邦理工學院(École Polytechnique Fédérale de Lausanne,EPFL)的 Anne-Florence Bitbol 團隊提出了一種配對相互作用的蛋白質序列的方法,該方法利用了在多個序列比對上訓練的蛋白質語言模型的強大功能;它對於小型資料集表現良好,它可以透過監督方法改進蛋白質複合物的結構預測。

該研究以「Pairing interacting protein sequences using masked language modeling」為題,於 2024 年 6 月 24 日釋出在《PNAS》。

圖片

蛋白質間的相互作用對細胞功能至關重要,它們確保了訊號傳導的特異性和多蛋白複合體(如分子馬達或受體)的形成。預測蛋白質-蛋白質相互作用及其複合體結構是計算生物學和生物物理學中的重要課題。

儘管 AlphaFold深度學習方法在蛋白質單體結構預測上取得重大進展,但對於複合體結構的預測效能仍不如同單體預測,且存在異質性。AlphaFold 首先構建查詢蛋白序列的同源多序列比對(MSA),而 MSA 的質量對預測準確性極為關鍵。

對於涉及多種鏈的蛋白質複合體(異源多聚體),配對 MSA 能提供互動夥伴間的協同進化資訊,有助於推斷鏈間接觸,但構建正確配對的 MSA 是一大挑戰;尤其是在真核生物中,因存在眾多同源蛋白且非依賴於基因組鄰近性。

目前,結合基因組鄰近性、近似同源性、基於系統發生的方法及協同進化策略等手段來應對這一挑戰,其中協同進化方法雖資料需求大,但在最佳化配對和預測複合體結構方面展現出潛力,特別是透過最大化協同進化訊號來匹配同源蛋白。

EPFL 的 Anne-Florence Bitbol 團隊開發了一種配對相互作用蛋白質序列的方法,該方法利用了在多序列比對 (MSA) 上訓練的蛋白質語言模型的強大功能,例如 MSA Transformer 和 AlphaFold 的 EvoFormer 模組。這使它能夠高度準確地理解和預測蛋白質之間的複雜相互作用。

基於這些,研究人員提出了使用基於對齊的語言模型(DiffPALM)的可微分配對,這是一種使用 MLM 預測同源詞匹配的可微分方法。

圖片

圖示:DiffPALM 在小型 HK-RR MSA 上的效能。(來源:論文)

在從普遍存在的原核生物蛋白質資料集中提取的淺層 MSA 的困難基準測試中,它的表現遠勝於現有的協同進化方法。當提供已知的相互作用對作為示例時,DiffPALM 效能會進一步快速提高。

基於協同進化的配對方法,主要研究蛋白質序列在緊密相互作用時如何隨著時間的推移一起進化——一種蛋白質的變化可能導致其相互作用分子的變化。這是分子和細胞生物學中一個極其重要的課題,在 MSA 上訓練的蛋白質語言模型可以很好地捕捉到這一點。

圖片

圖示:使用不同配對方法的 AFM 效能。(來源:論文)

之後,該團隊將 DiffPALM 應用於真核蛋白質複合物的同源物匹配難題。為此,研究人員將 DiffPALM 配對的序列作為 AFM 的輸入。在測試的複合物中,使用 DiffPALM 在某些情況下可以顯著改善 AFM 的結構預測。它還實現了與使用基於直系同源物的配對相媲美的效能。

圖片

圖示:正例的影響、MSA 深度以及對另一對蛋白質家族的擴充套件。(來源:論文)

DiffPALM 的應用在基礎蛋白質生物學領域顯而易見,但它的應用範圍不止於此,因為它有可能成為醫學研究和藥物開發的有力工具。例如,準確預測蛋白質相互作用有助於瞭解疾病機制和開發有針對性的治療方法。

研究人員已免費提供 DiffPALM,希望科學界廣泛採用它以進一步推動計算生物學的發展,並使研究人員能夠探索蛋白質相互作用的複雜性。

DiffPALM 結合先進的機器學習技術和對複雜生物資料的有效處理,標誌著計算生物學向前邁出了重大一步。

它不僅增強了科學家對蛋白質相互作用的理解,而且開闢了醫學研究的新途徑,有可能帶來疾病治療和藥物開發的突破。

論文連結:https://www.pnas.org/doi/10.1073/pnas.2311887121

相關報導:https://phys.org/news/2024-06-ai-based-approach-protein-interaction.html

相關文章