Nature子刊,北大團隊通用AI框架對蛋白-蛋白對接進行綜合結構預測,彌合實驗與計算的差距

ScienceAI發表於2024-08-07

圖片

編輯 | 蘿蔔皮

蛋白質複合物結構預測在藥物研發、抗體設計等應用中發揮著重要作用,然而由於預測精度有限,預測結果與實驗結果經常出現不一致。

北京大學、昌平實驗室以及哈佛大學的研究團隊提出了 ColabDock,這是一個通用框架,它採用深度學習結構預測模型來整合不同形式和來源的實驗約束,而無需進一步進行大規模的再訓練或微調。

ColabDock 的表現優於使用 AlphaFold2 作為結構預測模型的 HADDOCK 和 ClusPro,不止在具有模擬殘基和表面限制的複雜結構預測中,在藉助核磁共振化學位移擾動以及共價標記進行的結構預測中也是如此。

另外,它還可以透過模擬介面掃描限制來幫助抗體-抗原介面預測。

該研究以「Integrated structure prediction of protein–protein docking with experimental restraints using ColabDock」為題,於 2024 年 8 月 5 日釋出在《Nature Machine Intelligence》。

圖片

蛋白質對接為理解生物機制提供了重要的結構資訊。儘管深度模型在蛋白質結構預測方面發展迅速,但大多數模型都是以自由對接的方式進行預測,這可能會導致實驗約束與預測結構不一致。

為了解決這個問題,北京大學、昌平實驗室等機構的研究團隊提出了用於受限複合物構象預測的通用框架——ColabDock,它是一個由稀疏實驗約束引導的蛋白質-蛋白質對接的通用框架。

透過梯度反向傳播,該方法有效地整合了實驗約束的先驗和資料驅動的蛋白質結構預測模型的能量景觀,自動搜尋滿足兩者的構象,同時容忍約束中的衝突或模糊性。

ColabDock 可以利用不同形式和來源的實驗約束,而無需進一步進行大規模重新訓練或微調。

圖片

圖示:ColabDock 的工作流程。(來源:論文)

該框架包含兩個階段:生成階段和預測階段。

在生成階段,ColabDock 採用了基於 AlphaFold2 開發的蛋白質設計框架 ColabDesign。在 logit 空間中最佳化輸入序列配置檔案,以指導結構預測模型根據給定的實驗約束和模板生成複雜結構,同時最大化 pLDDT 和 pAE 測量。

在預測階段,根據生成的複合物結構和給定的模板預測結構。對於每個目標,ColabDock 會執行多次執行並生成不同的構象。最終構象由排序支援向量機 (SVM) 演算法選擇。

效能穩健

作為概念驗證,研究人員採用 AlphaFold2 作為 ColabDock 中的結構預測模型。當然,這裡也可以使用其他資料驅動的深度學習模型,例如 RoseTTAFold2 和 AF-Multimer。

研究人員用合成資料集和幾種型別的實驗約束上測試 ColabDock,包括 NMR 化學位移擾動 (CSP)、共價標記 (CL) 和模擬深度突變掃描 (DMS)。

圖片

圖示:ColabDock 在驗證集上的表現。(來源:論文)

ColabDock 評估了兩種型別的約束,即 1v1 和 MvN 約束。前者是殘基-殘基級別的,例項包括來自 XL-MS 的約束。後者是介面級別的,與 NMR 和 CL 實驗有關。

在合成資料集上的測試結果表明 ColabDock 取得了令人滿意的效能。此外,正如預期的那樣,隨著約束數量的增加,ColabDock 的效能也得到了提高。

即使只有很少的限制,ColabDock 在基準資料集和相同的框架設定上的表現也優於 AF-Multimer,並且在提供更多限制的情況下收斂到更少的構象,表明有效應用了附加資訊。

圖片

圖示:在基準測試集上對 ColabDock、HADDOCK 和 ClusPro 進行比較。(來源:論文)

與 HADDOCK 和 ClusPro 相比,當約束質量較高時,ColabDock 的表現更為突出。在兩個實驗資料集上,無論提供的約束數量和質量如何,ColabDock 的表現仍然優於 HADDOCK 和 ClusPro。

圖片

圖示:ColabDock 在 CSP 集上的效能及約束分析。(來源:論文)

最後,研究人員在抗體-抗原資料集上評估了不同對接方法的效能。ColabDock 預測的中等或更高質量結構的比例遠高於 HADDOCK 和 ClusPro。

圖片

圖示:ColabDock、HADDOCK 和 ClusPro 在抗體-抗原基準集上的比較。(來源:論文)

這表明 ColabDock 在抗體設計方面具有潛在的應用價值。並且,在新發布的無偏資料集上,ColabDock 仍然表現出與 AF-Multimer 相當甚至更好的效能。

侷限性與結語

ColabDock 也存在一些侷限性。目前,ColabDock 只能接受距離小於 22 Å 的限制,這是由 AlphaFold2 中距離圖的上限決定的。這一限制使得該模型僅適用於一小部分 XL-MS 試劑。

如果沒有基於片段的最佳化,ColabDock 只能在 NVIDIA A100 圖形處理單元 (GPU) 上處理少於 1,200 個殘基的複合物,因為記憶體有限。

此外,該方法可能非常耗時,尤其是對於大型蛋白質複合物。使用 AlphaFold2 的 bfloat16 浮點格式版本有望幫助節省記憶體並加速計算。

相信未來,研究人員迭代最佳化之後,作為一個統一的框架,ColabDock 必將能夠幫助彌合實驗和計算蛋白質科學之間的差距。

論文連結:https://www.nature.com/articles/s42256-024-00873-z


相關文章