準確、高效、物理有效,中科大、北大提出「兩段式」分子對接統一框架DeltaDock

ScienceAI發表於2024-10-30
圖片

編輯 | KX

分子對接是一種預測配體結合姿勢的技術,在基於結構的藥物設計中對於理解蛋白質-配體相互作用至關重要。最近,幾何深度學習 (GDL) 對接方法,比傳統取樣方法具有更高的效率和準確性。

然而,當前的方法通常是針對特定的對接設定量身定製的,並且會忽略蛋白質側鏈結構,難以處理大型結合口袋,難以預測物理有效結構。

為此,中國科學技術大學和北京大學的研究團隊,提出了一種新穎的兩階段對接框架 DeltaDock,包括口袋預測和位點特異性對接。

研究人員創新地將口袋預測任務重新定義為口袋-配體對齊問題,而不是在第一階段直接預測。然後,遵循了兩級從粗到細的迭代細化過程來執行位點特異性(site-specific)對接。實驗證明了 DeltaDock 的卓越效能。

值得注意的是,在盲對接設定中,DeltaDock 與之前最先進的 GDL 模型相比,對接成功率相對提高了 31%。考慮到物理有效性,這一改進在 PoseBusters 基準上增加到大約 300%。

相關研究以「DeltaDock: A Unified Framework for Accurate, Efficient, and Physically Reliable Molecular Docking」為題,於 10 月 15 日釋出在預印平臺 arXiv 上。

圖片

論文連結:https://arxiv.org/abs/2410.11224

幾何深度學習 (GDL) 作為一種創新、有前景的分子對接正規化,用於預測和了解靶蛋白與藥物之間的相互作用,對於藥物發現至關重要。GDL 方法優於傳統方法,在結合姿勢預測的準確性和推理效率方面均有所提高。

根據是否給出先前的口袋,分子對接可分為盲對接和位點特異性對接。傳統取樣方法能夠熟練地應對這兩種情況,主要區別在於它們探索的搜尋空間範圍。相比之下,GDL 方法通常專注於其中一種,存在一定侷限性。

對於盲對接方法,GDL 方法忽略了細粒度的蛋白質側鏈結構。對於位點特異性對接方法,當處理大於預定 cutoff 的口袋,或需要模擬廣泛的口袋周圍結構以考慮長距離相互作用時,這些方法的效能會顯著下降,對計算資源的需求也會顯著增加。此外,由於缺乏歸納偏差,GDL 方法還會產生不切實際的對接姿勢。

統一的 GDL 框架:DeltaDock

為了解決以上問題,中國科大團隊提出了一個統一的 GDL 框架 DeltaDock,用於準確、高效且物理有效的對接。DeltaDock 是一個兩階段框架,由口袋預測階段和位點特定對接階段組成。

「Delta」的意思是,透過在第二對接階段迭代細化輸入結構來預測最佳姿勢。第一個口袋預測階段專門用於盲對接,透過新穎的對比口袋配體對齊模組 CPLA 從一組候選中識別出一個結合口袋。然後在第二階段,在 CPLA 預定義或選擇的口袋內,在雙層粗到細迭代細化模組 Bi-EGMN 中預測結合結構。

該模組優先考慮大外框覆蓋的殘基級結構,以進行姿勢定位和粗略結構預測。而原子級結構位於粗略結構相對較小半徑範圍內,可進行更精確的預測。

圖片

圖示:白色表面表示 SARS-CoV-2 的主要蛋白酶。粉色、藍色和紅色的配體結構分別對應於 PDB 5RGY、7AQJ 和 7JU7。(來源:論文)

具體來說,該模組結合了 (i) GPU 加速的姿勢取樣演算法,可生成高質量的初始結構,(ii) 訓練目標,對空間衝突和配體移動性施加懲罰,以及 (iii) 快速後處理步驟,包括扭轉對齊和能量最小化結構校正。

為了適應兩種不同的對接設定,DeltaDock 專門設計為兩階段框架,而不是端到端框架。特別是,口袋-配體對齊模組的靈感來自下圖所示的觀察結果。現有的口袋預測方法通常只能實現 70%-80% 的召回率。但是,當結合多種方法預測的所有可能口袋時,該召回率可達到近 95%。

圖片

圖示:不同口袋預測方法在 PDBbind 測試集上的表現。透過整合各種方法預測的口袋,命中率顯著提高。(來源:論文)

根據這一結果,研究人員將重點從設計越來越強大的口袋預測模型轉移到開發從預測口袋集合中有效選擇候選口袋的策略。因此,口袋預測任務被創新地重新定義為口袋-配體對齊問題。

對於位點特異性對接階段,關鍵思想是準確預測可靠的姿態。基於所提出的雙層迭代細化模型,還引入了上面介紹的幾個元件。其中,採用姿態取樣演算法進行結構初始化。另外兩個元件,即基於物理資訊的訓練物件和快速結構校正步驟,用於確保物理有效性。

圖片

圖示:DeltaDock 兩個模組的概覽。(來源:論文)

準確、高效、通用、物理有效

為了證明 DeltaDock 的有效性,研究人員進行了全面的實驗來評估其預測準確性、效率、通用性以及預測物理有效結合姿勢的能力。

盲對接

研究人員首先評估了 DeltaDock 在 PDBbind 資料集上的綜合效能,包括盲對接和位點特異性對接設定。

如表 1 所示,DeltaDock 的表現優於所有基線方法。具體而言,DeltaDock 的成功率高達 47.4%(RMSD < 2.0 Å),超過了之前的 SOTA GDL 方法 DiffDock(成功率為 36.0%)。

與 PDBbind 測試集中表現最佳的基於取樣的方法 DSDP 相比,DeltaDock 在所有指標上仍然表現出色。

除了準確性之外,DeltaDock 同時保持了卓越的計算效率。

圖片

位點特異性對接

大多數現有的 GDL 方法(例如 DiffDock 和 EquiBind)主要針對盲對接場景而設計,本身並不適合位點特異性對接任務。然而,DeltaDock 無縫整合了盲對接和位點特異性對接設定。在這種情況下,口袋是直接提供的,無需透過 CPLA 選擇口袋。

下圖為 DeltaDock 在位點特異性對接中的表現。當提供預定義的結合位點時,傳統取樣方法的結果會顯著改善。例如,VINA 的對接成功率從 10.3% 上升到 45.0%。儘管有這種增強,DeltaDock 仍始終超越所有基線。

圖片

圖示:位點特異性對接效能。(來源:論文)

從以上結果可以看出,DeltaDock 在盲對接和特異性對接場景中都表現出了優異的效能,證明了其在處理不同對接設定時的多功能性和穩健性。

泛化能力評估

從歷史上看,GDL 對接方法泛化能力有限。如表 1 所示,PDBbind 測試的未見集上所有方法的對接成功率通常低於完整 PDBbind 測試集上的對接成功率。

值得注意的是,TANKBind 和 SOTA GDL 方法 DiffDock 的效能下降了 14.1% 和 18.8%。這一結果表明,未見測試集比整個測試集更具挑戰性。

然而,DeltaDock 表現出了具有競爭力的效能,對接成功率達到了 40.8%。與未見測試集上表現最好的 GDL 基線 FABind 相比,DeltaDock 在對接成功率方面顯著超越了它 20.1%。

Pose 有效性評估

研究人員進一步研究了 DeltaDock 預測物理有效結構的能力,方法是採用 Buttenschoen 等人設計的 PoseBusters 測試套件。除了預測姿勢與真實姿勢之間的 RMSD 之外,測試套件還包含 18 項檢查,涵蓋化學有效性和一致性、分子內有效性和分子間有效性。

當考慮物理有效性時,傳統取樣方法的對接成功率保持穩定,而先前的幾何深度學習方法的效能顯著下降,尤其是對於 TANKBind、DeepDock 和 Uni-Mol。即使沒有應用快速結構校正步驟,DeltaDock-SC 變體也顯示出比以前的方法有顯著的改進。這些結果證實了 DeltaDock 預測物理有效結構的能力,從而肯定了其在實際應用中的可靠性。

最後,研究人員希望該研究進一步促進分子對接框架的廣泛應用和持續發展。

相關文章