優於SOTA，騰訊AI Lab開發雙重擴散模型，實現靶標配體3D分子生成和先導化合物最佳化

編輯 | 蘿蔔皮

基於結構的生成化學，透過探索廣闊的化學空間來設計對靶標具有高結合親和力的配體，在計算機輔助藥物發現中至關重要。

然而，傳統的計算機方法受到計算效率低下的限制，機器學習方法則因自迴歸取樣而面臨瓶頸。

為了解決這些問題，騰訊 AI lab、香港城市大學、銳格醫藥（Regor Therapeutics Group）的研究人員開發了一種條件深度生成模型 PMDM，用於生成適合特定靶標的 3D 分子。

PMDM 由具有區域性和全域性分子動力學的條件等變擴散模型組成，使 PMDM 能夠考慮條件蛋白質資訊從而有效地生成分子。綜合實驗表明，PMDM 在多個評估指標上均優於基線模型。

為了評估 PMDM 在真實藥物設計場景中的應用，研究人員分別對 SARS-CoV-2 主要蛋白酶（M^pro）和細胞週期蛋白依賴性激酶 2 (CDK2) 進行先導化合物最佳化。該團隊在溼實驗室裡合成了選定的先導最佳化分子，並對其進行評估，結果顯示出了更強的 CDK2 體外活性。

該研究以「A dual diffusion model enables 3D molecule generation and lead optimization based on target pockets」為題於 2024 年 3 月 26 日釋出在《Nature Communications》。

基於結構的藥物發現（SBDD）在現代藥物開發和催化中發揮著至關重要的作用。給定特定的靶蛋白，其目的是識別有效結合特定靶蛋白的合適藥物分子。傳統的計算機方法（例如虛擬篩選）透過迭代（1）將現有資料庫中的分子放入蛋白質袋腔中以及（2）根據實驗論文中的能量估計、毒性等標準過濾分子來發現藥物。

然而，這些方法存在兩個侷限性。首先，在巨大的化學空間（範圍從 10^60 到 100^100，取決於所需分子的大小）中進行天真的詳盡搜尋成本高昂。其次，該工作流程受到歷史知識的限制，因此無法探索和生成現有資料庫中尚未記錄的分子結構。

深度學習技術推動了藥物分子結構學習和化學空間探索，但現有方法在處理三維（3D）空間資訊和生成高親和力分子方面存在侷限。新一代生成模型致力於在蛋白質口袋內實現 3D 分子取樣，從而提高分子設計的精確性和效率。儘管如此，準確捕捉分子細節、高效探索化學空間和保持全域性資訊仍是當前研究的挑戰。

受到計算機視覺任務中擴散模型的啟發，騰訊 AI lab、香港城市大學、銳格醫藥的研究團隊提出了一種名為 Pocket based Molecular Diffusion Model（PMDM）的一次性生成框架。它能夠透過整合擴散框架，用一次性方式生成以特定靶標蛋白為條件的 3D 小分子配體。

圖示：PMDM 框架概述。（來源：論文）

具體來說，具有固定口袋資訊的分子原子被視為 3D 點雲，並在前向過程中擴散，這類似於非平衡熱力學中的現象。PMDM 的目標是學習如何逆向此過程來對條件資料分佈進行建模。

一旦口袋資訊固定，研究人員便能夠用模型有效地生成具有高結合親和力的精確分子。然而，如果研究人員將 3D 分子幾何形狀表示為 3D 點雲，則 3D 點雲的常規方法不能涉及化學鍵資訊等邊緣資訊。因此，該團隊定義了雙重擴散策略來構建兩種虛擬邊緣。

詳細地說，原子間距離低於特定閾值的原子對透過共價區域性邊緣鍵合，因為當兩個原子彼此足夠接近時，化學鍵可以主導原子間力，而全域性邊緣連線到其餘的原子對以模擬範德華力。此外，研究人員設計了一個服從分子幾何系統的平移、旋轉、反射和排列等變的等變動態核。

合成 CrossDocked 資料集上的實驗表明，PMDM 可以生成類藥物、可合成、多樣化的分子，對特定蛋白質具有高結合親和力，並在多個評估指標上優於最先進的（SOTA）模型。

圖示：分別由 AR-SBDD、DiffSBDD 和 PMDM 生成的示例分子與測試集的示例分子的比較。(來源：論文)

PMDM 的複雜性和取樣時間要少得多，與 SOTA 方法相比，PMDM 實現了更好的或具有競爭力的效能。生成的分子的化學空間分析證明了生成的分子結構與 2D 和 3D 空間中的參考分子相比的合理性。此外，PMDM 具有生成大量生物活性分子的能力，這些分子對訓練集中未包含的靶標蛋白具有高結合親和力。

研究人員利用 PMDM 分別對 SARS-CoV-2 主要蛋白酶（M^pro）和細胞週期蛋白依賴性激酶 2 (CDK2) 進行先導化合物生成和最佳化。先導生成結果表明 PMDM 可以生成包含參考分子驗證的結構模式的分子。

圖示：SARS-CoV-2 主要蛋白酶 (M^pro) 的先導生成案例。（來源：論文）

透過提出給定特定片段的取樣演算法和用於連結器生成的取樣演算法，該模型可以應用於先導最佳化場景，包括支架跳躍和生成，而無需在特定資料集上重新訓練。

該團隊合成了選定的先導最佳化分子，並評估了其針對 CDK1 和 CDK2 的體外活性。體外結果表明所有分子都表現出改善的 CDK2 活性和適當的 CDK1 選擇性。研究人員認為 PMDM 可以推進針對特定蛋白質的從頭藥物最佳化，並加速未來的藥物開發研究。

蘭大博士評價：有創新點，但也有侷限性

「該研究是一個基於擴散模型的靶標口袋 3D 分子生成和先導化合物工作，主要創新點在於同時考慮了 local 和 global 的資訊。這項研究能夠以一次性方式生成以特定靶標蛋白為條件的 3D 小分子配體，分子生成效能相對優秀，並顯著降低了計算量和時間消耗。」

「除此之外，該工作還應用到了真實藥物設計場景（M^pro 蛋白先導化合物最佳化），證明了其實際應用可行性和演算法有效性。」蘭州大學的博士生黎育權在看到論文後評論道，他的導師是澳門理工大學應用科學學院教授、人工智慧藥物發現中心學術帶頭人姚小軍。

黎育權說：「但這項工作也存在一定侷限性。一方面，該方法需要更多的解釋和透明度。比如說，深入到演算法的執行時張量分析，分析雙擴散策略是如何起關鍵作用的。另一方面，該方法需要更多的案例驗證。演算法創新是否能真的落地到藥物發現並當中，實現論文中所述的多個方面作用，並穩定地發揮出價值。我認為僅憑論文中的少量是不夠驗證的。期待後續更多的案例驗證。」

論文連結：https://www.nature.com/articles/s41467-024-46569-1

優於SOTA，騰訊AI Lab開發雙重擴散模型，實現靶標配體3D分子生成和先導化合物最佳化

相關文章