化學空間導航儀:流生成式AI引導分子屬性控制

ScienceAI發表於2024-10-14
圖片
作者 | 康奈爾大學魏光浩
編輯 | ScienceAI

分子設計是藥物發現和材料科學中的一個核心挑戰。目前,潛在可行的藥物類小分子化合物的數量估計在10^23到10^60之間。這意味著即使使用最先進的計算方法,也無法窮舉地搜尋所有可能的分子結構。

高效地探索和深入理解龐大的化學空間,對於加速分子科學的進展和推進實際應用有著至關重要的作用。

統一的ChemFlow框架

為了解決上述挑戰,來自康奈爾、哈佛、加州理工和深度原理的研究者們聯合提出了一個名為ChemFlow的生成式AI新框架,被收錄在2024年的NeurIPS會議中。

圖片

論文連結:https://arxiv.org/abs/2405.03987(點選文末「閱讀原文」,直達Paper)

程式碼連結:https://github.com/garywei944/ChemFlow

新框架中引入了動力系統的視角,將問題表述為學習一個向量場,並由該向量場描述分子在潛在空間中的演化過程。

具體而言,ChemFlow將分子生成模型的潛在空間視為一個連續的空間,其中每個點對應於一個分子的潛在表示。透過學習一個向量場,ChemFlow可以在潛在空間中定義一個流,該流將分子分佈的質量從當前區域傳輸到具有期望分子屬性或結構多樣性的目標區域。

圖片

這樣的視角和方法有許多優勢:

  • 統一先前的方法:該框架統一了之前關於分子潛在空間遍歷和最佳化的方法,包括基於梯度的最佳化、線性潛在遍歷和解纏結遍歷。
  • 靈活性和可擴充套件性:允許引入非線性的變換,受現實物理系統中的偏微分方程(如波動方程和福克-普朗克方程)啟發,可以更靈活地捕捉潛在空間的結構。
  • 支援無監督訓練:ChemFlow還可以支援同時探索分子潛在空間中多個互相解纏結的流,這些流在空間和時間上滿足引入的偏微分方程。在應用階段只需以較小的花費識別出期望分子屬性所對應那個流就能實現無監督訓練的定向最佳化。

實驗驗證

為了驗證ChemFlow框架的有效性,研究者們在多個任務上進行了廣泛的實驗,包括分子操控、單目標和多目標的分子最佳化任務,涵蓋了物理化學性質、藥物相關屬性和蛋白質-配體結合親和力等多種指標。實驗在有監督(spv)和無監督(unsup)的設定下,評估了ChemFlow的效能。

分子最佳化

分子最佳化任務旨在透過在潛在空間中導航,實現對分子特定屬性的精確控制。例如,透過調整分子的潛在表示,ChemFlow可以增加或減少其溶水性(plogP)、類藥性(QED)對特定蛋白質(ESR1和ACAA1)的結合親和力等屬性。

圖片

圖片

其中,HJ是哈密頓-雅可比方程(Hamilton Jacobi),LD是朗之萬動力學(Langevin Dynamics)。實驗結果表明,ChemFlow能夠有效地在潛在空間中找到通往目標屬性區域的路徑,生成的分子在保持原有結構特徵的同時,實現了預期的屬性變化。

單目標分子操控

分子操控任務旨在限定最佳化後分子與原分子的相似度的情況下,探索目標屬性最高的分子。

圖片

圖片

實驗表明ChemFlow及相關基於流的方法在多種相似度約束下都取得了較好的最佳化效果,尤其是在中等約束(δ = 0.2, 0.4)時,表現出較高的成功率和更好的最佳化。同時,基於福克-普朗克方程流約束的生成方法在所有相似度約束下都獲得了最高的成功率。

多目標分子操控

多目標操控任務更加具有挑戰性,因為需要在多個屬性之間進行權衡和平衡。ChemFlow透過引入多目標的損失函式,以及在向量場的學習過程中平衡各個目標,成功地在多個屬性之間取得了平衡。

圖片

實驗結果顯示,ChemFlow在多目標最佳化任務中,同樣表現出色,能夠生成在各個屬性上均具有良好表現的分子。

此外,作者還為ChemFlow準備了可互動的分子設計介面,供感興趣的讀者把玩。

圖片

Demo連結:https://colab.research.google.com/drive/1QAy_QoEnDRaiLF6kJ6RyhuGx1qCJXYKm?usp=sharing

結論與展望

ChemFlow是一個基於流學習的分子生成模型架構,透過在潛在空間中學習向量場,實現了對化學空間的高效探索。新的框架引入動力系統的視角,統一了之前的方法,並展示了在分子操控和最佳化任務中的效能和潛力。

未來,相信隨著採用更大的訓練資料集,更強大的生成模型和更多實際應用的探索,ChemFlow將在分子科學、藥物設計和材料發現等領域帶來新的機遇,促進化學空間探索的高效化和智慧化!

相關文章