編輯 | 紫羅
近年來,深度學習技術在分子微觀結構預測中取得了巨大的進展。然而,分子的宏觀屬性和功能往往取決於分子結構在平衡態下的分佈,僅瞭解分子的微觀結構還遠遠不夠。獲得這些分佈的傳統方法,如分子動力學模擬,但這些方法昂貴又耗時。
在此,來自微軟研究院科學智慧中心(Microsoft Research AI4Science)的研究人員,提出了一種可用於預測分子結構平衡分佈的深度學習框架,稱為分散式圖分析器(Distributional Graphormer,DiG)。
DiG 框架能夠有效生成不同的構象,並提供狀態密度的估計,比傳統方法快幾個數量級。
研究展示了 DiG 在多項分子任務中的應用,包括蛋白質構象取樣、配體結構取樣、催化劑吸附物取樣和性質引導結構生成。DiG 為分子科學開闢了新的研究機會。
相關研究以《Predicting equilibrium distributions for molecular systems with deep learning》為題,於 5 月 8 日釋出在《Nature Machine Intelligence》上。
論文連結:https://www.nature.com/articles/s42256-024-00837-3
深度學習方法擅長高效預測分子結構。例如,AlphaFold 以原子精度預測蛋白質結構;基於神經網路的對接方法預測配體結合結構;深度學習模型預測催化劑表面的吸附結構。
然而,預測最可能的結構只能揭示平衡分子系統的一小部分資訊。分子可以非常靈活,平衡分佈對於宏觀性質的精確計算至關重要。
與單一結構預測不同,平衡分佈研究仍然依賴於經典且昂貴的模擬方法,而深度學習方法尚不發達。
深度學習方法 DiG,預測分子系統的平衡分佈
在此,研究人員開發了一種深度學習方法:DiG,用於近似預測平衡分佈並有效地對分子系統的多樣化和功能相關結構進行取樣。證明了 DiG 可以泛化分子系統,並提出類似於實驗中觀察到的不同結構。
圖 1:使用 DiG 框架預測構象分佈。(來源:論文)
DiG 從模擬退火中汲取靈感,透過模擬退火過程將均勻分佈轉變為複雜分佈。DiG 模擬一種擴散過程,逐漸將簡單分佈轉變為目標分佈,近似給定分子系統的平衡分佈。由於選擇簡單分佈以實現獨立取樣並具有封閉形式的密度函式,因此 DiG 可以實現平衡分佈的獨立取樣,並透過跟蹤過程提供分佈的密度函式。
擴散過程還可以偏向逆向設計所需的屬性,並允許在穿過高機率區域的結構之間進行插值。這種擴散過程是透過基於 Graphomer 架構的深度學習模型來實現的,以目標分子的描述符(例如化學圖或蛋白質序列)為條件。DiG 可以使用來自實驗和 MD 模擬的結構資料進行訓練。
對於資料稀缺的情況,開發了一種物理資訊擴散預訓練(PIDP)方法,用系統的能量函式(例如力場)來訓練 DiG。在基於資料或能量監督模式下,模型在每個擴散步驟中獨立獲取訓練訊號,從而實現有效訓練,避免長鏈反向傳播。
生成真實且多樣化的分子結構
研究人員在三個預測任務上評估 DiG:蛋白質構象、蛋白質-配體相互作用以及催化劑表面上的分子吸附。此外,還透過將 DiG 應用於碳同素異形體生成來研究 DiG 的逆向設計能力,以獲得所需的電子帶隙。
DiG 在這些任務中生成真實且多樣化的分子結構。
對於蛋白質構象取樣,DiG 有效地生成了類似於主要功能狀態的結構。除了蛋白質的靜態結構預測之外,DiG 還生成對應於不同功能狀態的多種結構。
圖 2:蛋白質構象的分佈和取樣結果。(來源:論文)
蛋白質構象取樣的一個直接延伸是預測可成藥口袋中的配體結構。為了模擬蛋白質和配體之間的相互作用,研究人員對 1,500 個複合物進行了 MD 模擬,以訓練 DiG 模型。使用訓練資料集中不存在的 409 個蛋白質配體系統35,36 評估了 DiG 的效能。
圖 3:蛋白口質袋周圍配體結構取樣的 DiG 結果。(來源:論文)
總的來說,研究人員觀察到生成的結構類似於實驗觀察到的姿勢(poses)。
識別活性吸附位點是多相催化的核心任務。由於複雜的表面-分子相互作用,此類任務在很大程度上依賴於量子化學方法和取樣技術的組合。這些會導致巨大的計算成本。
研究人員透過在開放催化劑專案中的催化劑-吸附物系統的 MD 軌跡上對其進行訓練,並對訓練集中未包含的吸附物和表面的隨機組合進行進一步評估,來評估 DiG 執行此任務的能力。
圖 4:催化劑吸附質取樣問題的 DiG 結果。(來源:論文)
結果證實,DiG 預測了網格搜尋發現的所有穩定位點,並且吸附構型非常一致,均方根偏差為 0.5-0.8 Å。結果還證明了 DiG 在催化劑吸附預測中的跨系統泛化能力。
此外,DiG 不僅預測具有正確構型的吸附位點,而且還提供每個吸附構型的機率估計。
最後,研究人員還透過將 DiG 應用於碳同素異形體生成來研究 DiG 的逆向設計能力,以獲得所需的電子帶隙。
圖 5:具有特定帶隙的碳結構的效能引導結構生成。(來源:論文)
研究進一步證明,透過應用有利於具有所需性質的結構的 biased 分佈,DiG 可以促進分子結構的逆設計。這種能力可以為缺乏足夠資料的特性擴充套件分子設計。
對分子科學的各領域產生潛在影響
這些結果表明,DiG 將分子的深度學習從預測單一結構向預測結構分佈推進,為有效預測分子的熱力學性質鋪平了道路。
儘管給定狀態下平衡分佈的定量預測將取決於資料可用性,但 DiG 探索廣闊且多樣的構象空間的能力有助於發現新穎的功能性分子結構,包括蛋白質結構、配體構象異構體和吸附物構型。
DiG 可以幫助連線分子系統的微觀描述符和宏觀觀察,對分子科學的各個領域產生潛在影響,包括但不限於生命科學、藥物設計、催化研究和材料科學。