編輯 | 蘿蔔皮
分子動力學 (MD) 模擬可以深入瞭解複雜的過程,但準確的 MD 模擬需要昂貴的量子力學計算。對於較大的系統,使用高效但不太可靠的經驗力場。機器學習力場(MLFF)提供與從頭計算方法相當的精度,速度更快更高效,但難以模擬大分子中的長程相互作用。
Google DeepMind、柏林工業大學(Technische Universität Berlin)和盧森堡大學(University of Luxembourg)的研究人員提出了一種通用方法 GEMS,透過對「自下而上」和「自上而下」分子片段進行訓練,來構建用於大規模分子模擬的準確 MLFF。
GEMS 允許以從頭計算級別的質量,對超過 25,000 個原子進行納秒級 MD 模擬,正確預測聚丙氨酸中不同螺旋基序之間的動態振動,並與溶劑化 Crambin 中大規模蛋白質-水波動的太赫茲振動光譜產生良好的一致性。該團隊分析表明,從頭開始精度的模擬對於理解動態生物分子過程是必要的。
研究以「Biomolecular dynamics with machine-learned quantum-mechanical force fields trained on diverse chemical fragments」為題,於 2024 年 4 月 5 日釋出在《Science Advances》。
分子動力學(MD)模擬透過計算化學和生物過程中單個原子的運動,為理解分子屬性和功能提供瞭解釋。
然而,由於精確求解多體薛定諤方程的難度,目前僅適用於短期內少量原子的模擬,而近似的經驗力場(FF)則因其計算效率而廣泛應用於較大系統的模擬。
在需要額外準確性和靈活性的情況下,如研究酶反應時,量子力學/分子力學(QM/MM)模擬提供了一種替代方案,即將系統分為用從頭算方法建模的小 QM 區域和用 FF 描述的大 MM 區域。
近年來,機器學習力場(MLFF)作為一種新的 MD 模擬手段出現,它結合了傳統 FF 的計算效率和量子化學方法的高精度,透過在從頭算參考資料上訓練機器學習模型來預測能量和力,無需顯式求解薛定諤方程。
雖然在小到中等規模系統的模擬中,MLFF 取得了成功,但構建適用於大型異質系統(如蛋白質或其他生物相關係統)的 MLFF 仍面臨挑戰。
在最新的工作中,Google DeepMind 和盧森堡大學的研究人員提出了一種為大規模分子模擬構建精確 MLFF 的通用方法,稱為 GEMS。
基於分而治之的原則,大型異質系統的 MLFF 在不同大小的分子片段上進行訓練,這些分子片段仍然適合電子結構計算。這些碎片並不構成更大系統的分割槽;相反,它們可以是重疊的部分,甚至只是在結構上與原始系統相關。
在評估 MLFF 時,不會直接使用這些片段,而是僅在訓練過程中使用,從而瞭解較大系統中存在的相關物理化學相互作用。
根據這些片段資料(包括水或溶劑分子),ML 模型推斷重組原始系統,並能夠預測完整的勢能表面(PES),包括與溶劑的相互作用,這使得 GEMS 能夠成功解決從頭開始質量生物分子模擬的長期挑戰。因此,GEMS 指的是使用以這種方式構建的 MLFF 執行分子模擬的一般原理。
雖然 MLFF 可以成功地從小分子中學習區域性化學相互作用,但需要足夠數量的較大片段來學習推廣到更大系統所需的遠端效應,並相對於從頭開始的基本事實實現高預測精度(能量為 0.450 meV/atom,力為 36.704 meV/Å)。
在這裡,科學家依賴於最近提出的 SpookyNet 架構,該架構透過將物理驅動的互動項嵌入到 ML 架構中並從參考資料中學習其引數來顯式地模擬色散和靜電。
研究人員注意到 SpookyNet 模型並不是第一個明確模擬遠端靜電的模型,其他模型也遵循類似的方法。此外,原子核之間短程排斥力的經驗項提高了模型對強鍵畸變的穩健性。
SpookyNet 還包括一種描述非區域性電荷轉移等效應的機制,而其他 MLFF 通常無法做到這一點。當使用適當的參考資料進行訓練時,這些元件共同使模型能夠推廣到更大的分子。
圖示:自上而下和自下而上片段的生成。(來源:論文)
至關重要的是,這使得 GEMS 能夠解釋合作的遠端效應,這對於傳統的 FF 來說是困難或不可能的。雖然小片段的大量參考資料主要用於學習短程相互作用的穩健「基線」表示,但額外的較大片段允許 GEMS 還捕獲長程相互作用以及不同相互作用尺度之間的相互作用。用同樣的方式,也可以囊括溶劑效應(透過明確描述與溶劑分子的相互作用)。
研究證明,GEMS 可以學習從此類片段資料中準確地模擬大規模現象,例如協作偏振效應,從而與從頭開始的地面事實實現密切一致。
然而,MLFF 的質量和可靠性應該透過其對實驗測量的預測來判斷,例如,GEMS 能夠定量重現有關不同溫度下聚丙氨酸系統螺旋穩定性的實驗結果,並正確描述溶劑化的 46 個殘基蛋白質(crambin)的太赫茲紅外(IR)振動光譜。
圖示:使用 GEMS 精確模擬聚丙氨酸系統。(來源:論文)
使用傳統的經驗 FF 很難實現這一點,傳統的經驗 FF 不考慮集體多體相互作用,因此產生最多是定性的大規模振動模式,通常會在 25 至 150 cm−1 光譜區域內出現峰結構的模糊和振幅的誇大。
GEMS 適用於模型肽和含 8205 個明確水分子(>25,000 個原子)的水溶液中的 46 殘基蛋白質 Crambin 的 MD 模擬。與傳統的 FF(例如 AMBER99SB-ILDN)相比,GEMS 更接近根據密度泛函理論計算的能量和力。
圖示:Cambin 中的半胱氨酸/精氨酸殘基。(來源:論文)
研究結果揭示了聚丙氨酸肽摺疊途徑中以前未知的中間體以及 α-螺旋和 310-螺旋之間的動態平衡。
在溶劑化 Crambin 的模擬中,GEMS 表明蛋白質運動在性質上有所不同,與傳統 FF 的計算相比,PES 更平滑,振動更柔和,顯示出對比的短時標和長時標動態。
低頻振動模式很大程度上決定了蛋白質的自由能;該團隊的結果表明,為了充分理解生物分子的動態過程,可能需要從頭開始進行精確地計算模擬。
圖示:Crambin 在太赫茲時間尺度上的紅外光譜。(來源:論文)
結語
GEMS 的未來工作可能包括將其擴充套件到更大系統和更長時間尺度的模擬,以及可能的擴充套件包括納入核量子效應,這些都可能為研究大分子系統的動態提供新的視角。
雖然 GEMS 在計算效率上優於從頭算計算,但仍低於傳統 FF。此外,GEMS 在評估時通常需要更多的記憶體,這限制了可模擬的最大系統大小。儘管如此,GEMS 仍然能夠在保持從頭算精度的同時模擬數千原子系統的幾納秒動態。
使用精確的 MLFF 的另一個優勢在於能夠獲得任意導數,包括化學衍生物。這可能使得針對區域性突變最佳化可觀測量成為可能,從而在藥物設計和蛋白質工程中發揮重要作用。
圖示:實現精確的量子力學蛋白質-蛋白質相互作用:ACE2(藍色)和 SARS-CoV 刺突蛋白 RBD(紅色)的氣相結合曲線。(來源:論文)
GEMS在模擬蛋白質-蛋白質相互作用方面展現出應用潛力,例如在模擬 ACE2 與 SARS-CoV-1 和 SARS-CoV-2 變體的 RBD 結合時,GEMS 提供了更強的結合能預測,這可能對理解病毒如何與宿主細胞相互作用具有重要意義。
雖然目前GEMS使用的片段是特定於系統的,但未來的發展可能會使其能夠覆蓋更廣泛的系統範圍,從而實現具有化學可轉移性和尺寸可擴充套件性的「通用」MLFF,這將進一步推動 GEMS 在多個領域的應用。
論文連結:https://www.science.org/doi/10.1126/sciadv.adn4397