訓練資料減少多達三個數量級,等變圖神經網路在長時間尺度上進行高保真分子動力學模擬

ScienceAI發表於2022-05-09

編輯/綠蘿

分子動力學(MD)模擬是在能源儲存、催化和生物過程等領域進行計算發現不可或缺的工具。在實踐中,第一性原理方法的不利計算尺度將模擬限制在較短的時間尺度和較少的原子數。基於機器學習,特別是神經網路的原子間勢能靈活模型的構建,有望從從頭算參考計算中學習高保真勢能,同時保留有利的計算效率。

近日,來自哈佛大學的研究團隊提出了神經等變原子間勢 (NequIP),這是一種 E(3) 等變圖神經網路方法,用於從分子動力學模擬的從頭算計算中學習原子間勢。NequIP 優於現有模型,訓練資料減少多達三個數量級。該方法能夠在長時間尺度上進行高保真分子動力學模擬。

該研究以「E(3)-equivariant graph neural networks for data-efficient and accurate interatomic potentials」為題,於 5 月 4 日釋出在《Nature Communications》上。

圖片

機器學習在原子間勢研究中的第一個應用是建立在基於描述符的方法上,結合了淺層神經網路或高斯過程,旨在展示平移、相同化學物質的原子排列和旋轉方面的不變性。

最近,旋轉不變圖神經網路原子間勢(GNN-IPs)已成為一種強大的原子間勢深度學習體系結構,它消除了手工製作描述符的需求,允許從幾何資料的不變特徵中學習原子圖上的表示。

相比之下,NequIP 使用相對位置向量而不是簡單的距離(標量),不僅包含標量,還包含高階幾何張量的特徵。這使得內部特徵改為與旋轉等變,並允許旋轉等變濾波器使用角度資訊。與其他方法類似,可以將卷積限制為所有其他原子的區域性子集,這些原子比選定的截止距離 rc 更靠近中心原子。

圖片

圖 1:NequiIP 網路架構。

本工作的貢獻在於,在幾何張量上構建了基於 E(3) 等變卷積的分子和材料的深度學習節能原子間勢,從而產生了最先進的準確性和出色的資料效率 ,並且可以從分子動力學模擬中以高保真度再現結構和動力學特性。

NequIP 網路架構

NequIP 網路架構如圖 1 所示,建立在原子嵌入的基礎上,然後是一系列互動塊,最後是輸出塊:

  • 嵌入:在 SchNet 之後,使用可訓練的嵌入生成初始特徵,該嵌入僅對原子序數 Zi(透過 one-hot 編碼表示)進行操作,透過可訓練的自互動層實現。
  • 互動塊:互動塊編碼相鄰原子之間的互動:該塊的核心是卷積函式。產生相同旋轉和奇偶校驗對 (lo, po) 的不同張量積互動的特徵由線性原子級自互動層混合。為互動塊配備了 ResNet 樣式的更新。最後,混合特徵由等變的基於 SiLU 的門非線性處理。
  • 輸出塊:最終卷積的 l= 0 特徵被傳遞到輸出塊,該輸出塊由一組兩個原子級自互動層組成。

對於每個原子,最後一層輸出一個標量,它被解釋為原子勢能。然後將這些相加得出系統的總預測勢能。隨後獲得力作為預測的總勢能的負梯度,從而確保能量守恆和旋轉等變力。

方法驗證

研究人員在一系列具有挑戰性的資料集上驗證了所提出的方法:首先,證明該方法提高了 MD-17(一個廣泛用於基準測試 ML- 的有機小分子資料集 IP) 的最新精度。接下來,展示了 NequIP 可以準確地學習在量子化學 CCSD(T) 理論水平上在小分子上獲得的力。為了擴大該方法在小的孤立分子之外的適用性,最後,探索了一系列具有周期性邊界條件的擴充套件系統,包括表面和塊狀材料:不同相的水,固/氣介面處的化學反應, 無定形磷酸鋰和鋰超離子導體。

研究人員首先在 MD-17 上評估了 NequIP。

表 1:原始 MD-17 資料集上分子的能量和力 MAE。

圖片

表 2:修訂後的 MD-17 資料集上分子的能量和力 MAE。

圖片

研究發現 NequIP 優於所有其他方法。與 sGDML 和 FCHL19/GPR 相比,準確度的持續改進尤其令人驚訝,因為它們基於核方法,通常在小型訓練集上獲得比深度神經網路更好的效能。對旋轉順序 l ∈ {0, 1, 2, 3} 執行收斂掃描,發現將張量秩增加到超過 l = 1 會得到一致的改進。從 l = 0 到 l = 1 的顯著改進突出了等方差在提高該任務的準確性方面的關鍵作用。

接下來,利用 NequIP 的高資料效率,在一組以量子化學精度計算的分子(CCSD 的阿司匹林,CCSD(T) 的所有其他分子)進行評估,並將結果與 sGDML 和 GemNet 報告的結果進行比較。

補充表 1:CCSD/CCSD(T) 精度下分子的能量和力 MAE。

圖片

結果表明,NequIP 可以準確地學習在量子化學 CCSD(T) 理論水平上在小分子上獲得的力。

最後,為了證明 NequIP 在小分子之外的適用性,探索了一系列具有周期性邊界條件的擴充套件系統,包括表面和塊狀材料:不同相的水,固/氣介面處的化學反應, 無定形磷酸鋰和鋰超離子導體。

作為第一個示例,使用由液態水和三個冰系統組成的聯合資料集在 PBE0-TS 理論水平上計算。

表 3:液態水和三個冰系統上的能量和力的 RMSE。

圖片

研究發現,在訓練資料減少 1000 倍的情況下,NequIP 在力分量誤差的資料集的所有四個部分上都顯著優於 DeepMD。

將 NequiIP 應用於催化表面反應。特別是,研究了甲酸鹽在 Cu < 110 > 表面上進行脫氫分解 (HCOO* → H* + CO2) 的動力學。

圖片

圖 2:基準系統。

在 2,500 個結構上訓練的 NequIP 模型在 C、O、H 和 Cu 四種元素上分別獲得了 19.9 meV/Å、71.3 meV/Å、13.0 meV/Å 和 47.6 meV/Å 的力分量的 MAE。從中發現平均力 MAE 為 38.4 meV/Å,在這四個每個物種 MAE 上的權重相等,以及能量 MAE 為 0.50 meV/原子,表明 NequIP 能夠準確地模擬該複合物的原子間力反應系統。

為了檢驗  NequIP 模型捕捉動力學特性的能力,研究人員證明 NequIP 可以描述具有 Li4P2O7 成分的無定形磷酸鋰的結構動力學。

表 4:用於 LiPS 和 Li4P2O7 的 NequiIP E/F MAE/RMSE。

圖片

為了證明 NequIP 可以從小型訓練集以高精度模擬動力學傳輸特性,研究人員研究了 LiPS (Li6.75P3S11) 中的鋰離子擴散率。測量了這些 NequIP 驅動的 MD 模擬中的 Li 擴散率,這些模擬從不同的初始速度開始,從 Maxwell-Boltzmann 分佈中隨機取樣。

圖片

圖 3:鋰動力學。

發現平均擴散率為 1.25 × 10−5cm^2/s,與 AIMD 計算的 1.37 × 10−5cm^2/s 的擴散率非常一致,從而實現了低至 9% 的相對誤差。

研究人員表示:未來工作的一個有希望的方向是研究明確包含遠端互動的潛在好處,並測量訊息傳遞機制在多大程度上(如果有的話)這些可能被捕獲。我們期望所提出的方法將使計算化學、物理學、生物學和材料科學領域的研究人員能夠以更高的準確性和效率對複雜反應和相變進行分子動力學模擬。

論文連結:https://www.nature.com/articles/s41467-022-29939-5

相關文章