麻省理工Nature子刊:AI加速量子化學計算,精度媲美「金標準」,計算效率提升百萬倍!

ScienceAI發表於2025-01-10
圖片

編輯 | 2049

在量子化學計算中,精確預測分子電子結構一直是一個重要而富有挑戰性的課題。

傳統的密度泛函理論(DFT)方法雖然計算速度快,但精度有限;而高精度的耦合簇(CCSD(T))方法雖然被視為「金標準」,但其計算成本隨分子大小呈指數級增長,難以應用於複雜體系。

最近,麻省理工學院的研究團隊開發出一種創新的多工學習方法,成功將機器學習與量子化學計算相結合,實現了接近CCSD(T)精度的分子電子結構預測。

該研究以「Approaching coupled-cluster accuracy for molecular electronic structures with multi-task learning」為題,於 2024 年 12 月 27 日釋出在《Nature Computational Science》。

圖片

研究背景

在現代計算化學領域,預測分子電子結構的主流方法是密度泛函理論。作為一種平均場理論,DFT 的系統誤差通常是化學精度(1 kcal/mol)的數倍。

近年來,機器學習方法被廣泛應用於提高 DFT 計算的精度,但由於這些模型都是基於 DFT 資料訓練的,其精度始終無法超越 DFT 本身的理論極限。

另一方面,基於耦合簇理論的 CCSD(T)方法雖然能提供極高的計算精度,但其計算複雜度隨電子數的增長呈現 N⁷ 級別的標度,這導致它只能處理包含數百個電子的小分子體系。

研究團隊敏銳地發現,如果能將機器學習與 CCSD(T)方法有機結合,可能突破這一技術瓶頸。

MEHnet:融合物理洞察的深度學習框架

研究團隊開發的多工電子哈密頓網路(Multi-task Electronic Hamiltonian Network, MEHnet)採用了獨特的物理啟發式設計。

該方法首先使用 DFT 獲得初始的平均場哈密頓量,作為快速但精度較低的起點。然後透過神經網路預測非局域交換關聯修正項,這一修正項能捕捉到電子間的量子關聯效應,最終得到接近 CCSD(T)精度的有效單體哈密頓量。

MEHnet 的核心創新在於其多工學習策略。不同於傳統方法僅關注分子能量的預測,MEHnet 同時預測多個物理量,包括偶極矩、四極矩、原子電荷和鍵級等。這些物理量都源於同一個電子結構表示,透過多工學習可以相互促進,提高模型的泛化能力。

在技術實現上,MEHnet 採用了 E3-等變神經網路框架(E3-equivariant Neural Network),確保預測結果滿足物理系統的旋轉不變性。

如圖 1 所示,整個計算流程包括輸入層、卷積層和輸出層三個主要部分。輸入層將原子構型編碼為圖結構;卷積層透過 E3-等變神經網路提取特徵;輸出層則產生多個量子化學性質的預測值。

圖片

圖 1:MEHnet 的計算流程示意圖。(來源:論文)

效能評估與實驗驗證

研究團隊在碳氫化合物資料集上對 MEHnet 進行了全面評估。實驗設計包括兩個維度:

一是透過改變訓練集大小(從 10 到 7,440 個原子構型)評估模型的學習效率和泛化能力;

二是與主流的 DFT 方法和機器學習模型進行效能對比。評估指標包括能量預測誤差、偶極矩、四極矩、原子電荷等多個物理量的均方根誤差。

實驗結果表明,MEHnet 在計算效率和預測精度兩個方面都實現了突破性進展。

如圖 2 所示,MEHnet 的計算成本隨分子大小呈近似線性增長(~N¹),而 CCSD(T)方法在理論上漸近標度為 N⁷,計算效率提升約百萬倍。

在預測精度方面,對於能量預測,MEHnet 實現了約 0.1 kcal/mol 每原子的誤差水平,接近化學精度;對於其他物理量的預測,也普遍優於 B3LYP 等廣泛使用的混合泛函方法。

圖片

圖 2:測試資料集上的模型效能基準。(來源:論文)

結語

MEHnet 的創新在於其能夠以 CCSD(T)級別的精度預測分子電子結構,同時保持 DFT 級別的計算效率。透過多工學習和 E3-等變神經網路的結合,MEHnet 展示了機器學習在複雜系統電子結構預測中的巨大潛力。

這一研究不僅解決了當前量子化學計算中的關鍵瓶頸,還為未來的跨學科研究提供了新的思路和方法。

論文連結:https://www.nature.com/articles/s43588-024-00747-9


相關文章