隨著全球對可再生能源需求的日益增長,儲能技術作為一種能夠將能量儲存起來並在需要時釋放的解決方案,正受到越來越多的關注。但許多再生能源儲存技術初期投資成本高,運維困難,目前仍處於研發或示範階段。
針對於此,彼時還未更名的 Facebook 人工智慧研究實驗室 (FAIR) 聯合卡耐基梅隆大學,於 2020 年發起了 Open Catalyst Project 專案,其目標是利用 AI 探尋用於可再生能源儲存的新催化劑。伴隨該專案的釋出,研究團隊推出了催化劑模擬資料集 OC20。
OC20 資料集下載地址:
https://go.hyper.ai/dYeNS
2022 年,研究團隊在 OC20 資料集的基礎上,擴充套件推出了 Open Catalyst 2022 (OC22) Dataset,使得模型訓練更加精準。
OC22 資料集下載地址
https://go.hyper.ai/9FhFL
近日,Meta 在材料科學領域再次迎來新突破,釋出了 Open Materials 2024 (OMat24) 大規模開源資料集和一組配套的預訓練模型。OMat24 資料集包含超過 1.1 億次以結構和成分多樣性為重點的密度泛函理論 (DFT) 計算結果。預訓練模型使用 EquformerV2 (eqV2) 模型進行訓練,其中 eqV2-M 模型在 Matbench Discovery 排行榜上達到了最先進的水平,能夠預測基態穩定性和形成能,為預測材料穩定性設定了新的基準。
研究亮點:
- OMat24 資料集在 MPtrj、Materials Project、Alexandria 等開源資料集的基礎上構建,資料集包含的元素幾乎覆蓋整個元素週期表
- 預訓練模型有 eqV2-S、eqV2-M、eqV2-L 三種模型規模,其中 eqV2-M 模型在 Matbench Discovery 排行榜上的 F1 得分為 0.916,平均絕對誤差僅為 20 meV/atom
論文地址:
https://arxiv.org/pdf/2410.12771
OMat24 資料集下載地址:
https://go.hyper.ai/gALHP
開源專案「awesome-ai4s」彙集了百餘篇 AI4S 論文解讀,並提供海量資料集與工具:
https://github.com/hyperai/awesome-ai4s
OMat24 資料集包含超 1.1 億 DFT 計算結果,涵蓋不同的原子構型
OMat24 資料集是目前用於材料訓練 DFT 替代模型的最大的開源資料集之一。該資料集由一系列無機體塊材料的 DFT 單點計算 (single-point calculations)、結構弛豫 (structural relaxations) 和分子動力學軌跡 (molecular dynamic trajectories) 組成。研究人員總共計算了約 1.18 億個標註有總能量、力 (forces norm) 和晶胞應力 (stress) 的結構,使用了超過 4 億核時的計算資源。
這些結構是透過玻爾茲曼取樣生成擾動結構 (sampling of rattled structures)、從頭算分子動力學 (ab initio molecular dynamics, AIMD)、以及擾動結構的弛豫 (relaxations of rattled structures) 3 種技術生成的。
OMat24 資料集生成、應用領域及取樣策略概覽
OMat24 資料集具有廣泛的能量、力和應力分佈。下圖展示了 OMat24 資料集、MPtrj 資料集以及 Alexandria 資料集的總能量 (total energy,單位用 eV/atom 表示)、 力 (forces,單位用 eV/A 表示) 和應力 (stress,單位用 GPa 表示) 標籤的分佈情況。
- MPtrj 資料集 (Materials Project Trajectory Dataset) 包含超過 150 萬個無機結構的 DFT 計算結果。因其大規模和多樣性,在材料科學和計算材料學領域具有重要的應用價值。
- Alexandria 資料集是一個量子化學資料庫,為力場開發、密度泛函的開發和評估提供了大量的分子屬性資料。
橙色虛線代表 MPtrj 資料集、藍色虛線代表 Alexandria 資料集、綠色實線代表 OMat24 資料集
可以看到,OMat24 資料集的能量分佈略高於用作輸入結構的 Alexandria 資料集,並且顯著高於 MPtrj 資料集;OMat24 資料集的力以及晶胞應力分佈遠高於 MPtrj 和 Alexandria 資料集。
值得一提的是,OMat24 資料集所包含的元素也幾乎覆蓋了元素週期表。如下圖所示:
OMat24 資料集中的元素分佈
儘管 OMat24 資料集與其他資料集相比具有優越性,但研究人員同時也說明了該資料集還存在侷限性。該資料集是基於 PBE 和 PBE+U 級別的 DFT 計算得到的,它只包含週期性體相結構,未考慮點缺陷、表面、非化學計量比以及低維結構的重要影響,因此存在固有的近似誤差,但這些誤差在其他泛函中得到了一定程度的解決。
如下圖所示,研究人員將 WBM 資料集中的計算結果與採用 OMat24 DFT 設定的單點計算結果進行了比較,結果發現二者之間平均絕對誤差為 52.25 meV/atom。
- WBM 資料集是一個大規模的計算材料資料庫,包含了使用 DFT 計算得到的大量材料的電子結構和熱力學性質資料,如形成能、熵變、比熱容等。
WBM 資料集計算結果與 OMat24 DFT 設定的單點計算結果比較示意圖
以 EquformerV2 為模型架構,基於三大資料集進行模型訓練
研究人員利用 OMat24 資料集以及 MPtrj 資料集和 Alexandria 資料集來訓練模型。由於 Alexandria 資料集和用於測試的 WBM 資料集中存在類似的結構,研究人員對 Alexandria 資料集進行了子取樣以進行訓練,確保訓練資料集和測試資料集之間沒有遺漏。
首先,研究人員刪除了所有與 WBM 初始結構和弛豫結構中相匹配的部分,建立了 Alexandria 的新子集 (sAlexandria)。為了縮小資料集,研究人員刪除了總能量 > 0 eV、力範數 > 50 eV/Å 和應力 > 80 GPa 的結構。最後,只對剩餘軌跡中能量差大於 10 meV/atom 的結構進行取樣。最終用於訓練和驗證的結果資料集分別有 1,000 萬和 50 萬個結構。
對於模型架構,研究人員選擇 EquiformerV2,它是目前在 OC20 、OC22 和 ODAC23 排行榜上表現最好的模型。
對於模型訓練,研究人員探索了 3 種策略:
- 僅在 OMat24 資料集上訓練 EquiformerV2 模型,帶有和不帶有去噪增強目標 (denoising augmentation objectives)。這些模型具有最強的物理意義,因為它們僅適合包含與舊版 Materials Project 設定相關的底層偽勢重要更新的資料集。
- 僅在 MPtrj 資料集上訓練 EquiformerV2 模型,帶有和不帶有去噪增強目標,可用於直接與 Matbench Discovery 排行榜進行比較(標記為 compliant 模型)。
- 在 MPtrj 或 sAlexandria 結合的資料集上進一步微調 OMat24 或 OC20,從而進行 EquiformerV2 模型訓練,使其成為 Matbench Discovery 排行榜上表現最好的模型(標記為 non-compliant 模型)。
下表展示了基於 EquiformerV2 架構訓練的模型以及不同規格模型分別對應的引數總數和推理吞吐量:
模型訓練的不同規格
基於 EquiformerV2 訓練的模型在 Matbench-Discovery 排行榜表現最優
研究人員使用 Matbench-Discovery 基準對 EquiformerV2 模型進行評估,結果顯示無論是在 compliant (僅使用 MPtrj 訓練) 還是 non-compliant (使用額外資料訓練) 的模型上,EquiformerV2 模型在排行榜上都達到了最優的表現 (F1 分數是主要評判指標)。
下圖展示了 Matbench-Discovery 排行榜上其他 non-compliant 模型的表現。
圖源 Matbench-Discovery 官網
結果顯示 eqV2-M 模型的 F1 得分為 0.916,平均絕對誤差 (MAE) 為 20 meV/atom,均方根誤差 (RMSE) 為 72 meV/atom,為材料穩定性的預測設立了新的基準。
此外,僅在 MPtraj 資料集上訓練的 EquiformerV2 模型也表現出色,這得益於有效的資料增強策略,如對非平衡結構進行去噪 (DeNS)。從上表可以看出,基於 OMat24 資料集預訓練的模型在精度方面優於傳統模型,特別是在處理非平衡配置時表現突出。
開源成為材料科學與 AI 融合的加速器
在當今這個由資料驅動的時代,AI 正以其前所未有的速度和精度,重塑著材料科學的研究正規化。特別是圍繞材料科學開源的 AI 知識、工具和資料,讓更多研究人員、開發者甚至是愛好者有機會共同參與到創新的過程中,協力推進材料科學的發展。
對於此次 OMat24 開源資料集及其模型的釋出,機器學習大牛、微軟研究院首席科學家 Max Welling 在社交平臺表示「我對 OMat24 這個新資料集感到特別興奮,它催生了一個新的 SOTA 級別的機器學習力場基礎模型。」
其實早在 2011 年,美國伯克利國家實驗室 (LBNL) 就釋出了 Materials Projec。該資料集包含了大量無機材料的計算資料,如晶體結構、電子結構和熱力學性質等,成為了當下材料科學研究的重要資料資源。
論文地址:
https://go.hyper.ai/KExvK
Materials Projec 資料集下載地址:
https://go.hyper.ai/BOQS0
又如美國西北大學 (Northwestern University) 在 2013 年釋出了開源量子材料資料集 OQMD,包含了 1,226,781 種材料的熱力學和結構性質的計算結果,被廣泛用於對多種材料應用進行高通量的 DFT 分析。
論文地址:
https://www.nature.com/articles/npjcompumats201510
OQMD 資料集下載地址:
https://go.hyper.ai/X4fE5
2018 年,麻省理工學院 (MIT) 釋出 CGCNN 模型。該模型在材料科學中應用廣泛,透過圖神經網路實現對材料性質的預測,如預測晶體材料的帶隙、磁性和熱力學穩定性等性質。
論文地址:
https://arxiv.org/pdf/1710.10324
2020 年,美國國家標準與技術研究院 (NIST) 釋出 JARVIS 開源平臺,專注於預測材料性質和電子結構。JARVIS-ML 是其機器學習模組,提供了豐富的資料集和基於機器學習的材料篩選工具,支援 DFT、分子動力學模擬和機器學習,能夠幫助研究人員快速篩選和發現新材料。
論文地址:
https://arxiv.org/abs/2007.01831
2021 年,NIST 又釋出了 ALIGNN 模型。該模型透過引入線圖來捕獲原子間的複雜相互作用,可以有效提高材料性質預測的準確性。
論文地址:
https://www.nature.com/articles/s41524-021-00650-1
可以看出,從高通量篩選到自動化材料設計,開源已經成為推動材料科學與 AI 融合的重要加速器,正引領材料科學進入更智慧、更高效的新紀元。
參考資料:
1.https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/
2.https://www.notebookcheck.net/Meta-unveils-OMat24-AI-powered-materials-discovery-goes-open-source.904139.0.htm
3.https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/