1.1億個結構DFT計算,Meta推出OMat24,AI驅動材料發現開源化

ScienceAI發表於2024-10-22

圖片

編輯 | KX

材料科學家發現新材料通常需要耗費很長時間。他們需要進行大量的數字運算、屬性研究並執行大量的模擬。

與其他計算方法或反覆試驗相比,AI 可以更有效地探索化學空間,加速材料的發現和設計。但出現的一個障礙是缺乏公開資料和開放的預訓練模型。

近日,Meta 公司推出一個名為「Open Materials 2024」(OMat24)的大型開放資料集和配套的預訓練模型,旨在徹底改變 AI 驅動的材料發現。整個系統都是開源的,解決了材料發現中最令人頭疼的問題之一:沒有足夠優質、可訪問的資料。

OMat24 包含超 1.1 億個結構密度泛函理論 (DFT) 計算,重點關注結構和成分多樣性,成為該領域最大的公開資料集之一。

研究人員還展示了 EquiformerV2 模型,這是一種在 OMat24 資料集上訓練的最先進的圖神經網路 (GNN),在 Matbench Discovery 排行榜上實現了最先進的效能,能夠預測基態穩定性和形成能,F1得分高於 0.9,精度達 20 meV/atom。

劍橋大學分子建模教授 Gábor Csányi 表示(沒有參與該研究),「Meta 決定公開其資料集比 AI 模型本身更重要。這與谷歌和微軟等形成了鮮明對比,他們最近也釋出了看似具有競爭力的模型,但這些模型是保密的資料集上進行訓練的。」

OMat24 資料集和模型可在 Hugging Face 上下載、修改和使用。

相關研究以「Open Materials 2024 (OMat24) Inorganic Materials Dataset and Models」為題,釋出在預印平臺 arXiv 上。

圖片

論文連結:https://arxiv.org/abs/2410.12771

Hugging Face 開源地址:https://huggingface.co/datasets/fairchem/OMAT24

新材料的發現對於眾多應用都至關重要。從應對氣候變化到下一代計算硬體的進步。可能材料的搜尋空間非常巨大,現有的計算和實驗方法在有效探索廣闊的化學空間方面存在很大侷限。

雖然 AI 已成為材料發現的強大工具,但缺乏公開資料和開放的預訓練模型。密度泛函理論 (DFT) 計算對於研究材料的穩定性和性質至關重要,但計算成本高昂,限制了其在探索大型材料搜尋空間中的實用性。

Meta FAIR 研究人員推出的 Open Materials 2024 (OMat24) 資料集和模型,旨在進一步推動 AI 和材料科學的快速發展。

OMat24 資料集

OMat24 資料集由 DFT 單點計算、結構弛豫和多種無機塊體材料的分子動力學組合而成。總共計算了約 1.18 億個標有總能量、力和晶胞(cell)應力的結構。每個結構的原子數範圍為 1 到 100 個原子,大多數結構有 20 個或更少的原子。

這些結構是使用玻爾茲曼取樣、從頭算分子動力學 (AIMD) 和擾動結構的弛豫(relaxation of rattled structures)等技術生成的。該資料集強調非平衡結構,確保在 OMat24 上訓練的模型非常適合動力學和遠離平衡的特性。

OMat24 包括物理上重要的非平衡結構,具有廣泛的能量、力和應力分佈,以及顯著的成分多樣性。

OMat24 資料集建立在其他公共資料集之上,例如 MPtrj、Materials Project 和 Alexandria,其中包含平衡或近平衡構型。

圖片

圖示:OMat24 資料集生成、應用領域和取樣策略概述。(來源:論文)

OMat24 的元素分佈基本覆蓋了元素週期表。該資料集涵蓋了與無機材料發現相關的大多數元素。由於氧化物在大多數開放資料集中都較為豐富,因此與其他元素相比,氧化物的代表性略高。

圖片

圖示:OMat24 資料集中元素的分佈。(來源:論文)

OMat24 模型和訓練策略

研究人員探索了模型大小、輔助降噪目標和微調對一系列資料集(包括 OMat24、MPtraj 和 Alexandria)效能的影響。

研究人員利用 OMat24 資料集以及 MPtrj 和 Alexandria 資料集來訓練 GNN。由於 Alexandria 資料集和用於測試的 WBM 資料集中存在類似的結構,研究人員對 Alexandria 資料集進行了子取樣以進行訓練,以確保訓練資料集和測試資料集之間沒有洩漏。透過刪除所有與 WBM 初始結構和弛豫結構中的結構相匹配的結構,建立了 Alexandria 的新子集 (sAlexandria)。

接下來,透過刪除所有能量 > 0 eV、力範數 > 50 eV/Å 和應力 > 80 GPa 的結構來縮小資料集的大小。

最後,只對剩餘軌跡中能量差大於 10 meV/atom 的結構進行取樣。用於訓練和驗證的結果資料集分別有 1000 萬和 50 萬個結構。

對於模型架構,研究人員僅關注 EquiformerV2,它是目前在 OC20 、OC22 和 ODAC23 排行榜上表現最好的模型。對於模型訓練,研究人員探索了三種策略:

  • EquiformerV2 模型僅在 OMat24 資料集上訓練,帶有和不帶有去噪增強目標。這些模型具有最強的物理意義,因為它們僅適合包含與舊版 Materials Project 設定相關的底層偽勢重要更新的資料集。
  • EquiformerV2 模型僅在 MPtrj 資料集上訓練,帶有和不帶有去噪增強目標,可用於直接與 Matbench Discovery 排行榜進行比較(表示為「相容」模型)。
  • 來自 (1) 或 OC20 檢查點的 EquiformerV2 模型在 MPtrj 或 sAlexandria 資料集上進一步微調,從而成為 Matbench Discovery 排行榜上表現最好的模型(表示為「不相容」)。

在每種情況下,都選擇了幾種模型大小。表 2 列出了訓練模型的引數總數。

圖片

總之,在 MPtrj 上從頭訓練的 EquiformerV2 模型是 MatBench Discovery 上「相容」模型中最先進的,MAE 高達 35 meV/atom。

在 Matbench Discovery 基準上進行評估時,使用 OMat24 訓練的 EquiformerV2 模型的 F1 得分為 0.916,平均絕對誤差 (MAE) 為 20 meV/atom,為預測材料穩定性設定了新的基準

圖片

與同類別的其他模型相比,這些結果明顯更好,凸顯了在 OMat24 等大型多樣化資料集上進行預訓練的優勢。此外,僅在 MPtraj 資料集(相對較小的資料集)上訓練的模型也表現良好,這要歸功於有效的資料增強策略,例如非平衡結構去噪 (DeNS)。結果表明,OMat24 預訓練模型在準確性方面優於傳統模型,尤其是對於非平衡構型。

OMat24 資料集和相應模型的推出,代表了 AI 輔助材料科學的重大飛躍。這些模型能夠以高精度預測關鍵屬性(例如形成能),因此對於加速材料發現非常有用。重要的是,此開源版本允許研究界在現有基礎上繼續發展,進一步增強 AI 在新材料發現中的作用。

參考內容:https://www.marktechpost.com/2024/10/20/meta-ai-releases-metas-open-materials-2024-omat24-inorganic-materials-dataset-and-models/

https://www.technologyreview.com/2024/10/18/1105880/the-race-to-find-new-materials-with-ai-needs-more-data-meta-is-giving-massive-amounts-away-for-free/

相關文章