編輯 | X
氣體分離對於工業生產和環境保護至關重要,金屬有機框架(MOF)由於其獨特的效能而成為氣體分離領域一種有前途的材料。
傳統的模擬方法,如分子動力學,複雜且計算量要求高。雖然基於特徵工程的機器學習方法表現更好,但由於標記資料有限,很容易出現過度擬合。此外,這些方法通常是針對單一任務而設計的。
為了應對這些挑戰,由清華大學、加州大學、中山大學、蘇州大學、深勢科技和北京科學智慧研究院(AI for Science Institute,Beijing,AISI) 組成的多機構團隊,合作提出了 Uni-MOF,一種用於大規模三維 MOF 表示學習的創新框架,專為多用途氣體預測而設計。Uni-MOF 既適合科學研究又適合實際應用。
具體來說,Uni-MOF 可用作 MOF 材料的多功能氣體吸附估算器。對於模擬資料,Uni-MOF 在所有資料集上都表現出非常高的預測精度。Uni-MOF 是機器學習在氣體吸附領域的開創性實踐。
該研究以「A comprehensive transformer-based approach for high-accuracy gas adsorption predictions in metal-organic frameworks」為題,於 2024 年 3 月 1 日釋出在《Nature Communications》上。
論文連結:https://www.nature.com/articles/s41467-024-46276-x
需要一個統一的吸附框架
金屬有機框架(MOF)因其可調節的結構特性和化學成分被廣泛應用於氣體分離等領域。
雖然 MOF 在氣體吸附方面的潛力很大,但準確預測其吸附容量仍然是一個挑戰。
分子動力學、蒙特卡羅(MC)等計算方法,計算成本高且實施複雜,限制了它們在大規模、多氣體和高通量計算。此外,氣體吸附的操作條件範圍廣,使預測變得更加複雜。
圖神經網路和 Transformers 已被證明可以成功預測 MOF 屬性。
儘管現有的預測吸附特性的模型具有高效能和強大的預測能力,但它們通常是為單一任務而設計的,特別是預測特定條件下特定氣體的吸附吸收率。然而,這些單一任務預測的可用資料集通常是有限的,從而阻礙了模型的通用性。
另一方面,來自不同溫度和壓力環境下的各種吸附氣體的標記資料的組合可以建立適合整個工作條件下訓練的大量資料集。增加的資料量還可以增強模型的泛化能力,並改善其實際工業用途。因此,需要一個統一的吸附框架來推進這些模型。
此外,針對大規模未標記 MOF 結構整合表示學習,或預訓練,可以進一步提高模型效能和表示能力。
Uni-MOF 框架:既適合科學研究又適合實際應用
受此啟發,研究團隊提出 Uni-MOF 框架作為一種多用途解決方案,使用結構表示學習來預測不同條件下 MOF 的氣體吸附。
與其他基於 Transformer 的模型(例如 MOFormer 和 MOFTransformer)相比,Uni-MOF 作為基於 Transformer 的框架,不僅可以在預訓練中識別和恢復奈米多孔材料的三維結構,從而大大提高了奈米多孔材料的穩健性。而且微調任務還進一步考慮了溫度、壓力和不同氣體分子等操作條件,這使得 Uni-MOF 既適合科學研究又適合實際應用。
Uni-MOF 作為 MOF 材料的綜合氣體吸附估計器,僅需要 MOF 的晶體資訊檔案 (CIF) 以及相關氣體、溫度和壓力引數,就可以在廣泛的操作條件下預測奈米多孔材料的氣體吸附特性。Uni-MOF 框架易於使用並允許模組選擇。
此外,透過將各種跨系統吸收標記資料與大量未標記結構資料的表示學習相結合,有效解決了過度擬合的問題。這彌補了高質量資料和資料不足的不足,最終提高了氣體吸附預測的準確性。
Uni-MOF 框架實現了原子級別的材料識別精度,而整合模型使 Uni-MOF 更適用於工程問題。毫無疑問,實現真正統一的模型是材料領域未來的方向,而不僅僅是專注於專業領域。Uni-MOF 是機器學習在氣體吸附領域的開創性實踐。
Uni-MOF 框架概述
Uni-MOF 框架包括三維奈米多孔晶體的預訓練和下游應用中多工預測的微調。
圖 1:Uni-MOF 框架的示意圖。(來源:論文)
三維晶體材料的預訓練顯著增強了下游任務的預測效能,特別是對於大規模未標記資料。
為了解決訓練資料集監督不充分的問題,研究人員收集了大量的 MOF 結構資料集,並使用 ToBaCCo.3.0 生成了超過 300,000 個 MOF。基於材料基因組策略和準反應組裝演算法 (QReaxAA) 的 COF 的高通量構建是可行的,從而建立一個全面的 COF 庫。透過材料的空間構型,Uni-MOF 能夠很好地學習材料的結構特性,最重要的是化學鍵資訊。
為了使 Uni-MOF 能夠學習更多樣化的材料,從而提高對更廣泛材料的泛化能力,在預訓練過程中透過虛擬和實驗方式引入了 MOF 和 COF。與 BERT 和 Uni-Mol 中的掩蔽標記任務類似,Uni-MOF 採用掩蔽原子的預測任務,從而促進預訓練模型深入瞭解材料空間結構。
為了增強預訓練的穩健性並推廣學習到的表示,研究人員向 MOF 的原始座標引入了噪聲。在預訓練階段,設計了兩個任務。(1)從噪聲資料中重建原始三維位置,(2)預測遮蔽原子。這些任務可以增強模型的穩健性並提高下游預測效能。
除了多樣化的空間構型之外,一套全面的材料屬性資料點對於模型訓練也至關重要。為了豐富資料集,研究人員建立了自定義資料生成流程(如圖 1b 所示)。
Uni-MOF 的微調基於透過預訓練獲取的表示的提取,以及使用自制工作流程生成和收集大量資料集。在微調過程中,使用 MOF 和 COF 各種吸附條件下的約 3,000,000 個標記資料點來訓練模型,從而能夠準確預測吸附容量。
憑藉跨系統目標資料的多樣化資料庫,經過微調的 Uni-MOF 可以預測 MOF 在任意狀態下的多系統吸附特性。因此,Uni-MOF 是一個統一且易於使用的框架,用於預測 MOF 吸附劑的吸附效能。
最重要的是,Uni-MOF 無需額外的人工來識別人類定義的結構特徵。相反,MOF 的 CIF 以及相關氣體、溫度和壓力引數就足夠了。自監督學習策略和豐富的資料庫確保 Uni-MOF 能夠預測奈米多孔材料在各種操作引數下的氣體吸附特性,從而使其成為一種熟練的 MOF 材料氣體吸附估計器。
預測精度高達 0.98,可跨系統預測
該研究對包含超過 631,000 個 MOF 和 COF 的資料庫進行了自監督學習,預測精度高達 0.98。這表明基於三維預訓練的表示學習框架有效地學習了 MOF 的複雜結構資訊,同時避免了過擬合。
應用 Uni-MOF 對三大資料庫(hMOF_MOFX-DB,CoRE_MOFX-DB 和 CoRE_MAP_DB)的氣體吸附效能進行了預測,在資料充足的資料庫中取得了高達 0.98 的預測精度。
圖 2:Uni-MOF 在大規模資料庫中的整體效能。(來源:論文)
在資料集充分取樣的情況下,Uni-MOF 不僅保持了 0.83 以上的預測精度,而且僅透過預測低壓下的吸附,就能準確選擇高壓下的高效能吸附劑,與實驗篩選結果一致。因此,Uni-MOF 代表了材料科學領域在機器學習技術應用方面的重大突破。
圖 3:基於低壓預測和高壓實驗值的吸附等溫線,每條曲線代表 Langmuir 擬合。(來源:論文)
此外,與單系統任務相比,Uni-MOF 框架在跨系統資料集上表現出優越的效能,可以準確預測未知氣體的吸附特性,預測精度高達 0.85,展示了其強大的預測能力和通用性。
圖 4:Uni-MOF 跨系統預測案例。(來源:論文)
研究表明,預訓練的自監督學習策略可以有效提高 Uni-MOF 的穩健性和下游預測效能。
圖 5:Uni-MOF 和 Uni-MOF 無預訓練比較。(來源:論文)
透過對三維結構進行廣泛的預訓練,Uni-MOF 有效地學習了 MOF 的結構特徵,實現了 hMOF 的 0.99 的高決定係數。
圖 6:結構特徵預測與分析。(來源:論文)
此外,t-SNE(t 分佈隨機鄰域嵌入)分析證實,微調階段可以進一步學習結構特徵,並且可以很好地識別具有不同吸附物行為的結構,這表明學習的表示與氣體吸附目標之間存在很強的相關性。
圖 7:hMOF 和 CoRE_MOF 資料集中 MOF 結構表示的視覺化,低維嵌入透過 t-SNE 方法計算。(來源:論文)
總之,Uni-MOF 框架作為 MOF 材料的多功能預測平臺,充當 MOF 的氣體吸附估計器,在預測不同操作條件下的氣體吸附方面具有很高的精度,在材料科學領域具有廣泛的應用前景。