打破GNN與語言模型間壁壘,圖輔助多模態預訓練框架用於催化劑篩選,登Nature子刊

ScienceAI發表於2024-12-03

圖片

編輯 | KX

吸附能是一種反應性描述符,必須準確預測,才能有效地將機器學習應用於催化劑篩選。該過程涉及在催化表面上的不同吸附構型中找到最低能量。

儘管圖神經網路在計算催化劑系統的能量方面表現出色,但它們嚴重依賴原子空間座標。相比之下,基於 Transformer 的語言模型可以直接使用人類可讀的文字輸入,無需詳細的原子位置或拓撲結構;然而,這些語言模型通常難以準確預測吸附構型的能量。

近日,卡內基梅隆大學的研究人員透過一種稱為圖輔助預訓練的自監督過程,將其潛在空間與成熟的圖神經網路對齊,從而改進了預測語言模型。該方法將吸附構型能量預測的平均絕對誤差降低了 7.4-9.8%,將模型的注意力重新引導到吸附構型上。

在此基礎上,研究人員建議使用生成式大語言模型為預測模型建立文字輸入,而不依賴於精確的原子位置。這展示了語言模型在沒有詳細幾何資訊的能量預測中的潛在用例。

相關研究以「Multimodal language and graph learning of adsorption configuration in catalysis」為題,於 11 月 27 日釋出在《Nature Machine Intelligence》上。

圖片

論文連結:https://www.nature.com/articles/s42256-024-00930-7

研究背景

機器學習 (ML) 方法,尤其是圖神經網路 (GNN),已成為計算成本高昂的密度泛函理論 (DFT) 模擬的有效替代品。這可以加速高通量材料篩選的能量和力預測。基於 ML 的 DFT 替代模型在催化中的成功應用可以識別特定反應的最佳催化劑材料。

儘管 GNN 在催化領域的機器學習應用中取得了重大成功,但獲取其輸入資料可能具有挑戰性,因為它們需要原子位置或拓撲。構建結構的圖表示依賴於識別每個原子在特定接近度閾值內的最近鄰。然而,實現如此精確的座標可能很困難,這主要限制了 GNN 在理論研究中的適用性。

語言模型可以處理原子系統的文字描述,而不是用原子座標構建輸入。例如,MOFormer 模型將金屬有機骨架 (MOF) 編碼為文字字串表示形式,稱為 MOFid,與圖表示不同,它包含有關構建塊和拓撲程式碼的化學資訊。

吸附能的識別是催化劑篩選中的關鍵反應性描述符。雖然語言模型有可能繞過對精確原子位置的需求,但其準確性仍然是一個問題。提高模型的準確性對於有效地將這種基於文字的方法應用於吸附構型能量預測任務至關重要。

多模態預訓練框架

在此,研究人員開發了一個多模態預訓練框架,稱為圖輔助預訓練,在共享潛在空間內將已建立的基於圖的方法與新引入的基於文字的方法聯絡起來。引入此方法是為了提高吸附構型能量預測的準確性。該框架使用 RoBERTa 編碼器進行文字處理,並使用線性迴歸頭來預測催化劑系統能量。

圖片

圖 1:模型訓練框架的概述。(來源:論文)

此外,EquiformerV2 模型由於能夠對精確的原子結構進行編碼而被用作圖編碼器。在此框架中,文字和圖嵌入在預訓練期間都以自監督的方式對齊。隨後,該模型經歷微調階段,在該階段,使用從 DFT 計算中得出的能量標籤以監督方式進行訓練。重要的是,微調步驟完全依賴於文字輸入資料,而不需要圖表示。

研究進行兩種型別的下游推理:一種是為了評估圖輔助預訓練的效果,另一種是為了證明該模型在沒有精確瞭解吸附質-催化劑系統結構的情況下預測能量的能力。

首先,為了評估圖輔助預訓練對預測準確性的影響,研究人員對從 ML 弛豫結構派生的測試集字串進行了預測。CatBERTa 模型以文字字串作為輸入,使用從 ML 弛豫結構派生的文字資料進行訓練,以預測弛豫構型的能量。其次,為了說明該模型在不依賴精確結構的情況下預測能量的潛力,使用 LLM 生成晶體學資訊檔案 (CIF) 格式的指示性結構。這是透過提供吸附質和催化劑的化學成分和表面取向作為輸入來完成的。生成的 CIF 被轉換成與 CatBERTa 輸入相容的文字字串。

圖片

圖 2:模型推理框架。(來源:論文)

文字字串是透過將結構資訊轉換為包含三個部分的特定格式生成的。第一部分代表吸附物的化學符號,第二部分包括催化劑的化學符號和米勒指數,分別表示化學組成和表面取向。最後一部分描述了吸附構型,捕獲了吸附物和催化劑表面頂層中的主要和次要相互作用原子,這些原子是使用 Pymatgen 庫識別的。

圖輔助預訓練是框架的核心元件,旨在將知識從圖嵌入轉移到文字嵌入。這種方法彌補了 GNN 與語言模型之間的差距。

圖片

圖輔助預訓練方法導致 MAE 大幅降低,如表 1 所示,降幅從 7.4% 到 9.8% 不等。為了評估圖輔助預訓練帶來的增強效果。比較了使用和不使用這種預訓練方法的 CatBERTa 的預測結果。在所有情況下,圖輔助預訓練都提高了下游預測準確性。

這表明圖輔助預訓練可以作為一種可轉移的預訓練策略,彌合高效能 GNN 與新興的基於 Transformer 的語言模型方法之間的差距。

展望未來

該研究提出的多模態預訓練方法,將圖和文字嵌入整合到潛在空間中。這促進了不同模型設定之間的連線,增強了語言模型在預測任務中的應用。

雖然當前框架在預測準確性和生成有效性方面存在侷限性,但它是更詳細的模擬或實驗驗證的開始。

展望未來,研究人員表示:「我們的目標是開發一個更全面的基於語言的催化劑設計平臺,透過改進預測和生成能力,將它們整合到單個 LLM 中,整合其他功能工具,並在類似代理的框架中為平臺配備推理和規劃能力。」

相關文章