LLM學習原子「結構語言」,生成未知化合物的晶體結構,登Nature子刊

ScienceAI發表於2024-12-10

圖片

編輯 | 蘿蔔皮

生成合理的晶體結構通常是預測材料化學成分及其性質的第一步,但當前大多數預測方法計算成本高,制約了創新程序。透過使用優質生成的候選結構來預測晶體結構,可以突破這一瓶頸。

在最新的研究中,英國雷丁大學(University of Reading)的研究人員介紹了 CrystaLLM,這是一種基於晶體學資訊檔案 (CIF) 格式的自迴歸大型語言建模 (LLM) 的多功能晶體結構生成方法。

CrystaLLM 經過數百萬個 CIF 檔案的訓練,專注於透過文字對晶體結構進行建模,它可以為訓練中未涉及的各種無機化合物生成合理的晶體結構。

這種方法挑戰了傳統的晶體表示,並展示了 LLM 學習有效晶體化學模型的潛力,這將加速材料科學的發現和創新。

該研究以「Crystal structure generation with autoregressive large language modeling」為題,於 2024 年 12 月 6 日釋出在《Nature Communications》。

圖片

在材料科學的計算機輔助發現過程中,晶體結構預測(CSP)方法常用於探索化學系統中的新材料。這類方法旨在透過特定的物理條件推匯出給定化學成分的基態晶體結構。

CSP 通常依賴於高計算開銷的從頭計算技術,其中透過生成候選結構來最佳化搜尋過程。隨著機器學習和資料科學技術的進步,生成模型,如自動編碼器和生成對抗網路,已被應用於晶體結構的生成。

雖然大語言模型(LLM)在自然語言處理和化學成分生成中取得了顯著成果,但是訓練 LLM 來生成晶體結構的文字表示仍然是一個相對較新的探索領域。

CrystaLLM

雷丁大學的研究團隊報告了專門為晶體生成而設計的 LLM —— CrystaLLM 。該模型專門針對無機晶體結構的文字表示進行訓練,特別是晶體學資訊檔案 (CIF) 格式,而不是僅僅依賴於自然語言語料庫或化學成分。

Luis M. Antunes 在雷丁大學攻讀博士學位期間主導了這項研究,他說:「預測晶體結構就像解決一個複雜的多維拼圖,而拼圖碎片是隱藏的。預測晶體結構需要大量的計算能力來測試無數種可能的原子排列。」

這種方法基於兩個猜想:

首先,符號序列(即標記)是許多預測任務(包括涉及化學結構的任務)的適當表示方式。其次,LLM 不僅學習標記的條件機率分佈,還可能透過自迴歸預訓練學習一個有效的世界模型,即目標現象的因果過程。

近期的研究表明,經過棋盤遊戲訓練的 LLM 能夠追蹤棋盤狀態並表示領域特定的抽象概念。由此可推測,經過訓練的模型也許能學習晶體結構中隱含的化學性質,並借鑑原子世界的模型生成未知結構。

CrystaLLM 是一個基於 Transformer 的 CIF 檔案格式的解碼器專用語言模型,在數百萬個 CIF 檔案的語料庫上進行自迴歸訓練。該模型不是在從 CIF 檔案得出的結構表示上進行訓練,而是直接在 CIF 檔案的標準化和標記化文字內容上進行訓練。

圖片

圖示:CIF 檔案的大型語言建模。(來源:論文)

在訓練期間,模型會從 CIF 檔案語料庫中獲取一系列標記,並負責預測每個給定標記後面的標記。模型訓練完成後,便可用它來生成新的 CIF 檔案,條件是某些起始標記序列。生成 CIF 檔案涉及從模型中反覆取樣標記,並對累積的生成內容進行調節,直到達到終止條件。

經測試,CrystaLLM 成功生成了逼真的晶體結構,甚至對於以前從未見過的材料也是如此。

目前的晶體結構生成方法通常依賴預定義模板,在空間群約束下透過程式化或機器學習輔助的原子替換和晶胞調整來生成結構,並透過調整替換機率和範圍來提高結構多樣性。與此不同,CrystaLLM 透過自迴歸訓練吸收隱式模板,自動選擇適合給定組合物的模板。

圖片

圖示:各種無機化合物的生成結構。(來源:論文)

此外,該模型還能自動調整晶胞引數,以適應晶胞中的原子,並根據訓練過程中未顯式遇到的模板生成新結構。與最近報導的基於擴散的晶體生成方法(如 CDVAE 和 DiffCSP)相比,CrystaLLM 不僅在多個方面優於現有基準,還在靈活性(如對稱性輸入)和微調潛力方面展現出額外優勢。

「CrystaLLM 透過研究數百萬種已知的晶體結構來理解模式並預測新的模式,從而取得了突破,就像一個專業的解謎者,他能識別出獲勝的模式,而不是嘗試每一個可能的舉動。」Antunes 說。

圖片

圖示:無條件生成的新結構。(來源:論文)

侷限性

目前該方法仍有幾個侷限性。

首先,資料集中的任何結構都沒有位點佔有無序性(分數位點佔有率)。因此,CrystaLLM 無法生成無序結構,並且可能無法成功生成暗示無序結構的晶胞組成和空間群組合的結構。

另一個限制是資料集的 CIF 檔案並非全部使用同一級別的理論建立。訓練集來自使用不同設定、函式等的 DFT 源的組合,在某些情況下,這可能會使模型難以學習細胞組成和詳細結構之間的一致關係。

未來工作

儘管如此,研究人員表示,他們相信 CrystaLLM 將成為晶體結構生成的有用工具,晶體結構生成正迅速成為大規模材料發現和材料資訊學的關鍵步驟。該團隊計劃探索微調模型以用於物理性質預測任務,例如預測晶格熱導率,因為實驗資料相對稀缺。

該模型的架構使其能夠針對基於成分或基於結構的預測任務進行微調。這意味著 CrystaLLM 可能成為通用材料資訊學模型的基礎,該模型可用於生成任務,並針對需要成分或結構的屬性預測任務進行微調。

如果該模型能夠將其所學到的有關原子世界的知識轉移到這些各種預測問題中,那麼它可能被證明是一種與材料化學的許多方面相關的相當靈活的工具。

論文連結:https://www.nature.com/articles/s41467-024-54639-7

相關內容:https://www.eurekalert.org/news-releases/1067087

相關文章