DARWIN 1.5 來啦!材料設計通用大語言模型,重新整理多項實驗性質預測記錄

ScienceAI發表於2025-01-27

圖片

編輯丨Science AI

材料發現和設計的核心目標是尋找理想的成分和結構,但傳統方法,如高通量模擬和機器學習,通常依賴於複雜描述符,過於固定且難以通用,並且無法準確反映真實材料特性,因而限制了實際應用。

GreenDynamic 與來自澳大利亞新南威爾士大學(UNSW),上海人工智慧實驗室和香港城市大學的團隊共同開發了一款名為 DARWIN 1.5 的模型。

圖片

不同於傳統機器學習方法,DARWIN 基於語言介面微調框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 萬科學問答和 22 個材料科學任務,為材料屬性預測和發現提供了靈活統一的預訓練模型,並且成功精準預測了上萬種材料的性質數值。

相比基礎 LLaMA-7B 和 GPT-4,DARWIN 1.5 最高提升了 60%,並在超過半數材料屬性預測任務(如帶隙和屈服強度預測)中,優於傳統機器學習方法。在 MatBench bandgap 實驗性質預測等多個任務中擊敗了所有機器學習模型,創造了新的最高記錄(SOTA)。

圖片

圖示:DARWIN 登頂勞倫斯伯克利國家實驗室 MatBench 材料帶隙實驗性質的預測的最高記錄。


兩階段訓練策略


在該研究中,團隊設計了一個兩階段訓練策略,即 QA(question-answering)微調和多工學習,以賦予 DARWIN 熟練執行這些任務的能力。


  1. 第一階段的 QA 資料集來自高引用的科學文獻,這不僅有助於將關鍵的“專業”知識(know-how knowledge)注入 LLM,而且可以更好地模擬人類化學家或材料科學家執行任務的正規化——透過分析和解釋文獻,而不是完全依賴複雜的計算模擬,例如涉及 CIF 檔案的運算。與為每個任務微調單獨的 LLM 不同,
  2. 第二階段採用多工學習機制,同時執行不同的任務,其中包括 5 個分類和 17 個迴歸任務。這些任務與分子和材料的共同屬性密切相關,涉及不同的系統。這種機制能夠有效利用任務間的協同作用,緩解資料分佈不平衡,有效實現基礎表徵的共享學習和跨任務的知識轉移。

該策略不僅共享底層表示,還有效緩解了資料分佈不均的問題。研究表明,這種訓練方法顯著提升了模型在實驗和理論資料中的效能,使其適用於廣泛的材料設計任務。

使用SciQAG-24D資料集和多工學習策略

目前,機器學習在材料和化學領域的應用通常依賴複雜的專用描述符作為輸入。這些描述符雖有效,但設計難度高、任務間的通用性有限,並且理論描述符與實驗資料可能存在差異。

相比之下,該團隊提出的方法以自然語言作為統一輸入格式,不僅簡化了任務整合,還能無縫引入「專業資訊」,增強其在實驗場景中的適用性。

圖片

圖 1:DARWIN 模型示意圖。

為提升 LLM 的效能,研究人員使用 SciQAG-24D 資料集進行訓練。該資料集包含從科學論文中提取的 33000 個開放式問答對,保留了科學文字中的核心知識,降低了單純依賴 LLM 生成內容時的崩潰風險。

研究還引入了多工學習(MTL),從 21 個資料集中提取了 5 個分類任務和 17 個迴歸任務,涵蓋無機物到複合物的多種材料系統,描述其物理、化學和電化學屬性。這些資料集包括多種材料表示形式(如成分、材料名稱、SMILES符號和結構圖案)。研究人員將原始資料轉化為自然語言指令格式,例如『給定成分的帶隙是多少?輸入「CdCu2SnS4」,輸出「1.37」』。

QA 微調和多工學習顯著提升模型效能

為最佳化 DARWIN 大模型在材料科學任務中的表現,研究人員設計並評估了四種微調策略,旨在找到最優的訓練方法。這些策略基於 LLaMA 系列模型進行實驗,以探索 DARWIN 的最佳微調方式:

  1. 單任務(Base-ST):針對每個任務獨立微調模型,評估單任務適應能力並建立基準。
  2. 多工(Base-MT):將 22 個任務的資料混合微調一個模型以執行所有任務。
  3. QA單任務(QA-ST, 2-stage):先在 QA 資料(Base-QA)上微調,再針對每個任務進一步微調。
  4. QA多工(QA-MT, 2-stage):在 QA 微調後的模型(Base-QA)上用 22 個任務資料混合微調。

結果:

  1. 在分類任務中:QA微調平均提升 1.55%,多工微調提升 2.65%,兩階段微調(QA-MT)平均提升 3.38%。特定任務中,分類任務C1在Base-MT中提升了 6%-8%,而在 QA-ST 中的提升較小,僅約 1%。

在迴歸任務中,QA 微調的平均提升為 2.3%,多工微調的平均提升為 10.77%,兩階段(2-stage)微調的表現最佳,提升達 11.79%。

圖片

圖 2:不同微調策略對任務效能的影響對比。

圖 2 中,以 Base-ST 為基準,柱狀圖顯示了不同模型在特定任務上的差異。虛線表示平均改進。

圖 2 表明,不同微調策略能夠有效注入「專業」知識並利用任務間協同效應,從而顯著提升效能,但各任務與微調策略的相容性存在差異,表現在某些任務更適合特定策略。

圖片

圖 3:模型效能與 QA-MT 在各項任務中的比較。

圖3比較了 QA-MT 在各任務中的效能,結果顯示其在大多數任務上優於傳統機器學習基準方法和 GPT 系列微調模型。尤其是在處理材料科學應用時,QA-MT 始終優於GPT-3.5,GPT-4 等模型,表明其在靈活性和實現難度方面具有顯著優勢。

總體來看,這些結果證實了 QA 微調和多工學習策略的有效性,當兩者結合時,能夠進一步提升模型效能。在後續部分中,將詳細分析兩階段微調中驅動效能提升的關鍵因素。

預訓練為 DARWIN 模型奠定基礎

為最佳化 DARWIN 模型在材料科學任務中的應用,研究人員透過對比未訓練與預訓練模型,評估預訓練階段的通用語言能力對後續 QA 微調和多工微調的影響。

方法

  1. 模型對比:研究人員對未訓練的 LLaMA-7B 模型(隨機初始化引數)和預訓練模型進行了對照實驗。
  2. 微調策略:分別對兩種模型進行單任務微調(Random-ST/Base-ST)和多工微調(Random-MT/Base-MT)。

結果

  1. 預訓練的重要性

    1. 在單任務微調中,預訓練模型(Base-ST)顯著優於未訓練模型(Random-ST),分類任務平均提升 11.04%,迴歸任務提升 33.57%。
    2. 多工微調對未訓練模型的效能提升更為顯著,在迴歸任務中最高提升 24.08%。
  2. 任務類別的影響

    1. 預訓練模型對“通用任務”(如材料名稱、成分)的提升幾乎是“專業任務”(如 SMILES、MOFs)的兩倍。
    2. 未訓練模型在多工微調後,通用任務的表現提升更為明顯。

結合效果:當預訓練和多工微調結合時,這種類別差異減小,顯示預訓練階段為通用語言能力打下基礎,而多工微調有效整合了不同材料表徵間的協同作用。

結論

預訓練為 DARWIN 模型的設計提供了關鍵支援:

  1. 顯著提升分類和迴歸任務效能,特別是在通用任務中表現突出。
  2. 為多工微調提供了統一的領域知識基礎,擴充套件了材料科學任務的適用性。

這一研究驗證了預訓練階段的重要作用,併為 DARWIN 模型在自然科學中的廣泛應用奠定了堅實基礎。

圖片

圖 4:單任務和多工微調策略下預訓練和非預訓練模型的效能對比。

圖片

圖 5:一般和專業材料表示任務中預訓練和微調的比較收益。

多工微調:顯著增強知識遷移與迴歸任務表現

研究發現,模型的效能提升不僅靠輸入的資料種類多樣化來增強執行能力,還依賴於對真實世界知識的深入理解和吸收。特別是,輔助資料對模型表現的提升起到了關鍵作用,這也進一步證明了預訓練階段為不同知識框架間的連線搭建了橋樑。

為了探索多工微調在提升模型迴歸任務表現中的具體機制,研究團隊對兩個基準資料集(matbench exp bandgap 和 matbench steel)進行了實驗。

他們設計了一種消融研究(Ablation study)的方法,測試真實資料和合成資料在模型效能提升中的作用。實驗結果顯示,真實資料對效能提升尤為重要,例如在 matbench steel 資料集中,引入真實資料後,模型的誤差(MAE)從 194.9 降至 109.9,效能提升了 44%。這表明基於成分的統一表示在知識遷移中起到了顯著作用。

他們還進一步測試了合成資料的效果。例如:

  1. 如果保留材料的真實成分,但隨機生成屬性值(+Syn 1),會引入錯誤的知識,導致模型效能下降。
  2. 如果保留真實的屬性值,但隨機化成分(+Syn 3),模型仍能透過統計模式實現一定程度的效能提升。

儘管合成資料在某些方面對模型有幫助,實驗結果顯示,引入真實的領域知識(如 matbench 資料集)是效能顯著提升的關鍵。

總結:

  1. 多工微調不僅讓模型更好地適應不同型別的任務,還增強了它對領域知識的理解能力。
  2. 預訓練階段則為不同材料表徵之間的協作和學習提供了堅實的基礎。這種結合是模型效能提升的核心原因之一。

圖片

圖 6:透過消融研究(Ablation Study)來了解多工微調改進背後的機制。

為了研究多工微調為何能夠提升效能,團隊使用精心構建的輔助資料集進行了消融研究。圖 6 顯示了這些資料集旨在隔離指令格式、真實知識和材料表示型別的影響。

帶隙預測突破:QA-MT 模型以低門檻高速度顯著超越傳統方法

帶隙(bandgap)是衡量材料基本電子特性的關鍵引數,決定了材料的電學和光學效能。研究將帶隙預測作為衡量人工智慧模型在材料科學中表現的重要基準,對多種傳統預測方法和最新的 QA-MT(DARWIN 1.5)模型進行了詳細對比:

  1. 傳統方法如 PBE 雖然計算速度快,但精度偏低;
  2. HSE 和 GW 的精度較高,但計算複雜且成本昂貴;
  3. AFLOW 是基於 PBE 訓練的機器學習模型,更注重效率和擴充套件性。

在這些方法中,QA-MT 在 MAD(0.51)和 RMSE(0.69)的優異表現,與 HSE 接近,顯著優於 PBE 和 AFLOW。

表 1:使用 QA-MT(DARWIN)進行帶隙預測的模擬方法比較。

圖片

QA-MT的顯著優勢在於:

  1. 低輸入門檻:僅需提供材料的化學成分(如「GaN」或「CdTe」),無需詳細的結構資訊。
  2. 高預測速度:幾乎即時生成結果,相比傳統方法需要數小時甚至數天,大幅提升效率。
  3. 廣泛適用性:在資料不完整或缺乏結構資訊的情況下,依然能提供可靠的預測。

這一特點使 QA-MT 在材料的高通量篩選中具有極大潛力,能夠幫助研究者快速探索大範圍的化學空間,其高效性和多樣性標誌著帶隙預測邁入了新階段。

總體來看,QA-MT 為材料科學提供了一種高效、精準且低門檻的替代方案,推動了人工智慧在科學研究中的應用前沿。

DARWIN 1.5:開創材料科學與 AI 融合的新紀元

DARWIN 1.5 的核心創新體現在三個方面:

  1. 透過自然語言驅動的通用性摒棄了傳統任務特定描述符,材料模型設計不再需要固定輸入空間,加速新材料發現。
  2. 模型採用多模態多工學習,整合了來自 22 個材料科學任務的跨模態知識,顯著提升了任務間知識遷移能力。
  3. 在效能上超越傳統方法,相較於基座 LLaMA-7B 模型,其預測準確率提高了 60%,在多項任務中輕鬆超過傳統機器學習 SOTA 模型。

DARWIN 1.5 展現了卓越的實證成果:

  1. 在分類任務中,平衡宏觀 F1 評分平均提升 3.38%;在迴歸任務中,平均絕對誤差(MAE)減少了 11.79%;
  2. 在跨領域基準測試中,模型表現優於多種最先進的機器學習方法,尤其是在關鍵任務如帶隙預測中,與傳統模擬方法相比,其推斷速度顯著提升。

DARWIN 1.5 的意義超越了材料科學,它展示了大語言模型在解決科學問題上的普適性潛力,體現大語言模型在材料設計與發現中是更出色的通用學習者(Adapted Learner)。隨著進一步的最佳化和跨領域應用,這一技術有望在能源、醫藥和環境等領域發揮更大作用,推動全球研究人員共同見證大語言模型如何重塑材料科學的未來。

專案原始碼:https://github.com/MasterAI-EAM/Darwin

論文地址:https://arxiv.org/abs/2412.11970

相關文章