超三萬種材料,近百萬真實材料合成表徵資訊,LLM精準構建材料知識圖譜MKG,登NeurIPS 2024

ScienceAI發表於2024-12-24

圖片

編輯 | ScienceAI

知識圖譜整合多源資料資訊為結構化知識,以闡明覆雜科學領域的資料結構並介導研究進展、創新和應用的結構化知識交流。

為了統籌和分析分散在數以百萬計的文獻中的材料學知識,新南威爾士大學(UNSW)、同濟大學、香港城市大學以及 GreenDynamics 律動造物,構建了材料知識圖譜(MKG)。

該團隊依託於大型語言模型獨立設計的本體論,並自動化地提取及清洗了大量的材料學文獻中的知識,構建出了豐富的知識圖譜。

利用基於網路的圖演算法,MKG 對圖中的材料、應用和描述進行評分和預測,探索潛在的缺失關係。該圖包含超過十餘種材料科學重要屬性,十五萬個節點和近百萬個關係。

具體來說,該團隊透過少量資料對大語言模型進行了微調,自主設計圖的本體,並從數十萬篇文章摘要中提取了材料學相關資訊,並保留了所有資訊的可追溯性。

結合自然語言處理技術,對知識進行了高質量清洗,並應用圖演算法和模型完成了圖的完善和增強,揭示了材料學知識之間的潛在聯絡和機理。

透過MKG,團隊預測了在電池、太陽能電池、催化劑等能源領域,未來幾年可能出現的潛在材料,併為這些預測提供了強有力的解釋性支援。

該研究以「Construction and Application of Materials Knowledge Graph in Multidisciplinary Materials Science via Large Language Model」為題,被機器學習頂級會議 NeurIPS 2024 接收。

圖片

論文連結:https://neurips.cc/virtual/2024/poster/95920

研究背景

材料科學的研究對現代工業的發展至關重要,尤其是在能源轉換、電子裝置創新、汽車製造和生物醫藥應用等領域。

傳統上,材料研究依賴於實驗室實驗和長時間的經驗積累,這不僅耗時而且成本高昂。此外,儘管有無數的科研文獻提供豐富的理論和實驗資料,但這些知識常常散落在不同的出版物和資料庫中,難以迅速準確地獲取和應用。

圖片

圖 1:爆發式增長的材料學文獻。(來源:網路)

在這種背景下,自動化的知識整合和加速研究的需求日益迫切。藉助人工智慧技術,研究人員開始探索如何利用這些先進工具來改善材料科學的研究方法。

知識圖譜作為一種資訊組織形式,能夠將散落在各處的非結構化資料轉換為結構化的知識庫,從而提供一個全面、互聯的資料網路,加快知識的檢索和應用。

儘管知識圖譜的潛力巨大,但其構建過程面臨多重挑戰。

首先,材料科學領域的複雜性要求圖譜不僅要精確地反映出材料的化學和物理性質,還需要捕捉到這些性質在不同應用中的表現。

此外,材料學的快速發展也意味著知識圖譜需要持續更新和擴充套件,這不僅依賴於領域專家的深入參與,還需要藉助自動化工具以適應知識的動態變化

MKG - 材料科學知識圖譜

為了解決這些問題,團隊將大型語言模型引入知識圖譜的構建流程,不僅可以透過自動化構建本體論,提取和分析巨量文獻中的資料來構建初步的知識圖譜,還可以透過持續學習來適應新的研究成果和理論發展,從而保持知識圖譜的前沿性和準確性。

透過這些技術的應用,MKG 的構建和維護成為可能,極大地促進了材料科學研究的深度和廣度,為科研人員提供了一個強大的工具,幫助他們更快地發現和應用新材料,推動科技創新和工業應用。

對於 MKG 的構建和應用,整個過程可以分為四個關鍵步驟:(1)本體論的自動構建,(2)知識的抽取,(3)知識清洗,(4)材料發現。

圖片

圖 2:MKG 概覽。(來源:論文)

(1)構建知識圖譜的首要步驟是建立一個本體論,它定義了將被包含在圖譜中的各種概念及其相互關係。在材料科學領域,這涉及到從基本的化學成分到複雜的物理性質和應用過程的全面覆蓋。

藉助大型語言模型,如 LLaMA 或 Darwin,研究團隊能夠自動識別和分類大量文獻中的關鍵概念和關係,從而自動化構建本體論。這一過程減少了人工干預的需要,加速了知識結構的建立,並確保了結構的一致性和可擴充套件性。

(2)從分散在各處的科研文獻中抽取具體的資料和資訊。這包括但不限於材料的合成方法、物理和化學屬性、以及它們在實際應用中的表現。

透過少量資料微調的大型語言模型能夠精確地從文字中提取出這些資訊,轉化為結構化資料,並保留資訊的出處。這一步是知識圖譜構建中至關重要的,因為它直接影響到圖譜的質量和後續應用的效果。

表 1:LLM 在知識抽取中 的效果。(來源:論文)

圖片

(3)抽取出的資訊往往包含噪聲或不一致性,因此需要進行徹底的清洗和驗證。這一步驟確保了知識圖譜中的資料是準確和可靠的。

清洗過程中,可能會用到各種資料清洗技術,如資料去重、格式標準化、錯誤更正等。此外,還需要專家進行人工稽核,以解決自動化工具難以處理的複雜問題。

(4)最後一步是利用抽取和清洗後的資料來完善和增強知識圖譜(圖完成)。用圖演算法和神經網路來分析和預測材料之間的新關係,這包括增加新的實體和關係,更新圖中的資訊。

這不僅增強了圖譜的功能,也為研究人員提供了更深入的洞見,幫助他們發現新的材料特性和應用潛力。

材料發現

透過圖完成的步驟,該方法可以全域性範圍內識別能源材料與應用之間的潛在聯絡。在區域性使用圖神經網路,聚合特定的量化屬性到特定材料的特徵實體,用於嵌入訓練圖神經網路,並預測材料未知特徵的數值。

圖片

圖 3:基於(a)圖演算法和(b)圖神經網路的圖完成。(來源:論文)

全域性範圍內的材料發現是透過基於修正後 Jaccard 相似度演算法。修正後的演算法不考慮不同屬性的鄰居實體具備不同的權重,還納入了實體的出現時間和重要程度,更仔細的考慮不同實體的優先順序。

為了驗證演算法的有效性,研究人員將 MKG 按照時間屬性分為兩個子圖,分別作為訓練集和驗證集。

圖片

圖 4:全域性範圍的材料發現。(來源:論文)

不難發現,隨著時間的增長,訓練集上的預測材料逐漸在驗證集中被發現。這不但證明了演算法的有效性,也驗證了 MKG 的可信度。此外,團隊還統計了高排名的預測被驗證的機率。更多資訊可以瀏覽全文進行了解。

圖片

圖 5:材料發現的驗證結果。(來源:論文)

未來的研究方向

考慮到 MKG 在構建和應用過程中展現出的潛力,研究人員提出了幾個可能的發展方向,旨在進一步拓寬材料知識圖譜的應用領域並增強其實用性。

1、擴充套件 MKG 的覆蓋範圍至更多化學和材料科學的子領域,並且與其他現有的知識圖譜進行整合。

2、透過將作者身份、發表年份和機構歸屬等屬性納入知識圖譜,研究人員將分析材料再利用的歷史「社交」模式。

3、分析 MKG 中的簇形成,這些簇基於材料之間的連結。理解這些簇將幫助揭示材料是如何相互連線的,這可以幫助發現不同材料之間在孤立研究中未顯現的聯絡。

4、團隊正將 AI Agent 技術整合入本體論的自動構建中,以增強知識管理與發現。本體論分為主本體和子本體:主本體覆蓋廣泛概念,子本體則針對特定子領域細化分類。這提高了構建的精確性,增強了適應性。

這些研究方向不僅能夠擴充套件 MKG 的功能和應用範圍,也有助於推動科學與人工智慧技術的深度融合,開拓新的科研和工業應用前景。

相關文章