編輯 | 蘿蔔皮
人工智慧(AI)的一個關鍵挑戰是:如何建立能夠透過「探索新領域」、「識別複雜模式」和「揭示海量科學資料中隱藏的聯絡」來自主推進科學理解的系統。
在最近的工作中,麻省理工學院(Massachusetts Institute of Technology)原子與分子力學實驗室(LAMM)的研究人員提出了 SciAgents,一種可以整合利用三個核心概念的方法:
(1)使用大規模本體知識圖譜來組織和互連不同的科學概念;
(2)一套大型語言模型(LLM)和資料檢索工具;
(3)具有現場學習能力的多智慧體(agent)系統。
SciAgents 應用於生物啟發材料,揭示了許多看似不相關的隱藏的跨學科關係,實現了超越傳統人類驅動研究方法的規模、精確度和探索能力。
「SciAgents 可用作自主或協作工具來協助人類研究人員。該系統提供了一種更強大的方法來處理大量資料,為探索自然啟發的設計或意想不到的材料特性提供了創新途徑。」論文通訊作者、麻省理工學院工程學教授 Markus J. Buehler 發推文表示,「例如,在材料科學領域,SciAgents 已經展示瞭如何將生物學、音樂和藝術原理融合在一起來創造出新的仿生材料。」
「透過同構對映,人們在貝多芬的《第九交響曲》和生物結構之間找到了相似之處,指出人工智慧驅動的洞察力在各個學科領域具有更廣泛的適用性。這個專案使我們能夠提高研究人員的能力,使他們能夠探索更大的資料集並提出基於龐大、互聯的知識網路的假設。」他補充道。
該研究以「SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning」為題,於 2024 年 9 月 9 日釋出在 arXiv 預印平臺。
傳統科學研究依賴於人類研究者的創造力和背景知識,但面臨著龐大資料量和跨學科整合的挑戰。AI 技術,尤其是 LLMs,能夠分析和綜合大量資料,揭示人類難以發現的模式,從而加速科學發現。
然而,LLMs 在專業知識和準確性方面仍然存在不足,需要透過合適的提示策略來提高它們的表現。
麻省理工學院的研究人員引入了一個多智慧體 AI 框架,旨在透過利用 LLM 和全面的本體知識圖譜自主生成和完善科學研究假設。
兩種策略
該研究使用了兩種生成新科學假設的策略,均利用團隊智慧,系統性地探索未開發的研究領域。
第一種策略為預程式設計互動,智慧體之間按照預定任務順序進行互動,從而確保假設生成的一致性和可靠性。
第二種策略採用完全自動化的智慧體互動,沒有預設的互動順序,使其能夠靈活適應研究過程中的變化,並允許人類專家在不同階段進行干預,以最佳化假設的質量和相關性。
應用於仿生材料
研究人員將該模型應用於仿生材料領域。結果表明,將 AI 智慧體與專業角色相結合,可以解決科學發現的複雜性和跨學科性,具有巨大的研究潛力。自動化系統有效地駕馭了知識圖譜中錯綜複雜的關係網,生成了與尚未滿足的研究需求相一致的多樣化和新穎的假設。
所提出的方法利用類似於生物系統的模組化、分層組織的智慧群,透過多次迭代來模擬在思考和反思問題的過程中協商解決方案的過程,提供了一種比人工智慧系統生成的傳統零樣本答案更細緻入微的推理方法,如下圖所示。
圖示:Sciagents提出了生成材料資訊學的框架,展示了由輸入資料,問題和上下文驅動的迭代過程和推理的迭代過程。(來源:論文)
資料的本體知識圖譜表示在該方法中起著至關重要的作用,因為它是指導研究想法生成的基礎結構,確保人工智慧智慧體提出的假設既來源於龐大的相互關聯的科學概念網路,又植根於其中。
透過系統性地瀏覽本體知識圖譜,該多智慧體系統可以識別並利用以前未被發現的聯絡,從而創造出既可行又具有突破性的創新想法。
評估策略的納入是一個重要的戰略方面,它反映了傳統研究策略中常見的對抗關係,例如基於團隊的努力或同行評審。
一個顯著的特點是,自主多智慧體系統可以自行開發複雜的問題解決策略,如下圖。隨著更強大的基礎模型的出現,尤其是具有更好的長期規劃和推理能力,這類結果有望得到改善。
圖示:多智慧體自主協調問題互動流程。(來源:論文)
事實證明,多智慧體方法在將科學發現過程分解為可管理的子任務方面特別有效,從而能夠更系統地探索知識領域。
透過為每個智慧體分配不同的角色(從路徑生成和深入分析到假設制定和批判性審查),該團隊實現了研究思路的全面而嚴格的自發展。
實驗表明,該系統可以持續產生具有高度新穎性和可行性的假設,並得到豐富的上下文資料和反映傳統科學方法的迭代反饋機制的支援。
例如,加入特定的優先建模和模擬任務,提供了直接途徑來加入額外的機制來徵求新的基於物理的資料(例如,透過執行密度泛函理論模型、分子動力學、有限元/差分求解器等)。
因此,該方法不僅在研究問題方面具有巨大潛力,而且在擴充套件第一性原理資料集方面也具有巨大潛力。如果大規模部署,這可以幫助研究人員生成大型材料資料集,從而戰略性地擴充套件目前已知的範圍。
根據執行效率,可以在幾天內生成數萬個單獨的結果,如果透過一組標準(例如新穎性、可行性或滿足目標的程度)進行篩選,則可以為生成材料資訊學生成高效的創新框架。
影片連結:https://mp.weixin.qq.com/s/rR2bRS2VMqzEPCYiyS9vEA
這項研究的主要貢獻之一是展示了人工智慧驅動的智慧體如何自主生成、批判和改進科學假設,為傳統研究方法提供了一種可擴充套件且有效的替代方案。
透過整合工具來評估與現有文獻的新穎性,進一步增強了所生成假設的有效性,確保系統不僅能產生創新的想法,而且還能消除先前研究的冗餘。
論文連結:https://arxiv.org/abs/2409.05556
相關內容:https://x.com/ProfBuehlerMIT/status/1837470474344767793