LLM自主發現發表在Nature上的科學假設?ICLR 2025 論文MOOSE-Chem深度解析

ScienceAI發表於2025-02-06

圖片

編輯 | ScienceAI

人工智慧的下一個前沿,不僅是語言、影像,而是科學發現本身。

近年來,人工智慧(AI)已經在自然語言處理(NLP)、計算機視覺(CV)等領域取得巨大成功。但 AI 是否能夠幫助科學家發現新的科學理論?

在 ICLR 2025 接收的一篇論文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一個令人興奮的問題:

大模型(LLMs)能否在僅依賴化學研究背景資訊的情況下,自動發現新的、有效的化學科學假設?

這項研究發現 LLM 可以自主發現新穎(novel)且可行(valid)的科學假設,甚至可以重新發現那些已經發表在 Nature, Science 上的頂級化學科學假設。

這項研究透過劃分使用的 LLM 的 pretrain data 的截止時間,與 Nature, Science 上文章的 online 時間確保這種重新發現不是由於資料汙染(data contamination),而是由於 LLM 本身的能力。

這項研究不僅提供了關於科學假設形成的數學建模,還提出了 Agentic AI for scientific discovery 的 framework,讓 LLM 能夠自動生成並篩選科學假設,為 AI 在科學研究中的應用提供了新思路。

圖片

論文連結:https://arxiv.org/abs/2410.07076

MOOSE-Chem 研究的核心假設是:

化學研究假設 h 不是憑空創造的,而是由研究背景 b 和若干研究靈感 i 組合而成的。

研究團隊透過認知科學、論文分析和數學建模,系統性地驗證了這一假設的合理性,並建立了數學推導,形成 AI 可執行的科學發現框架。

MOOSE-Chem 核心假設的提出

(1) 認知科學的啟發

創造力研究表明,創新通常來自已有知識的重新組合,這一點可以追溯到:

知識重組理論(Knowledge Recombination)(Koestler, 1964):科學發現往往源於跨領域知識的結合。
聯想理論(Association Theory):創新通常透過已有概念的連線產生。

例如:

反向傳播(Backpropagation)演算法來源於「鏈式求導 + 多層神經網路」。
許多新型催化劑的發現來源於「已有材料 + 新工藝」的結合。

這些理論表明,化學研究假設很可能是由背景知識(b)+ 研究靈感(i) 組合產生的。

(2) 頂級化學論文的分析

LLM自主發現發表在Nature上的科學假設?ICLR 2025 論文MOOSE-Chem深度解析

研究團隊透過利用核心假設,鏈式法則,和引入馬爾科夫性質,得到 P( h | b )的一個約等式。

圖片

最終研究團隊得到 圖片。其中,I代表所有的(化學)科學文獻。該約等式將複雜的難以建模的 P( h | b )轉換成了一系列難度顯著降低的可以建模的小項的乘積。

MOOSE-Chem 框架詳解:AI 如何進行自動科學發現?

LLM自主發現發表在Nature上的科學假設?ICLR 2025 論文MOOSE-Chem深度解析

圖片

1. 文獻檢索(Literature Retrieval)——找到潛在研究靈感: 圖片

MOOSE-Chem 在這一過程中使用了大語言模型(LLMs)結合資訊檢索的方法,幫助 AI 從大量化學論文中篩選出可能的研究靈感。

方法:

基於 LLM 的語義檢索

·研究背景 作為輸入,LLM 透過語義相似性搜尋(Semantic Search)在論文資料庫 中找到相關研究。
·例如,如果研究背景涉及某種新型催化劑,LLM 會檢索相關的催化劑研究,並提取其中的關鍵技術或方法。

2. 假設生成(Hypothesis Generation)——從背景和靈感構造研究假設: 圖片

有了研究靈感後,MOOSE-Chem 需要根據背景資訊和靈感,構造新的科學假設。這個過程類似於科學家在頭腦風暴時結合已有知識提出研究方向。

方法:

(1)基於 LLM 的 Prompt 生成

LLM自主發現發表在Nature上的科學假設?ICLR 2025 論文MOOSE-Chem深度解析例如,如果背景涉及某種電化學反應,靈感來自某種新的催化材料,LLM 會根據新的催化材料來構造新型電化學方案。

(2)進化最佳化(Evolutionary Optimization)

僅靠 LLM 直接生成假設並不能保證其高質量,因此 MOOSE-Chem 進一步採用進化演算法(Evolutionary Algorithm)最佳化假設。這一過程包含三個關鍵步驟:

變異(Mutation):對初始假設進行調整,例如改變催化劑的類別、調整反應條件等,以探索更多可能性。
精煉(Refinement):讓 LLM 透過自我反饋機制對假設進行改進,使其更加科學合理。例如,模型可能會檢查是否有足夠的實驗依據支援假設,或調整表達方式以提高畫質晰度。
重組(Recombination):從多個假設變體中篩選最佳元素,組合成最終的高質量假設。這類似於科學家在論文寫作過程中不斷最佳化研究思路的過程。

3. 假設排序(Hypothesis Ranking)——篩選最優科學假設

MOOSE-Chem 生成了多個可能的研究假設,但並非所有假設都合理。因此,MOOSE-Chem 需要對生成的假設進行評估,並篩選出最優的科學假設。

方法:

基於 GPT-4o 的評分

讓 GPT-4o 評估每個假設的創新性、合理性、實驗可行性。

主要實驗結果

1、LLM 能夠成功識別與研究背景相關但未知的啟發性論文

在 3000 篇論文庫中,LLM 能夠找到 75% 以上的真實啟發論文,即使只篩選出 4% 的論文。
結果表明,LLM 可能已經學習到了許多科學家未知的知識關聯。

2、LLM 能夠基於已知知識推理出高質量的新知識

採用嚴格背景資訊和文獻篩選策略後,LLM 生成的假設與真實假設的相似度較高:
28個假設的最高匹配評分(Top MS)為 4 或 5 分(滿分 5 分)
其中 9 個假設的最高匹配評分達到了 5 分(幾乎與真實假設一致)
說明 LLM 具備從背景+啟發中推理出創新性假設的能力。

3、LLM 能夠有效地對假設進行排名

採用 LLM 評分機制,高質量假設通常排名更高。
與真實論文中使用的啟發數量相關性較強,即:

啟發匹配越多,排名越高

匹配評分越高,排名越高

說明 LLM 在一定程度上能夠篩選出更有價值的假設。

最終發現

1、MOOSE-Chem 生成的假設可以在不訪問真實假設的情況下,覆蓋論文的核心創新點。

在51篇論文的評測中,近 40% 的實驗生成假設與真實假設高度相似。

專家評估顯示,在模擬現實科學研究環境(300 篇論文庫)下,MOOSE-Chem 仍能生成接近真實論文的假設。

2、多步啟發和變異/重組策略有效提升了假設質量。

相比現有方法(如SciMON, MOOSE),MOOSE-Chem 在最高匹配評分(Top MS)和平均匹配評分(Average MS)上均有顯著提升:
MOOSE-Chem:Top MS = 4.02, Avg MS = 2.56
MOOSE: Top MS = 2.88, Avg MS = 2.46
SciMON(NLP/Biochemical 領域):Top MS = 2.55, Avg MS = 2.28
說明進化演算法(mutation & recombination)能夠提升假設的創造性和合理性。

3、在實際應用中,MOOSE-Chem 可作為科研助理協助研究人員提出高質量假設。

在科學研究過程中,MOOSE-Chem 可用於自動檢索啟發性文獻、生成研究假設,並提供初步篩選排名,減少研究人員的篩選和構思時間。

相關文章