編輯 | ScienceAI
人工智慧的下一個前沿,不僅是語言、影像,而是科學發現本身。
近年來,人工智慧(AI)已經在自然語言處理(NLP)、計算機視覺(CV)等領域取得巨大成功。但 AI 是否能夠幫助科學家發現新的科學理論?
在 ICLR 2025 接收的一篇論文《MOOSE-Chem: Large Language Models for Rediscovering Unseen Chemistry Scientific Hypotheses》提出了一個令人興奮的問題:
大模型(LLMs)能否在僅依賴化學研究背景資訊的情況下,自動發現新的、有效的化學科學假設?
這項研究發現 LLM 可以自主發現新穎(novel)且可行(valid)的科學假設,甚至可以重新發現那些已經發表在 Nature, Science 上的頂級化學科學假設。
這項研究透過劃分使用的 LLM 的 pretrain data 的截止時間,與 Nature, Science 上文章的 online 時間確保這種重新發現不是由於資料汙染(data contamination),而是由於 LLM 本身的能力。
這項研究不僅提供了關於科學假設形成的數學建模,還提出了 Agentic AI for scientific discovery 的 framework,讓 LLM 能夠自動生成並篩選科學假設,為 AI 在科學研究中的應用提供了新思路。
MOOSE-Chem 研究的核心假設是:
化學研究假設 h 不是憑空創造的,而是由研究背景 b 和若干研究靈感 i 組合而成的。
研究團隊透過認知科學、論文分析和數學建模,系統性地驗證了這一假設的合理性,並建立了數學推導,形成 AI 可執行的科學發現框架。
MOOSE-Chem 核心假設的提出
(1) 認知科學的啟發
創造力研究表明,創新通常來自已有知識的重新組合,這一點可以追溯到:
例如:
這些理論表明,化學研究假設很可能是由背景知識(b)+ 研究靈感(i) 組合產生的。
(2) 頂級化學論文的分析
研究團隊透過利用核心假設,鏈式法則,和引入馬爾科夫性質,得到 P( h | b )的一個約等式。
最終研究團隊得到 。其中,I代表所有的(化學)科學文獻。該約等式將複雜的難以建模的 P( h | b )轉換成了一系列難度顯著降低的可以建模的小項的乘積。
MOOSE-Chem 框架詳解:AI 如何進行自動科學發現?
1. 文獻檢索(Literature Retrieval)——找到潛在研究靈感:
MOOSE-Chem 在這一過程中使用了大語言模型(LLMs)結合資訊檢索的方法,幫助 AI 從大量化學論文中篩選出可能的研究靈感。
方法:
基於 LLM 的語義檢索
2. 假設生成(Hypothesis Generation)——從背景和靈感構造研究假設:
有了研究靈感後,MOOSE-Chem 需要根據背景資訊和靈感,構造新的科學假設。這個過程類似於科學家在頭腦風暴時結合已有知識提出研究方向。
方法:
(1)基於 LLM 的 Prompt 生成
![LLM自主發現發表在Nature上的科學假設?ICLR 2025 論文MOOSE-Chem深度解析](https://i.iter01.com/images/80078c4676d7d4548d26043a6f0d5cf325898a0316c855a742c29f14150dc806.png)
(2)進化最佳化(Evolutionary Optimization)
僅靠 LLM 直接生成假設並不能保證其高質量,因此 MOOSE-Chem 進一步採用進化演算法(Evolutionary Algorithm)最佳化假設。這一過程包含三個關鍵步驟:
3. 假設排序(Hypothesis Ranking)——篩選最優科學假設
MOOSE-Chem 生成了多個可能的研究假設,但並非所有假設都合理。因此,MOOSE-Chem 需要對生成的假設進行評估,並篩選出最優的科學假設。
方法:
基於 GPT-4o 的評分
主要實驗結果
1、LLM 能夠成功識別與研究背景相關但未知的啟發性論文
2、LLM 能夠基於已知知識推理出高質量的新知識
3、LLM 能夠有效地對假設進行排名
啟發匹配越多,排名越高
匹配評分越高,排名越高
最終發現
1、MOOSE-Chem 生成的假設可以在不訪問真實假設的情況下,覆蓋論文的核心創新點。
在51篇論文的評測中,近 40% 的實驗生成假設與真實假設高度相似。
專家評估顯示,在模擬現實科學研究環境(300 篇論文庫)下,MOOSE-Chem 仍能生成接近真實論文的假設。
2、多步啟發和變異/重組策略有效提升了假設質量。
3、在實際應用中,MOOSE-Chem 可作為科研助理協助研究人員提出高質量假設。