編輯 | ScienceAI
「高智商就一定最有創造力嗎?」這個困擾教育界多年的問題,如今也出現在了 AI 領域。
近日,中國人民大學高瓴人工智慧學院孫浩教授研究團隊釋出了一項突破性研究:「只需在給 AI 的提示詞裡變化一個科學關鍵詞,就能評估它的科研創造力。更有趣的是,研究發現模型的通用智慧水平與創新能力並不總是成正比。」該文章第一作者為博士生阮愷。
這項名為 LiveIdeaBench 的研究已於 2024 年 12 月 23 日釋出在 arXiv 預印本平臺。
為什麼要「考」AI 的科研創造力?
當前 AI 在數學推理、程式碼生成等領域已達到超人類表現。最新的 o1 更是在各類智力測試中創造記錄。但一個關鍵問題是:這些模型真的具備科研創新能力嗎?
「現有的 AI 評測大多依賴大量背景資訊,這可能掩蓋了模型真正的創造力。」論文通訊作者孫浩教授表示,「但縱觀科學史,很多重大發現往往源於一個簡單的靈感。我們希望測試AI是否也具備這種能力。」
令人意外的發現:高智商不等於高創造力
研究團隊對包括 OpenAI 的 o1、Google 的 Gemini、Anthropic 的 Claude 在內的 20 個主流大模型進行了測試。結果令人驚訝:
- Gemini Pro 1.5 表現最為均衡,在原創性、可行性等維度均名列前茅;
- QwQ-32B-Preview 模型雖然在通用任務評測中表現一般,但創造力測試中卻與頂尖模型不相上下;
- Claude 3.5 Sonnet 在原創性方面遙遙領先,但可行性評分相對較低。
「這說明模型的通用智慧與科研創造力是兩個相對獨立的維度。」研究人員指出,「就像人類中 IQ 高的人不一定最有創造力一樣,AI 的發展也需要在『聰明』和『有創意』之間找到平衡。」
四個維度全面評估
LiveIdeaBench 基於經典的 Guilford 創造力理論,從四個維度評估模型的科研創造力:
- 原創性(Originality):想法的新穎程度;
- 可行性(Feasibility):技術實現的可能性;
- 流暢性(Fluency):產生多樣化想法的能力;
- 靈活性(Flexibility):跨學科創新的能力。
測試覆蓋了從物理到生物等 18 個學科領域的 1180 個科研關鍵詞。為保證評測的公平性和時效性,該基準採用動態評審機制,由多個頂尖模型組成評審團,每月更新一次。
論文第一作者阮愷表示:「LiveIdeaBench 不僅是一個評測基準,更是探索 AI 科研創造力的新視窗。我們希望這項工作能推動 AI 在科學創新方面的進步,為人工智慧輔助科學發現開闢新的可能。」
有趣的是,測試發現專注於推理的 QwQ-32B-Preview 模型雖然在通用任務上表現平平,但在科研創造力測試中卻與頂尖模型不相上下。
這啟發研究團隊基於 LiveIdeaBench 的頭腦風暴軌跡,微調開發了一個專門面向科研創意生成的「點子王」模型(IdeaWhiz)。該模型繼承了 QwQ-32B-Preview 的推理特性,並在化學、生物、氣候和醫學等領域展現出強大的創意能力。
例如,當要求模型針對「癌症」提出科研創意時,它能夠透過細緻的推理過程,提出將機器學習與多組學資料結合以開發個性化癌症疫苗的創新方案。這種將步步推理與創造性思維相結合的能力,正是AI輔助科研創新的重要突破。
該模型已在 Hugging Face 開源,研究者可以透過 Ollama 等工具輕鬆使用 ollama run 6cf/QwQ-32B-Preview-IdeaWhiz-v1 。「我們希望這個工作不僅能推動 AI 在科研創新方面的進步,也能為科研工作者提供一個實用的頭腦風暴助手。」
論文連結:https://arxiv.org/abs/2412.17596
專案主頁:https://liveideabench.com/
Liveideabench 資料集 6cf/liveideabench · Datasets at Hugging Face
https://huggingface.co/datasets/6cf/liveideabench
模型卡:https://huggingface.co/6cf/QwQ-32B-Preview-IdeaWhiz-v1
Bartowski 量化版本 bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF · Hugging Face
https://huggingface.co/bartowski/QwQ-32B-Preview-IdeaWhiz-v1-GGUF