AI寫的論文能過審?雙盲評審6.25分,達到ICLR研討會水平

机器之心發表於2025-03-13
去年 8 月,Transformer 論文作者之一 Llion Jones 與前谷歌研究者 David Ha 共同創立的人工智慧公司 Sakana AI 推出了首個全自動科學發現的 AI 系統:AI Scientist,即「AI 科學家」。到 12 月份,他們又拿出了另一項震撼性的重磅研究成果:使用基礎模型搜尋人工生命的系統 ASAL。這兩項成果都吸引了無數眼球。

而就在昨天,Sakana AI 又宣佈:AI Scientist-v2 透過了 ICLR 會議一個研討會的同行評審過程。這是 AI 科學家寫出的首篇透過同行評審的科研論文!
圖片
這個研究會的名字很長:「I Can't Believe It's Not Better: Challenges in Applied Deep Learning」,即「我簡直不敢相信它沒有變得更好:應用深度學習的挑戰」。
圖片
研討會地址:https://sites.google.com/view/icbinb-2025

之所以提交給這個 ICLR 研討會,是因為其涵蓋了廣泛的研究範圍,能夠挑戰研究者和 AI 系統處理深度學習實際侷限性的各種課題。ICLR 與 NeurIPS 和 ICML 並列為機器學習和人工智慧領域的三大頂級會議。
該專案由不列顛哥倫比亞大學和牛津大學的研究團隊合作完成,AI Scientist-v2 系統的完整細節將在近期釋出。David Ha 表示 AI Scientist-v2 也將開源釋出。
圖片
評估流程

研究團隊與 ICLR 研討會組織者合作,提交了 3 篇完全由 AI 生成的論文進行同行評審,評審人未被明確告知論文來源(雙盲評審)。
這些論文由 AI Scientist-v2 完全端到端生成,無人類修改。AI 自主提出研究假設、設計實驗、編寫程式碼、執行實驗、分析資料、建立視覺化圖表,並撰寫了包括標題到參考文獻的全部內容。
研究團隊僅提供了廣泛研究主題,並從 AI 生成的多篇論文中選擇了 3 篇提交。在提交的論文中,一篇獲得平均 6.25 分(具體為:6、7、6、6,其中 6 分為略高於接受閾值,7 分為優秀),在所有提交論文中排名約 45%,超過了平均接受閾值,表現優於許多人類撰寫的論文。
圖片
根據預先確定的實驗協議,即使 AI 論文被接受,團隊也會在正式發表前撤回,因為學術界尚未就 AI 生成手稿的發表達成共識。據團隊所知,這是首次完全由 AI 生成的論文達到足以透過標準科學同行評審流程的水平。
圖片
這篇論文報告了人工智慧科學家在嘗試創新訓練神經網路的新型正則化方法時遇到的負面結果,這種方法可以提高神經網路的組成泛化能力。

透明度和道德行為守則的重要性

科學界研究人工智慧生成內容質量的重要性不言而喻,最有效方法之一是將部分樣本提交至與人類研究相同的嚴格同行評審流程(在獲得相關管理方許可的前提下)。

需說明,這些人工智慧生成的論文不會在 OpenReview 公共平臺公開。根據各方共同協議,此類論文將在同行評審結束後被撤回並自動不予錄用。

學術界需建立人工智慧生成科學的規範體系,明確何時、如何宣告論文的人工智慧生成屬性,以及研究過程中的適當時機。總體原則是提供最大透明度,儘管這涉及一個複雜問題:是否應先基於科學價值本身進行評判,以避免不必要偏見。

挑戰和侷限性

需要指出,雖然這些 AI 科學家的成果成功完成了同行評審,但卻是研討會,而不是主會議。另需強調:該研討會只接收了 3 篇論文中的 1 篇。

通常而言,相比於提交給主會議的論文,提交給研討會的論文提出的初步發現不夠精細。事實上,許多會議論文都是從研討會論文開始的。

下面也會提到這一點,Sakana 內部按照 ICLR 主會議的標準對這三篇論文進行了評審。結果它們都沒有透過稽核。

頂級機器學習會議(如 ICLR、ICML 和 NeurIPS)主會議的接受率通常在 20-30% 左右,而 Sakana 提交的研討會(在頂級機器學習會議上舉辦)的接受率在 60-70% 左右。

該團隊還指出,AI Scientist 是一個基於前沿 LLM 的系統,因此,AI Scientist 的表現與這些 LLM 的表現直接相關。如果前沿基礎模型不斷改進(許多科學家也如此預期),那麼 AI Scientist 也將繼續進步。

分析 AI 生成的論文

除了讓同行評審 AI 生成的論文,Sakana 自己的團隊也對這三篇 AI 生成的論文進行了分析和評價。

該團隊將這三篇論文看作是提交給 ICLR 主會議的稿件(其接受標準更高),然後他們為每篇論文都生成了完整的評審意見。
圖片
除了評價,該團隊還為每篇論文增加了內聯評論。

該團隊將自己的身份設定為 ICLR 會議審閱者,向論文作者(AI 科學家)提供了他們在論文中發現的問題以及修改建議 —— 作者可以根據評論和問題改進論文。不同於研討會審閱流程,這種來回交流是頂級會議或期刊的典型同行評審過程的一部分 —— 審閱者與作者一起改進研究成果。
圖片
AI 科學家偶爾會犯令人尷尬的引用錯誤。例如,Sakana 發現它錯誤地將基於 LSTM 的神經網路的作者標記給了 Goodfellow (2016),但正確的作者其實是 Hochreiter and Schmidhuber (1997)。

除了評論和意見外,他們還在初始審查階段為每篇論文提供了初步評估分數 —— 該分數是根據 NeurIPS 和 ICLR 等頂級機器學習會議的指導方針給出的。

最終,他們得出結論是:這 3 篇論文都沒有透過 Sakana 的內部標準 —— 其當前形式達不到被 ICLR 主會議接受的質量。「然而,我們認為我們提交給那個研討會的論文包含雖然初步但也很有趣的原創想法,可以進一步發展,因此我們相信它們可能有資格被該 ICLR 研討會接收。」

如果你有興趣詳細讀一讀這三篇論文與 Sakana 團隊的評審意見,可以訪問:https://github.com/SakanaAI/AI-Scientist-ICLR2025-Workshop-Experiment

AI 科學家的未來

Sakana 團隊表示:「我們相信,下一代 AI 科學家將開啟科學的新時代。」

現在,AI 已經可以生成一篇完整的科學論文,並透過頂級機器學習研討會的同行評審,這暗含著 AI 科學家的巨大潛力。

「我們預計 AI 將繼續提升,可能呈指數級提升。在未來的某個時候,AI 或許能夠生成與人類水平相當甚至超越人類水平的論文,包括最高水平的學術論文。」他們預測,AI 科學家和類似的系統不僅將能寫出可被頂級機器學習會議接收的論文,也能寫出可在頂級科學期刊上發表的論文。

該團隊表示:「最終,我們認為最重要的不是如何評判 AI 科學與人類科學,而是它的發現是否有助於人類繁榮,例如治癒疾病或擴充套件我們對宇宙規律的認識。我們期待著幫助開啟 AI 科學為人類進步做出貢獻的時代。」

參考連結
https://x.com/hardmaru/status/1899665717215326283
https://sakana.ai/ai-scientist-first-publication/

相關文章