編輯 | ScienceAI
一年前,谷歌最後一位 Transformer 論文作者 Llion Jones 離職創業,與前谷歌研究人員 David Ha共同創立人工智慧公司 Sakana AI。Sakana AI 聲稱將建立一種基於自然啟發智慧的新型基礎模型!
現在,Sakana AI 交上了自己的答卷。
Sakana AI 宣佈推出 AI Scientist,這是世界上第一個用於自動化科學研究和開放式發現的 AI 系統!
從構思、編寫程式碼、執行實驗和總結結果,到撰寫整篇論文和進行同行評審,AI Scientist 開啟了 AI 驅動的科學研究和加速發現的新時代。
原則上,它可以不斷重複科學研究過程,以開放式的方式迭代開發想法,就像人類科學家一樣。
研究人員透過將其應用於機器學習的三個不同子領域來展示它的多功能性:擴散建模、基於 Transformer 的語言建模和學習動力學。
每個想法都會被實施並發展成一篇完整的論文,每篇論文的成本不到 15 美元。為了評估生成的論文,研究人員設計並驗證了一個自動審閱器,它在評估論文分數方面的表現接近人類。
AI Scientist 可以撰寫出超過頂級機器學習會議接受門檻的論文。
AI Scientist 的推出標誌著朝著充分發揮人工智慧在科學研究中的潛力邁出了重要一步。透過自動化發現過程並整合人工智慧驅動的審查系統,為最具挑戰性的科學技術領域的創新和解決問題開啟了無限可能之門。
相關研究以「The AI Scientist: Towards Fully Automated Open-Ended Scientific Discovery」為題,於 8 月 12 日釋出在預印平臺 arXiv 上。
論文連結:https://arxiv.org/abs/2408.06292
人工智慧面臨的一大挑戰是開發能夠進行科學研究和發現新知識的智慧體。雖然前沿模型已被用作人類科學家的輔助工具,例如集思廣益、編寫程式碼或執行預測任務,但它們仍然只完成了科學過程的一小部分。
在最新的研究中,Sakana AI 的科學家提出了第一個全自動科學發現的綜合框架,使前沿大型語言模型能夠獨立進行研究並傳達其研究結果。
AI Scientist 可以產生新穎的研究想法、編寫程式碼、執行實驗、視覺化結果、透過撰寫完整的科學論文描述其研究結果,然後執行模擬審查流程進行評估。
關於AI Scientist
AI Scientist 有三個主要階段:(1)創意生成,(2)實驗迭代,(3)論文撰寫。撰寫完成後,研究人員會引入並驗證 LLM 生成的評論,以評估所生成論文的質量。
圖示:端到端 LLM 驅動的科學發現過程 AI Scientist 的概念說明。(來源:論文)
研究人員為 AI Scientist 提供了一個起始程式碼模板,該模板可重現流行模型或基準的輕量級基線訓練執行。例如,這可能是針對莎士比亞作品訓練小型 transformer 的程式碼,這是自然語言處理中的經典概念驗證訓練執行,可在幾分鐘內完成。
然後,AI Scientist 就可以自由探索任何可能的研究方向。該模板還包括一個 LaTeX 資料夾,其中包含樣式檔案和節標題以及簡單的繪圖程式碼。一般來說,每次執行都是從與主題領域相關的代表性小規模實驗開始的。
研究人員解釋道:「專注於小規模實驗並不是我們方法的根本限制,而只是出於計算效率的因素,以及我們這邊裝置的計算限制。」
為什麼寫論文很重要?
鑑於科學家的總體目標是實現科學發現的自動化,為什麼研究人員要讓 AI Scientist 像人類科學家一樣寫論文呢?例如,以前的人工智慧系統(如 FunSearch 和 GNoME)曾經在受限領域產生了令人印象深刻的科學發現,但它們並不能撰寫論文。
該團隊認為,AI Scientist 撰寫科學論文來傳播其發現至關重要,原因如下:首先,撰寫論文為人類提供了一種高度可解釋的方法,使人類能夠從所學知識中受益;其次,在現有的機器學習會議框架內審查書面論文使科學家能夠標準化評估;第三,自現代科學誕生以來,科學論文一直是傳播研究成果的主要媒介。
由於論文可以使用自然語言,幷包含情節和程式碼,因此它可以靈活地描述任何型別的科學研究和發現。幾乎任何其他可以想到的格式都被鎖定在某種資料或科學型別中。在出現更優的替代方案(或可能由人工智慧發明)之前,該團隊相信訓練 AI Scientist 撰寫科學論文對於其融入更廣泛的科學界至關重要。
圖示:由 AI Scientist 完全自主生成的《Adaptive Dual-Scale Denoising》論文預覽。(來源:論文)
關於成本
這裡的框架非常靈活,可以有效地開展機器學習各個子領域的研究,包括基於 transformer 的語言建模、神經網路學習動態和擴散建模。該系統的成本效益很高,每篇論文的成本約為 15 美元,可生成與會議類相關的論文,凸顯了其使研究民主化(提高其可及性)和加速科學進步的能力。
例如,研究人員對 AI Scientist 的初步定性分析表明,生成的論文可以提供廣泛的資訊和新穎性,或者至少包含值得未來研究的想法。
按照當下的標準,該團隊為 AI Scientist 進行實驗分配的實際計算量也非常小。值得注意的是,研究人員在一週內生成數百篇論文的實驗大部分僅使用單個 8×NVIDIA H100 節點執行。如果大規模擴大搜尋和過濾範圍,可能會產生質量更高的論文。
在這個專案中,執行 AI Scientist 的大部分成本與 LLM API 編碼和論文寫作的成本相關。相比之下,由於該團隊為降低總體成本而施加的限制,執行 LLM 審閱器相關的成本以及進行實驗的計算費用可以忽略不計。
當然,如果 AI Scientist 被應用到其他科學領域或用於更大規模的計算實驗,這種成本分攤在未來可能會發生變化。
開放與封閉模型
為了定量評估和最佳化生成的論文,研究人員首先建立並驗證了自動論文審閱器。結果表明,雖然還有很大的最佳化空間,但 LLM 能夠產生相當準確的評論,並在各個指標上取得與人類相當的結果。
圖示:Violin 圖顯示了 AI Scientist 審閱者在三個領域和四個基礎模型中為人工智慧生成的論文的評分分佈。(來源:論文)
將這個審閱器應用於 AI Scientist 生成的論文,使科學家能夠將論文評估範圍擴大到人工檢查之外。研究人員發現 Sonnet 3.5 始終能生成最好的論文,其中一些論文的分數甚至超過了自動論文審閱器在標準機器學習會議上的接受門檻。
但是,該團隊沒有理由期望 AI Scientist 像 Sonnet 3.5 這樣的單一模型能夠保持領先地位。研究人員認為所有前沿 LLM(包括開放模型)都將繼續最佳化改進。LLM 之間的競爭會使它們的商品化和能力都大幅增強。
圖示:使用 GPT-4o 對 ICLR 2022 OpenReview 資料上的 AI Scientist 的論文審查流程進行評估。(來源:論文)
在這個專案中,研究人員研究了各種專有的 LLM,包括 GPT-4o 和 Sonnet,但也探索了使用 DeepSeek 和 Llama-3 等開放模型。發現開放模型具有顯著的優勢,例如成本更低、可用性有保證、透明度更高、靈活性更高,儘管質量略差。
未來,研究人員的目標是利用所提出的發現過程,在使用開放模型的閉環系統中產生自我改進的人工智慧。
未來方向
對 AI Scientist 的直接改進可能包括整合視覺功能以更好地處理圖表和圖形,結合人類反饋和互動來改進人工智慧的輸出,並使 AI Scientist 能夠透過從網際網路上提取新資料和模型來自動擴大其實驗範圍,前提是這樣做是安全的。
此外,AI Scientist 可以跟進其最佳想法,甚至可以以自參考的方式直接對自己的程式碼進行研究。事實上,該專案的大部分程式碼都是由 Aider 編寫的。將框架擴充套件到其他科學領域可以進一步擴大其影響力,為自動化科學發現的新時代鋪平道路。
至關重要的是,未來的工作應該解決可靠性和幻覺問題,可能透過對報告的結果進行更深入的自動驗證來實現。這可以透過直接連結程式碼和實驗來實現,或者透過檢視自動驗證器是否可以獨立重現結果來實現。
結語
AI Scientist 標誌著機器學習科學發現新時代的開始:將 AI 智慧體的變革性優勢帶入 AI 本身的整個研究過程,並讓科學家更接近一個可以釋放無限且經濟實惠的創造力和創新,來解決世界上最具挑戰性的問題的世界。
最終,「我們設想一個完全由人工智慧驅動的科學生態系統,不僅包括人工智慧驅動的研究人員,還包括審稿人、領域主席和整個會議。然而,我們並不認為人類科學家的作用會減弱。隨著我們適應新技術並向食物鏈上游移動,科學家的作用將發生變化。」研究人員在論文裡表示。
雖然 AI Scientist 的當前迭代展示了在成熟理念(如擴散建模或 Transformers)之上進行創新的強大能力,但此類系統最終是否能夠提出真正顛覆正規化的理念仍是一個懸而未決的問題。
未來版本的 AI Scientist 是否能夠提出像擴散建模一樣具有影響力的想法,或者提出下一個 Transformer 架構?機器最終是否能夠發明像人工神經網路或資訊理論一樣基本的概念?
「我們相信 AI Scientist 將成為人類科學家的絕佳夥伴,但只有時間才能告訴我們。」
GitHub 開源地址:http://github.com/SakanaAI/AI-Scientist
論文連結:https://arxiv.org/abs/2408.06292
參考內容:
http://sakana.ai/ai-scientist/
https://x.com/SakanaAILabs/status/1823178623513239992
https://mp.weixin.qq.com/s/-jjXBJAkdMEyl2JhRgwdaA