編譯 | KX
8 月份,Transformer 作者創業公司 Sakana AI 宣佈推出 AI Scientist,聲稱「首個用於自動化科學研究和開放式發現的 AI 系統!」
當 Sakana AI 著手建立「AI Scientist」來處理整個科學過程時,他們並不知道他們能走多遠。他們建立的系統真的能夠生成有趣的假設、執行實驗、評估結果並撰寫論文嗎?
參與「AI Scientist」研究的不列顛哥倫比亞大學的博士後研究員 Cong Lu 說,他們最終得到的是一個 AI 工具,並認為它相當於一個早期的博士生。
他說,它有一些「令人驚訝的創意」,但好的創意遠遠少於壞的創意。它很難連貫地寫出結果,有時還會誤解結果:「這與博士生對某件事起作用的原因進行大膽猜測相差無幾,」Lu 說。而且,也許就像一個還不懂倫理的早期博士生一樣,儘管研究人員盡了最大努力保持誠實,但它有時會在論文中編造一些東西。
最近釋出在 ArXiv 的預印本,雖然討論了局限性和道德倫理,但也包含了一些相當誇張的語言,稱 AI Scientist 是「科學發現新時代的開始」,以及「第一個全自動科學發現的綜合框架,使前沿大型語言模型 (LLM) 能夠獨立進行研究並交流他們的發現。」
AI Scientist 似乎抓住了時代精神。它正乘著 AI 用於科學的熱情浪潮,但一些批評人士認為,這股浪潮不會把任何有價值的東西扔到沙灘上。
「AI for Science」的熱潮
AI Scientist 是 AI for Science 大勢所趨的一部分。谷歌 DeepMind 早在 2020 年就掀起了這股熱潮,當時它推出的 AI 系統 AlphaFold,以前所未有的精度預測蛋白質的 3D 結構,令生物學家驚歎不已。
自生成式 AI 出現以來,越來越多的大公司參與其中。索尼 AI 高階研究員 Tarek Besold 負責該公司的 AI 用於科學發現專案,他說,AI for science 是「AI 社群可以團結起來,努力推進底層技術的目標,但更重要的是,它還可以幫助人類解決我們這個時代最緊迫的一些問題。」
然而,這場「運動」也有批評者。2023 年,谷歌 DeepMind 發表論文,聲稱發現了 220 萬種新晶體結構,相當於近 800 年的知識,不久之後,兩位材料科學家對所提結構進行了隨機抽樣分析,並表示他們發現「同時滿足新穎性、可信度和實用性的化合物證據不足」。換句話說,AI 可以快速生成大量結果,但這些結果實際上可能沒有用。
AI Scientist 的工作方式
在 AI Scientist 的案例中,研究人員僅在電腦科學上測試了他們的系統,要求它研究與大型語言模型相關的主題,這些模型為 ChatGPT 等聊天機器人、擴散模型以及 AI Scientist 本身提供支援。
AI Scientist 的第一步是假設生成。給定正在研究的模型的程式碼,它可以自由地為可以執行以提高模型效能的實驗產生想法,並根據有趣性、新穎性和可行性對每個想法進行評分。它可以在此步驟進行迭代,對得分最高的想法產生變體。然後它在 Semantic Scholar 中執行檢查,以檢視其提案是否與現有工作過於相似。
接下來,它使用名為 Aider 的編碼助手來執行其程式碼,並以實驗日誌的形式記錄結果。它可以使用這些結果來為後續實驗產生想法。
下一步是讓 AI Scientist 使用基於會議指南的模板將其結果寫成一篇論文。但是,Lu 說,該系統很難寫出一篇連貫的九頁論文來解釋其結果——「寫作階段可能和實驗階段一樣難以做好,」他說。因此,研究人員將這個過程分解成許多步驟:AI Scientist 一次寫一個部分,並將每個部分與其他部分進行比較,以剔除重複和矛盾的資訊。它還會再次透過 Semantic Scholar 查詢引用並建立參考書目。
但接下來還有幻覺問題。Lu 說,儘管他們指示 AI Scientist 只使用實驗日誌中的數字,「但有時它還是會不聽話。」Lu 說,模型不聽話的機率不到 10%,但「我們認為 10% 可能接受不了。」他說他們正在研究一種解決方案,比如指示系統將論文中的每個數字連結到它在實驗日誌中出現的位置。但該系統也犯了不太明顯的推理和理解錯誤,這似乎更難修復。
你可能沒有想到的是,AI Scientist 甚至包含一個同行評審模組來評估它所寫的論文。「我們一直都知道我們想要某種自動化的 [評估],這樣我們就不必花幾個小時仔細閱讀所有的手稿了,」Lu 說。雖然他指出「我們總是擔心自己在給自己的作業打分」,但他表示,他們的評估員模仿了領先的 AI 會議 NeurIPS 的評審員指南,發現它總體上比人類評估員更嚴格。從理論上講,同行評審功能可用於指導下一輪實驗。
對 AI Scientist 的批評
雖然研究人員將他們的 AI Scientist 限制在機器學習實驗中,但 Lu 表示,該團隊與其他領域的科學家進行了一些有趣的對話。他說,從理論上講,AI Scientist 可以在任何可以進行模擬實驗的領域提供幫助。「一些生物學家表示,他們可以在計算機模擬中做很多事情,」他還提到量子計算和材料科學領域。
一些批評 AI for science 研究的人可能會對這種普遍的樂觀情緒提出質疑。今年早些時候,加州大學伯克利分校計算生物學教授 Jennifer Listgarten 在《Nature Biotechnology》上發表了一篇論文,認為 AI 不會在多個科學領域取得突破。她寫道,與自然語言處理和計算機視覺等 AI 領域不同,大多數科學領域沒有訓練模型所需的大量公開資料。
另外兩位研究科學實踐的研究人員,耶魯大學的人類學家 Lisa Messeri 和普林斯頓大學的心理學家 M.J. Crockett,今年在《Nature》雜誌上發表的一篇論文,試圖打破圍繞 AI for science 的炒作。
當被問及對 AI Scientist 的評論時,兩人重申了他們對將「AI 產品視為自主研究人員」的擔憂。他們認為,這樣做可能會將研究範圍縮小到適合 AI 的問題,並失去推動真正創新的多元化視角。「雖然 AI Scientist 承諾的生產力對某些人來說可能聽起來很有吸引力,但發表論文和產生知識並不相同,忘記這一區別可能會導致我們產出更多,而理解更少。」
但其他人認為 AI Scientist 是朝著正確方向邁出的一步。索尼 AI 的 Besold 說,他認為這是一個很好的例子,說明當今的 AI 在應用於正確的領域和任務時如何支援科學研究。他說:「這可能成為少數幾個早期原型之一,可以幫助人們概念化當 AI 應用於科學發現領域時會發生什麼。」
AI Scientist 的下一步計劃
Lu 表示,該團隊計劃繼續開發 AI Scientist,他表示,在他們尋求提高其效能的過程中,有很多唾手可得的成果。至於這些 AI 工具最終是否會在科學過程中發揮重要作用,Lu 說:「我認為時間會證明這些模型有什麼用。」他說,在研究專案的早期階段,當研究者試圖瞭解許多可能的研究方向時,這些工具可能是有用的,儘管批評者補充說,我們必須等待未來的研究,才能知道這些工具是否真的足夠全面和公正,能夠有所幫助。
或者,Lu 說,如果這些模型可以改進到與「一名紮實的三年級博士生」的表現相匹配的程度,到那時,任何人都可以成為教授並開展研究計劃,Lu 說。「這是我期待的令人興奮的前景。」
參考內容:https://spectrum.ieee.org/ai-for-science-2