召喚100多位學者打分，史丹佛新研究：「AI科學家」創新確實強

近日，一篇關於自動化 AI 研究的論文引爆了社交網路，原因是該論文得出了一個讓很多人都倍感驚訝的結論：LLM 生成的想法比專家級人類研究者給出的想法更加新穎！

我們都知道透過調節 LLM 的溫度值確實可以調整它們的隨機性和創造性，但在科學研究方面比人類還懂創新？這還是超乎了很多人的想象 —— 至少很多人沒想到這會來得這麼快。難道 AI 科學家真的要來了？

那麼，這項來自史丹佛大學的研究究竟得出了什麼樣的結論呢？

論文地址：https://arxiv.org/abs/2409.04109
調查連結：https://tinyurl.com/execution-study
專案地址：https://github.com/NoviScl/AI-Researcher

LLM 能生成新穎的研究思路嗎？

為了準確地對比 LLM 與人類在科研思路創新方面的能力，史丹佛大學的這個研究團隊招募了 104 位 NLP 研究者，讓其中 49 位寫下創新研究想法，然後再讓 79 位專家對 LLM 和人類給出的思路進行盲測。請注意，其中有 24 位人類專家既寫了想法，也參與了盲測，當然他們並不評估自己寫的內容。

模型（或者按該團隊的說法：思路生成智慧體）方面，該團隊使用了 claude-3-5-sonnet-20240620 作為骨幹模型。具體來說，給定一個研究主題（比如：可以提升 LLM 事實性並降低其幻覺的提示方法），讓 LLM 生成一系列對 Semantic Scholar API 的函式呼叫。這個論文檢索動作空間包括 {KeywordQuery (keywords), PaperQuery (paperId), GetReferences (paperId)} 。每個動作生成都基於之前的動作和已執行的結果。

該研究使用的研究主題有 7 個：偏見、程式設計、安全性、多語言、事實性、數學和不確定性。下表是各個主題的想法數量：

研究過程如下圖所示：

這裡我們不細說其詳細的設定和評估過程，詳見原論文。總結起來就是比較人類專家與 AI 智慧體生成的科研思路的新穎程度。我們直接來看結論。

根據該團隊思路評分（Idea Ranking）規則，他們對人類和 AI 提出科研思路進行了打分，見圖 2 和表 7：

其中 Human Ideas 是指招募的專家研究者提出的思路，而 AI Ideas 則是 LLM 智慧體給出的排名第一的思路。AI Ideas + Human Rerank 是指由 AI 生成思路但由本研究一作 Chenglei Si 手動從排名靠前的思路中選擇他認為最好的一個。

可以看到，在新穎度方面，不管是 AI Ideas 還是 AI+Rerank，都顯著優於 Human Ideas（p < 0.01）。在激動人心（excitement）分數上，AI 生成的思路的優勢更是明顯（p<0.05）。並且 AI Ideas + Human Rerank 的整體分數也優於人類（p<0.05）。不過 AI 生成的思路在另外兩方面（可行性和有效性）與人類的差別不大。

當然，我們也能看出，這項調查研究有一些明顯的侷限，比如其調查範圍較小，樣本量太少了，評價很主觀。另外作者也指出人類研究者可能會「藏私」，可能並不會分享自己的最佳想法。

不管怎樣，這項研究證明了一點：讓 AI 參與到科學研究中多半是有利的。尤其是當你靈感枯竭、思維阻塞時，問一問 LLM 或許就能有意想不到的收穫。

生成創新想法的 AI 工具，正在不斷湧現

實際上，已經有研究團隊在打造專用於此類任務的 AI 工具了。比如近日一位專注於開發 LLM 應用的研究者 Shubham Saboo 就在社交網路分享了使用 Cursor 構建一個多智慧體 AI 研究者的過程。他表示整個過程用時不到 5 分鐘！參見如下影片：召喚100多位學者打分，史丹佛新研究：「AI科學家」創新確實強

也有人分享了自己的一項相關研究，表示可以使用 LLM 和因果圖譜自動生成心理學假設，並生成比 GPT-4 和博士生表現都好：

近日，印度科學學院（Indian Institute of Science，IISc）的研究者發現，AI 在設計創意方面也比人類更有想法。具體來說，AI 可透過一種新的人工智慧會話式「主動構思」（Active Ideation）介面來生成新創意。作為一種創意構思生成工具，它可幫助新手設計師緩解一部分的初始延遲和構思瓶頸。

論文標題：A Novel Idea Generation Tool using a Structured Conversational AI (CAI) System
論文地址：https://arxiv.org/pdf/2409.05747

具體來說，這是一種動態、互動、上下文響應式方法，透過大型語言模型（LLM）主動參與，為不同的設計問題生成多個潛在創意陳述。論文稱之為「主動構思場景」，它有助於促進基於對話的持續互動、對上下文敏感的對話以及多產的構思生成。

在當前的很多研究設計中，從書面資訊到基於關鍵詞的線上資源檢索的轉變至關重要。這強調了文字在轉變思維模式和透過發展高階設計語言促進系統化構思方面的重要性。下表 1 總結了最常用的傳統構思技術、其過程、侷限性、涉及的認知原則以及在產生創意方面的預期結果。

雖然這些傳統方法已被廣泛使用，但它們往往無法為新手設計師提供積極的支援。在產生新穎想法的過程中，原創性和多樣性主要依賴於設計者。這一空白標誌著將人工智慧與構思相結合的潛力。

這篇論文就深入探討了對話式人工智慧（CAI）系統的設計、開發和潛在使用案例，重點是比較基於 CAI 的構思工具與傳統方法的效率。

有兩個有趣的特點使 CAI 系統看起來很智慧：(a) 能夠就給定主題生成智力上可接受的文章，(b) 能夠在先前互動的基礎上生成對後續詢問的回覆。這使得互動成為關於特定主題的連貫對話。因此，如果特徵（a）是對一個觀點的描述，那麼特徵（b）就可以被構建為對該觀點的闡述和澄清。

如圖 3 所示，這項研究設計並開發了一個主動構思介面，使用了生成式預訓練 Transformer（GPT）對話式人工智慧系統，該系統嵌入了一個互動式情緒板（moodboard）。GPT 為自然語言互動提供了基礎，使其能夠根據使用者輸入做出響應並生成創意陳述，情緒板提供了一種快速記錄這些想法的手段。因此，該介面為設計師提供了一個對話式的直觀平臺，由 GPT 驅動創意生成。

由於本研究調查的是建議的基於 CAI 的構思介面對新手設計師的潛在益處，因此招募了 30 名產品設計研究生（下圖），分為 A 和 B 兩組。

論文對這 30 名新手設計師進行了試點研究，讓他們使用傳統方法和基於 CAI 的新介面，針對給定問題產生創意。然後，讓專家小組使用流暢性、新穎性和多樣性等關鍵引數對結果進行了定性比較。

研究結果表明，本文所提出的 AI 工具在生成多產、多樣和新穎的想法方面非常有效。透過在每個構思階段加入提示設計的結構化對話風格，使介面更加統一，更方便設計者使用。結果發現，這種結構化 CAI 介面所產生的反應更加簡潔，並與隨後的設計階段（即構思階段）保持一致。

從圖 5（a）中可以看出，68% 的專家認為 GPT 產生的想法更有意義。此外，圖 5 (b) 顯示，GPT 生成的語句的得票率始終高於設計者生成的想法。

下表是 A 和 B 兩組的想法陳述對比：

以下是不同維度下，人類與 GPT 構思的評估結果對比：

更多研究細節，可檢視原論文。

結語

創新，長久以來被視為人類不可被機器觸及的領地，然而，LLM 所展現的「幻覺」現象卻悄然開啟了這扇門，揭示了創新機制可能並非我們想象中那般高不可攀。

近期在 AI 創造性研究領域的突破，預示著 AI 在創意之路上或將迎來前所未有的廣闊天地。展望未來，或許在不遠的將來，我們將見證 AI 科學家、AI 導演、AI 設計師們紛紛揮灑創意，它們的作品將點亮 AI 應用的嶄新篇章。

相關文章