OpenAI 最近又有了新動作,這次他們的野心更大了。鑑於大型語言模型( LLM )強大的先驗知識和行動/反應能力,讓 AI 訓練 AI ,可還行?人類距離 OpenAI AGI 路線圖上的 Level 3( Agents )還有多遠?懷揣這些問題,OpenAI 自行推出了一個新基準測試—— MLE-bench ,嚴選 75 個與機器學習工程( MLE )相關的 Kaggle 競賽題目。畢竟,目前「很少有基準測試能夠全面衡量自主的端到端機器學習工程」。結果發現,GPT-4o 結合 AIDE 框架平均獲得獎牌數量,明顯優於另外兩個開源 Agent 框架。更令人驚訝的是,當模型切換到 OpenAI o1-preview(據稱,突破了 LLM 推理極限)後,其表現又翻了一倍:在大約 16.9% 的比賽中達到了相當於 Kaggle 銅牌以上的水平,獎牌數量也一騎絕塵。而且,8 次嘗試後,o1-preview 的得分從單次嘗試的 16.9% 提高到了 34.1%。有趣的是,論文字意是為了展示 OpenAI 自家模型(如 o1-preview )的卓越能力,卻「意外」地讓一個名為 AIDE 的開源 Agent 框架脫穎而出,引發不少關注。Meta FAIR 研究科學家主任田淵棟隨即發去賀電。「這是一個絕佳例證,展示了開放式自我完善的外部迴圈(AIDE)如何引導強大的內部迴圈(o1)實現驚人的能力飛躍。」倫敦大學學院( UCL )教授、谷歌 DeepMind 高階研究員和開放環境學習團隊負責人 Tim Rocktäschel 在X(前 Twitter )上說,他同時領導著谷歌 Genie( foundation world model )專案。UCL 名譽教授、谷歌 DeepMind 研究主任 Edward Grefenstette 認為,AIDE 團隊「構建的東西很大程度上支撐和影響了 OpenAI 的智慧體路線圖。」DeepMind 研究員、倫敦大學學院教授 Sebastian Riedel 欣喜地表示:「我們親眼目睹了『 Agent 框架』在基礎模型之上帶來的巨大影響。」MLE-bench 公佈後,AIDE 作者之一、WecoAI 聯合創始人& CEO 蔣錚堯接受了機器之心的採訪。他談到,「像 OpenAI 這樣的公司已經投入了大量精力和金錢來構建內迴圈前沿模型(如 o1-preview ),一個好的自改進外迴圈 (Agent 框架,如 AIDE ) 會給前沿模型的能力帶來巨大提升。」二、認識 AIDE ,目前最好的 MLE Agent在評估大模型效能之前,選擇合適的 Agent 框架非常重要。OpenAI 發現,儘管有效提交數量差不多,但是,GPT-4o 結合 AIDE 框架在 8.7% 的競賽中至少獲得銅牌,明顯多於另兩個開源框架 MLAB 、OpenHands( 0.8% 、4.4% )。對於這個結果,蔣錚堯並不意外,因為這些框架的設計方向本來就不同。MLAB 是基於 ReAct 框架(通用的)、針對機器學習任務設計過的 Agent。在設計理念上,主要是做介面設計,透過呼叫工具來執行操作,類似於為 ChatGPT 配備了更多工具(如資料預處理、特徵工程等),他們相信大模型自己就知道應該怎麼做。不過,對當前世代的模型來說,這很難做到,如果能做到,基本等於實現 AGI。OpenHands (前身名為 OpenDevin )更為通用一些,是一個由 AI 驅動的軟體開發 Agent 。它能基於使用者自然語言命令,「自動駕駛」軟體開發任務,如克隆專案、修改程式碼、執行命令、呼叫 API 和提交程式碼等,也包括資料科學任務。它是一個專注於程式碼最佳化的框架,後來在機器學習方面進行了一些特化( Machine Learning CodeGen Agent ),肯定會比通用框架表現更好。AIDE 是一個機器學習程式碼生成Agent(Machine Learning CodeGen Agent),簡單地用自然語言描述問題(比如預測房價)後,它就開始在你的本地計算機上進行試錯,提供解決方案。真正出乎蔣錚堯意料的是, o1-preview 和 AIDE 適配性非常好,當模型切換到 OpenAI o1-preview, 表現又翻了一倍,在大約 16.9% 的比賽中達到了相當於 Kaggle 銅牌以上的表現水平。我們自己參加 Kaggle,成績肯定沒有它高,蔣錚堯推測這可能與 AIDE 的 AI Function(AI 函式)設計正規化有關。簡單來說,AI Function 正規化就是將大問題拆分成一個個具體指令(「函式」),再用演算法將它們串起來。「在這種正規化下,每次餵給大模型(如 o1-preview )的問題,會跟大模型接受強化學習訓練時做過的數理化題目比較像。」他解釋說。換句話說,這種正規化創造了一個與大模型訓練過程更為一致的問題解決環境,這種一致性使得模型能夠更好地利用其在訓練中獲得的知識和技能,提高解決問題的效率。負責將具體指令串起來的核心演算法,就是「解空間樹搜尋( Solution Space Tree Search )」,包括 3 個主要元件。解決方案生成器( Solution Generator ),負責提出新的解決方案,主要是建立起點。大模型接收一系列自然語言指令和背景資料後,會生成幾個初始解決方案,也可以對現有方案進行修改,比如修復 bug 或引入改進。 MLE-bench中,三種不同Agent框架的真實軌跡摘錄在執行某個 MLE-bench 任務時,AIDE 一開始設計了一個基於預訓練 EfficientNet-B0 模型的二元分類器用於病理影像分類,這可以被視為搜尋的起點或初始解決方案。評估器( Evaluator ),會測試每個解決方案,將其效能與目標進行比較來完成評估,並將評估結果輸出到命令列。對於單步任務,大語言模型有能力寫出比較合格的評估程式碼,蔣錚堯說。基礎解決方案選擇器( Base Solution Selector ),負責從已探索的選項中選擇最有前途的解決方案,作為下一輪最佳化的起點。這是一個寫死的邏輯(一個數學運算),大模型只需客觀判斷哪一個方案的數值最好即可。這個元件對於引導搜尋過程至關重要,因為,它會將實驗資源集中到最有希望的解決方案上。針對初始方案,AIDE 在步驟 2 提出了改進方案,在測試集上使用測試時增強( TTA )來提高模型效能。在步驟 17 中,它提出了另一個改進:用 Focal Loss 替換標準的二元交叉熵損失函式。從步驟 2 到 17 ,暗示了中間還有許多其他最佳化步驟,雖然圖片中沒有直接顯示評估結果,但我們可以推斷,從使用 EfficientNet-B0 到引入 TTA,再到更換損失函式,每一步都建立在前一步的結果評估基礎上。AIDE 會要求大模型基於最佳方案繼續改進,後者可能又生成幾種不同的改進方向,週而復始。透過不斷生成新的解決方案,AIDE 逐步探索和最佳化解決方案空間,提高任務模型的效能,最終收斂到一個高度最佳化的解決方案。縱觀 MLE-bench 任務全程,不難發現,通用框架就像急著提前交卷的學生,過早結束執行,有時在最初幾分鐘內就結束了。如 OpenHands 只跑了 2 分鐘( 19 steps )就結束,不再繼續提升。AIDE 會反覆提示模型去提高得分,一直戰鬥到交卷鈴聲響(24 小時),共生成和評估了 30 個不同解決方案或變體( nodes ) 。雖然在 OpenAI MLE-bench 中,AIDE 在 16.9% 的 Kaggle 任務上獲得獎牌,但 4 月的 WecoAI 技術報告中,AIDE 表現更優:在 Kaggle 資料科學比賽中的平均表現,擊敗了一半的人類參賽者!來自4月的WecoAI技術報告,AIDE 平均表現超過 50% 的 Kaggle 資料科學比賽的人類參與者,也優於傳統的 AutoML(H2O)、Langchain Agent 和 ChatGPT(在人工協助下)。OpenAI 更關注深度學習任務,但我們選擇的 Kaggle 比賽多為表格資料任務(如預測房價、信用卡欺詐、乘客是否在泰坦尼克號事故中生存),需要深度學習的任務很少,GPU 太貴是一個重要原因。在這些常見機器學習任務,特別是表格資料任務,花兩美元就可以得到一個非常不錯的解決方案。蔣錚堯說,當使用 gpt-4-turbo 作為 LLM 時,推理成本還不到 1 美元。因為,AIDE 每次只提供最相關的資訊給 LLM,而不是將包含大量冗餘的歷史資訊全都扔進去 ,極大節約了推理成本。 然而,OpenAI MLE-bench 也揭示出明顯的侷限性。比如,三個 Agent 都沒能很好地考慮到機器的效能限制和時間限制。它們會發出一些超出機器承受能力的命令,導致電腦硬碟或記憶體吃不消,程式被系統強制關閉,任務被迫提前結束。另外,它們很少會表明,所生成的程式碼會執行多長時間。蔣錚堯認為,這些大模型並沒有真的達到「 Agent 」的程度,它們在處理需要長期規劃和多步驟互動的複雜任務時仍存在明顯不足。AIDE 代表了一種新的嘗試,結合程式碼邏輯和神經網路,專門針對特定任務進行最佳化,更適合處理邊界明確的問題。相比傳統純邏輯軟體,AIDE 能處理更廣泛的問題,但 「如果面對的問題越開放,邏輯部分就會越複雜,直到(程度複雜到)無法處理。」作為 AIDE 主要作者之一,蔣錚堯、 吳宇翔和 Dominik Schmidt 也是英國初創公司 Weco AI 的核心團隊成員, 三人均來自享譽盛名的倫敦大學學院( UCL )。蔣錚堯作為 Weco AI 的聯合創始人兼 CEO,目前仍在 UCL DARK 實驗室攻讀博士學位。DARK 實驗室(全稱 UCL Deciding, Acting, and Reasoning with Knowledge Lab )隸屬於倫敦大學學院人工智慧中心,是一個專注於複雜開放環境中強化學習研究的前沿團隊。在2024年國際機器學習會議( ICML )上,DARK 摘得了兩項最佳論文獎。蔣錚堯的兩位導師分別是倫敦大學學院教授 Tim Rocktäschel 和 UCL 名譽教授Edward Grefenstette,兩人同時也在谷歌 DeepMind 從事研究。公司聯合創始人兼 CTO 吳宇翔在 UCL 人工智慧中心 NLP 組攻讀博士學位,之前聚焦於問答領域。創始工程師團隊同樣實力雄厚,Dominik Schmidt 也來自 UCL DARK 實驗室,擁有碩士學位。Dhruv Srikanth 在卡耐基梅隆大學獲得電腦科學碩士學位。WecoAI 成立於 2023 年 5 月。在此之前,吳宇翔和蔣錚堯開發了多智慧體 LLM 框架 ChatArena ,引起了廣泛關注。不過,開始創業後,團隊意識到多智慧體框架的商業化還為時尚早,且面臨諸多挑戰。他們重新思考方向,尋找既具商業前景,又能激發團隊興趣的領域。經過深思熟慮,他們確定了「用 AI 智慧體來製造 AI 」。機器學習的進步主要源於有效的實驗:針對特定任務(如影像分類)開發方法,執行實驗,評估結果,然後根據反饋改進方法。這個迭代過程很有挑戰性,研究人員不僅需要具備廣泛的先驗知識,寫出實用的程式碼,還能準確解讀實驗結果,後續改進。作為工程師,他們天生就有自動化工作流程的衝動,特別看重實驗過程自動化的潛力,那麼,強大語言模型驅動的 Agent 能否有效執行這些複雜的機器學習實驗呢?考慮到成本,團隊選擇聚焦算力消耗比較低的機器學習任務,特別是在表格模型和小規模神經網路方面,並於 2024 年 4 月推出了 AIDE ,在 Kaggle 資料科學比賽中的平均表現戰勝了 50% 的人類參賽者。AIDE 主要是我們研究方向的工作。蔣錚堯解釋說,儘管 OpenAI 的 o1-preview 帶來了一些進展,但目前技術還沒有完全成熟,商業化仍面臨諸多挑戰。未來,AIDE 也將持續改進。「我們計劃加強與社群的合作,包括提升效能和關注 AI 安全,」蔣錚堯表示,「我們也準備與對 AI 安全有擔憂的各類機構和學界專家展開合作。」這種能夠遞迴自我提升( recursive self-improvement )的 AI 同時又是非常危險的。前不久,微軟 AI CEO Mustafa Suleyman 公開表示,儘管目前我們還沒有看到 AI 系統能夠自我提升到導致智慧爆炸( intelligence explosion )的程度,但在未來 5 到 10 年,這種情況將會改變。各大 AI 公司和政府 AI 安全部門都在密切關注這⼀領域,構建公共 benchmark 可以幫助大家理解人類距離遞迴自我提升還有多遠,並及時協調和應對。除了科研線 AIDE , WecoAI 還有一個產品線。他們馬上會發布第⼀個公開測試的產品 AI Function Builder,它能根據自然語言的任務描述生成 AI 功能並提供 API 介面。使用者只需透過簡單的一行程式碼或電子表格中的一個公式就能呼叫這些功能。就在 OpenAI 公佈 MLE-bench 的前幾天,2024 年諾貝爾化學獎被一分為二:一半共同授予谷歌 DeepMind CEO Demis Hassabis 和高階研究科學家 John M. Jumper,以表彰他們「在蛋白質結構預測方面的貢獻」。這一殊榮源自享譽全球的 AlphaFold,也標誌著諾貝爾獎對 AI 驅動科學發現這一新正規化的高度肯定。據悉,學術界許多人將不得不重新編寫研究經費申請,重新思考研究方向,尤其是專注於計算蛋白質摺疊的研究人員。蔣錚堯認為,未來將會湧現出更多這樣的「低垂果實」,因為 AI 在推動科學研究方面的作用可能是根本性的。從工程師的角度來看,未來人們可能會將更多時間投入到創造性思維、跨領域思想的整合以及深度的邏輯推理上,而將那些重複性的試錯過程交由 AI 來完成。WecoAI 最想做的是培養「 AI 科學家」,讓這些 AI 智慧體能夠自主地形成或融入人類的科學共同體。開源庫連結:https://github.com/WecoAI/aideml