用AI自動設計智慧體,數學提分25.9%,遠超手工設計

机器之心發表於2024-08-22

基於 ADAS 所發現的智慧體的效能大大優於最先進的手工設計的基線。

基礎模型 (FM) 如 GPT 和 Claude ,正在成為通用智慧體的強有力支援,被越來越多的用於多種推理和規劃任務。

然而,在解決問題時,需要的智慧體通常是具有多個元件的複合智慧體系統,而不是單片模型查詢 。此外,為了使智慧體能夠解決複雜的現實世界任務,它們通常需要訪問外部工具,例如搜尋引擎、程式碼執行和資料庫查詢。

因此,人們提出了許多有效的智慧體系統構建塊,例如思維鏈規劃和推理、記憶結構、工具使用和自我反思。儘管這些智慧體已經在各種應用中取得了顯著的成功,但開發這些構建塊並將它們組合成複雜的智慧體系統通常需要特定領域的手動調整以及研究人員和工程師的大量努力。

然而,機器學習的歷史告訴我們,手工設計的解決方案最終會被模型學習到的解決方案所取代。

本文,來自不列顛哥倫比亞大學、非營利人工智慧研究機構 Vector Institute 等的研究者制定了一個新的研究領域,即智慧體系統的自動化設計(ADAS,Automated Design of Agentic Systems),並提出了一種簡單但有效的 ADAS 演算法,名為元智慧體搜尋(Meta Agent Search),以證明智慧體可以透過程式碼程式設計來發明新穎而強大的智慧體設計。

該研究旨在自動建立強大的智慧體系統設計,包括開發新的構建塊並以新的方式組合它們。

實驗表明,基於 ADAS 所發現的智慧體的效能大大優於最先進的手工設計的基線。例如,本文設計的智慧體在 DROP 的閱讀理解任務中將 F1 分數提高了 13.6/100(與基線比),在 MGSM 的數學任務中將準確率提高了 14.4%。此外,在跨域遷移後,它們在 GSM8K 和 GSM-Hard 數學任務上的準確率分別比基線提高了 25.9% 和 13.2%。

與手工設計的解決方案相比,本文演算法表現出色,這說明 ADAS 在自動化智慧體系統設計方面的潛力。此外,實驗表明,所發現的智慧體不僅在跨相似領域遷移時表現良好,而且在跨不同領域遷移時也表現出色,例如從數學到閱讀理解。

圖片

  • 論文地址:https://arxiv.org/pdf/2408.08435

  • 專案地址:https://github.com/ShengranHu/ADAS

  • 論文主頁:https://www.shengranhu.com/ADAS/

  • 論文標題:Automated Design of Agentic Systems

新研究領域:智慧體系統的自動化設計(ADAS)

該研究提出了一個新的研究領域 —— 智慧體系統的自動化設計(Automated Design of Agentic Systems,ADAS),並描述了 ADAS 演算法的三個關鍵組成部分——搜尋空間、搜尋演算法、評估函式。ADAS 使用搜尋演算法跨搜尋空間來發現智慧體系統。

圖片

搜尋空間:搜尋空間定義了哪些智慧體系統可以在 ADAS 中被表徵並被發現。例如,像 PromptBreeder (Fernando et al., 2024) 這樣的工作僅改變智慧體的文字提示,而其他元件(例如控制流)保持不變。因此,在搜尋空間中,無法表徵具有與預定義控制流不同控制流的智慧體。

搜尋演算法:搜尋演算法定義了 ADAS 演算法如何探索搜尋空間。由於搜尋空間通常非常大甚至無界,因此應考慮探索與利用的權衡(Sutton & Barto,2018)。理想情況下,該演算法既可以快速發現高效能智慧體系統,又可以避免陷入區域性最優。現有方法包括使用強化學習(Zhuge et al., 2024)或迭代生成新解決方案的 FM(Fernando et al., 2024)作為搜尋演算法。

評估函式:根據 ADAS 演算法的應用,可能需要考慮不同的最佳化目標,例如智慧體的效能、成本、延遲或安全性。評估函式定義如何評估候選智慧體的這些指標。例如,為了評估智慧體在未見過的資料上的表現,一種簡單的方法是計算任務驗證資料的準確率。

該研究提出的簡單但有效的 ADAS 演算法——元智慧體搜尋的核心概念是指示元智慧體迭代地建立有趣的新智慧體,評估它們,將它們新增到智慧體儲存庫中,並使用此儲存庫幫助元智慧體在後續迭代中建立更有趣的新智慧體。與現有的利用人類興趣概念的開放式演算法類似,該研究鼓勵元智慧體探索有趣的、有價值的智慧體。

元智慧體搜尋的核心思想是採用 FM 作為搜尋演算法,基於不斷增長的智慧體儲存庫來迭代程式設計有趣的新智慧體。該研究為元智慧體定義了一個簡單的框架(100 行程式碼以內),為其提供了一組基本功能,例如查詢 FM 或格式化提示。

因此,元智慧體只需要編寫一個「前向」函式來定義一個新的智慧體系統,類似於 FunSearch 中的做法(Romera-Paredes et al., 2024)。該函式接收任務資訊並輸出智慧體對任務的響應。

如圖 1 所示,元智慧體搜尋的核心思想是讓元智慧體在程式碼中迭代地程式設計新的智慧體。下面顯示了元智慧體程式新智慧體程式的主要提示,其中提示中的變數高亮顯示。

圖片

圖片

實驗

所有實驗結果表明本文發現的智慧體大大優於基線最先進的手工設計的智慧體。值得注意的是,該研究發現的智慧體在 DROP 閱讀理解任務上比基線提高了 13.6/100(F1 分數),在 MGSM 數學任務上比基線提高了 14.4%(準確率)。此外,研究者發現的智慧體在從 GPT-3.5 遷移到 GPT-4 後,在 ARC 任務上的表現比基線提高了 14%(準確率),在從 MGSM 數學任務遷移到 GSM8K 和 GSM-Hard 中的 held-out 數學任務後,準確率分別提高了 25.9% 和 13.2%。

案例研究:ARC 挑戰

如圖 3a 所示,元智慧體搜尋可以有效且逐步地發現效能優於最新手工設計的智慧體。文字框中突出顯示了重要的突破。

此外,圖 3b 顯示了發現最好的智慧體,其中採用了複雜的反饋機制來更有效地細化答案。仔細觀察搜尋進度就會發現,這種複雜的反饋機制並不是突然出現的。

圖片

推理和問題 - 解決域

跨多個域的結果表明,元智慧體搜尋可以發現表現優於 SOTA 手工設計的智慧體(表 1)。

圖片

泛化性以及可遷移性

研究者進一步展示了所發現智慧體的可遷移性和可泛化性。

如表 2 所示,研究者觀察到搜尋到的智慧體(searched agent)始終優於手工設計的智慧體,並且差距很大。值得注意的是,研究者發現 Anthropic 最強大的模型 Claude-Sonnet 在所有測試模型中表現最佳,使基於該模型的智慧體在 ARC 上實現了近 50% 的準確率。

圖片

如表 3 所示,研究者觀察到元智慧體搜尋的效能與基線相比具有類似的優勢。值得注意的是,與基線相比,本文的智慧體在 GSM8K 和 GSM-Hard 上的準確率分別提高了 25.9% 和 13.2%。

圖片

更令人驚訝的是,研究者觀察到在數學領域發現的智慧體可以遷移到到非數學領域(表 4)。

圖片

相關文章