捲起來!讓智慧體評估智慧體,Meta釋出Agent-as-a-Judge

机器之心發表於2024-10-18
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

本論文作者主要包括德國電腦科學家、LSTM 之父 Jürgen Schmidhuber;Meta AI 研究團隊(FAIR)研究科學家總監田淵棟,他負責領導大語言模型(LLMs)在推理、規劃和決策方面的研究團隊,主導了 OpenGo、StreamingLLM 和 GaLore 專案,專注於提升大模型的訓練和推理效率;Vikas Chandra,Meta Reality Lab AI 負責人;諸葛鳴晨,Meta 研究科學家實習生,同時在沙特阿卜杜拉國王科技大學(KAUST)攻讀博士三年級,師從Jürgen Schmidhuber,GPTSwarm 第一作者,MetaGPT 共同第一作者;Zechun Li,Meta Reality Lab 研究科學家,MobileLLM 的第一作者;Yunyang Xiong,Meta Reality Lab 高階研究科學家,EfficientSAM 第一作者。

如果說去年大廠的競爭焦點是 LLM,那麼今年,各大科技公司紛紛推出了各自的智慧體應用。

微軟釋出了 Copilot,Apple 將 Apple Intelligence 接入了 OpenAI 以增強 Siri。多智慧體也是 OpenAI 未來重要的研究方向之一,這家公司的最新成果 ——Swarm,一個實驗性質的多智慧體編排框架在開源後引起了熱烈討論,有網友表示這能幫助簡化許多潛在多智慧體用例的工作流程。

祖克伯更是斷言:「AI 智慧體的數量可能會達到數十億,最終甚至超過人類。」在 Meta Connect 2024大會上,Meta 推出了接入 Llama 3.2 的智慧眼鏡 Orion 和升級版 Quest 3S,顯示出智慧體正在迅速滲透進 Meta 的各個應用領域。
圖片
近日,Meta 提出了 Agent-as-a-Judge 的概念,被視為智慧體最佳化方面的又一重要成果。傳統的智慧體評估方式往往只關注最終結果,忽略了執行過程中的關鍵細節,或依賴大量人力進行評估。為了解決這一痛點,Meta 推出了用智慧體評估智慧體的新方法,使評估過程更加靈活且自動化。
圖片
該框架在 LLM-as-a-Judge 的基礎上進行了升級,增加了中間反饋功能,確保任務的每個環節都能得到精準評估與最佳化,同時還能有效模擬並接近人類反饋。
圖片
  • 論文標題:Agent-as-a-Judge: Evaluate Agents with Agents
  • 論文地址:https://arxiv.org/pdf/2410.10934
  • 專案地址:https://github.com/metauto-ai/agent-as-a-judge

為了克服現有基準存在的問題,併為 Agent-as-a-Judge 提供一個概念驗證測試平臺,研究者還提出了 DevAI,一個包含 55 項現實自動人工智慧開發任務的新基準。它包括豐富的手動註釋,如總共 365 個分層使用者需求。

Agent-as-a-Judge:智慧體評估智慧體
圖片
Agent-as-a-Judge 框架最大的亮點在於其與人類評估者的高度一致性。在實驗中,該框架的評估結果與人類專家的對齊率高達 90.44%,遠超 LLM-as-a-Judge 的 70.76%。這一結果表明,智慧體在處理複雜任務時,能夠像人類一樣精確地判斷並修復問題,極大地減少了對人工評估的依賴,同時顯著提高了效率。

顯著的效率提升。實驗表明,Agent-as-a-Judge 在效率上也具有明顯優勢。與人類評估者耗費 86.5 小時相比,Agent-as-a-Judge 僅需 118.43 分鐘就能完成相同任務,大幅節省了時間和成本。評估 55 個任務的總成本僅為 30.58 美元,平均每個任務的評估費用僅為 0.55 美元,顯示了極高的價效比和工作效率。

填補評估中的反饋空白。當前,智慧體評估方法普遍缺乏中間反饋機制,只關注最終結果,忽視了任務執行中的關鍵步驟。智慧體在解決複雜問題時,通常像人類一樣,逐步思考並解決問題。因此,評估不僅應該關注結果,還需考察每個步驟的思維過程和行為軌跡。Agent-as-a-Judge 透過提供中間反饋,填補了這一空白,標誌著智慧體評估進入了一個新的階段。

資料集挑戰與系統表現。實驗還揭示,即使是表現較好的智慧體系統(如 GPT-Pilot 和 OpenHands)也僅能滿足 DevAI 資料集中約 29% 的任務需求,任務完成率有限,凸顯了該資料集的挑戰性。在與人類專家評估的對比中,Agent-as-a-Judge 表現出色,達到了 90% 的對齊率,而 LLM-as-a-Judge 僅為 70%。更值得注意的是,Agent-as-a-Judge 的表現甚至優於單個專家評估者,意味著在某些情況下,該框架不僅能夠替代人類評估,還可能更加有效。

高價效比與潛力。透過節省 97.72% 的時間和 97.64% 的成本,Agent-as-a-Judge 展示了其在 AI 評估中的巨大潛力。它為智慧體技術的發展提供了強有力的支援,標誌著 AI 評估工具邁向了更高效和低成本的新紀元。

行業趨勢與 Cognition AI。值得注意的是,近期獲得融資的 Cognition AI 也採取了類似思路,即使用智慧體來評估智慧體,這顯示出這一概念正在成為業界的一個重要趨勢(更多資訊請參見:https://www.cognition.ai/blog/evaluating-coding-agents)。
圖片
綜上,Agent-as-a-Judge 的提出有如下價值:

(1)智慧體自我改進的中間反饋機制

Agent-as-a-Judge 的一個核心優勢在於其提供的中間反饋,這對於實現智慧體的高效最佳化至關重要。儘管在本研究中這一潛力尚未被充分發掘,但它的作用已經初見端倪。透過學習輔助獎勵函式,能夠解決強化學習中的稀疏獎勵問題,提供關鍵的中間反饋。Agent-as-a-Judge 框架的亮點在於,它使智慧體在處理複雜、多階段問題時,能夠實時發現並修復解決方案中的問題,而傳統的延遲反饋機制難以做到這一點。引入 Agent-as-a-Judge 後,為構建智慧體版本的過程監督獎勵模型(PRM)開啟了大門,從而進一步提升智慧體的最佳化效率。

(2)由 Agent-as-a-Judge 驅動的飛輪效應

Agent-as-a-Judge 和被評估智慧體之間的相互改進,透過不斷的迭代反饋逐步演進,這一迴圈展示了廣闊的發展前景。透過將 Agent-as-a-Judge 作為核心機制,或許能夠催生出一種智慧體自我博弈系統。隨著 Agent-as-a-Judge 與被評估智慧體的持續互動,這種過程可能會產生飛輪效應 —— 每次改進相互強化,從而不斷推動效能的提升。這種迭代不僅能增強智慧體系統的能力,還可能成為 LLM 推理資料的重要補充,有助於將智慧體的能力更好地嵌入基礎模型中,進一步擴充智慧體系統的潛力。

DevAI:從使用者角度出發的 AI 自動化資料集

過去一年中,LLM 智慧體系統的能力顯著提升,從解決簡單的「玩具問題」逐步擴充套件到處理複雜的實際任務。然而,大多數現有的評估方法和資料集仍然基於為基礎模型設計的標準,難以全面反映智慧體在現實任務中的表現和挑戰。以 HumanEval 和 MBPP 等資料集為例,儘管它們在評估基礎模型的演算法能力方面有效,但在程式碼生成等領域,現有方法過於依賴最終結果,無法捕捉開發者在現實任務中遇到的複雜性和動態過程。
圖片
儘管 SWE-Bench 嘗試引入更接近現實的評估標準,但它依然主要依賴「解決率」(resolve rate),這一指標未能提供開發過程中每個階段的具體反饋,也難以捕捉智慧體系統的動態表現。因此,這類評估標準無法準確反映智慧體在實際任務中的真實能力。
圖片
相關研究甚至表明,即使不具備智慧體特性,模型也能達到 27% 的解決率。此外,激烈的競爭還引發了對 SWE-Bench 得分真實性的擔憂,許多高分可能透過對獨立任務的過擬合獲得,無法真實反映智慧體的實際能力。

鑑於此,迫切需要新的評估方法來彌補這些不足。為此,Meta 推出了專門為智慧體系統設計的 DevAI 資料集。DevAI 涵蓋了 55 個 AI 開發任務,涉及監督學習、強化學習、計算機視覺和自然語言處理等領域。每個任務包含使用者查詢、365 個任務需求和 125 個偏好標準。

與傳統評估方法不同,DevAI 不僅關注任務的最終結果,還跟蹤並評估任務執行過程中的每個階段,從而提供更全面的反饋(圖 4 所示)。雖然這些任務規模相對較小,但它們真實反映了開發中的實際問題,且計算成本較低,適合廣泛應用。值得注意的是,DevAI 不關注「玩具」資料集(如 FashionMNIST)上的高分表現,而更注重智慧體在處理現實任務中的能力。此外,DevAI 採用有向無環圖(DAG)結構排列任務需求,確保評估具備層次性,不再依賴簡單的成功或失敗判斷,而是要求智慧體具備更深入的解決問題能力。未來,程式碼生成領域的標準評估方法可能會採用類似 DevAI 這樣的資料集,提供中間反饋,以模組化提升智慧體的能力;在能力提升後,使用 OpenAI 的 MLE-Bench 進一步評估智慧體解決複雜問題的能力。

收集人類專家評估

人類評估設定

在完成基線執行結果和基本統計分析後,研究團隊邀請了三位具備 5 年以上 AI 開發經驗人類專家評估員(匿名為 231a、38bb 和 cn90)對 AI 開發者的基線輸出進行審查,評估每項需求是否得到了滿足。評估分為兩輪。為了儘量捕捉人類評估中常見的偏差(模擬實際部署場景),在第一輪中,評估員討論了基本標準。雖然允許評估員帶有個人偏好,但評估過程需基於統一的標準進行。在第一輪評估完成後(總計約 58 小時),評估員再次進行討論,進一步修正和達成一致意見,確保評估結果更加統一和一致。這一過程共耗時 28.5 小時,最終的共識作為每種方法的最終人類評估結果。
圖片
圖片
效能分析。實驗結果顯示(如表 2),表現最好的兩種方法 ——GPT-Pilot 和 OpenHands—— 僅能滿足約 29% 的需求(忽略前提條件後為 44%),且僅在一個任務中滿足了所有要求。這表明 DevAI 為當前及未來的智慧體方法設定了較高的挑戰性。此外,正如第 2 節所討論的,DevAI 不僅揭示了任務最終結果,還透過反饋揭示了智慧體在任務過程中出現的問題,為評估提供了更豐富的層次。

錯誤分析。在實驗中,評估員在初步評估後進行了深入辯論,直到他們對每個任務的需求達成一致意見。共識評估(consensus)透過這種方式模擬實際情況,減少了個體評估中的偏差。在 Human-as-a-Judge 框架下,評估員可以透過討論和證據修正自己的判斷,從而調整評估結果。這種方式也用來近似估計個體的錯誤率。理論上,集體討論達成的共識應比任何個體評估更接近真實結果。
圖片
雖然共識評估可能並不完美(某些錯誤仍然存在),但相較於個體評估,理論上共識評估應更接近真實結果。如圖 5 所示,實驗結果證實了這一假設。儘管評估員之間的錯誤率有所不同,但多數投票有效地修正了大部分錯誤。例如,評估員 cn90 在評估 GPT-Pilot 時犯下了最多的錯誤(錯誤率達 23.77%)。然而,透過多數投票(majority vote),三位評估員的整體錯誤率降低至 6.01%,顯示了多數投票在減少評估偏差方面的優勢。

結論。人類評估中的錯誤是不可避免的。為減少這些錯誤,研究提出了兩種策略。第一,像本研究一樣,在每次評估後引入討論環節,評估員可以根據新的證據調整他們的判斷。這一方法在評估員數量較少時尤其有效,因為小組評估中的多數投票仍可能產生一定誤差(如圖 5 所示,相比共識評估大約有 5% 的錯誤率)。第二,組建更大的專家團隊來提高評估的準確性。研究表明,當評估員人數超過 5 人時,評估準確性有望超過 50%。然而,由於動員更多專家的成本較高,實踐中這種方法並不總是可行。因此,本研究更傾向於透過討論和共識投票來減少評估中的偏差。

使用

目前,作者已在 GitHub 上提供了開原始碼,支援對任意工作區(workspace)進行提問,並透過 Agent-as-a-Judge 功能在 DevAI 資料集上進行自動評估。未來的開源智慧體評估將進一步改進,首先利用 DevAI 對中間過程進行判斷和最佳化,最終透過類似 MLE-Bench 的工具測試智慧體的整體效能。
圖片
圖片

相關文章