有效評估Agent實際表現,新型線上評測框架WebCanvas來了

机器之心發表於2024-07-17

當 LLM Agent 踏入真實的線上網路世界時,它們的表現能否如預期般遊刃有餘?

潘奕琛:浙江大學碩士一年級研究生。孔德涵:跨越星空科技模型演算法負責人。周思達:南昌大學 2024 屆畢業生,將於西安電子科技大學攻讀碩士。崔成:浙江中醫藥大學 2024 屆畢業生,將於蘇州大學攻讀碩士。

潘奕琛、周思達、崔成以跨越星空科技演算法實習生的身份共同完成了本論文的研究工作。

在當今科技迅速發展的時代,大型語言模型(Large Language Model,LLM)正以前所未有的速度改變著我們與數字世界的互動方式。基於 LLM 的智慧代理(LLM Agent),從簡單的資訊搜尋到複雜的網頁操作,它們正在逐步融入我們的生活。然而,一個關鍵問題仍然懸而未決:當這些 LLM Agent 踏入真實的線上網路世界時,它們的表現能否如預期般遊刃有餘?

現有的評測方法大多停留在靜態資料集或模擬網站的層面。這些方法有其價值,但侷限性顯而易見:靜態資料集難以捕捉網頁環境的動態變化,如介面更新和內容迭代;而模擬網站則缺乏真實世界的複雜性,未能充分考慮跨站操作,例如使用搜尋引擎等操作,這些因素在真實環境中是不可或缺的。

為破解這一難題,一篇題為《WebCanvas: Benchmarking Web Agents

in Online Environments》的論文提出了一種創新的線上評測框架 ——WebCanvas,旨在為 Agent 在真實網路世界中的表現提供一個全面的評估方法。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

  • 論文連結:https://arxiv.org/pdf/2406.12373

  • WebCanvas 平臺連結:https://imean.ai/web-canvas

  • 專案程式碼連結:https://github.com/iMeanAI/WebCanvas

  • 資料集連結:https://huggingface.co/datasets/iMeanAI/Mind2Web-Live

WebCanvas 的創新點之一在於提出了 “關鍵節點” 的概念。這一概念不僅聚焦於任務的最終完成情況,還能夠深入至任務執行過程的細節,確保評估的精準度。透過識別並檢測任務流程中的關鍵節點 —— 無論是到達特定網頁,還是執行特定操作(如點選特定的按鈕),WebCanvas 為線上評估 Agent 提供了一個新的視角。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

WebCanvas 框架圖。左側展示的是任務的標註過程,右側展示的是任務的評估過程。WebCanvas 考慮到了線上網路互動中任務路徑的非唯一性,“獎盃” 代表成功到達每個關鍵節點後獲得的步驟分數。

基於 WebCanvas 框架,作者構建了 Mind2Web-Live 資料集,該資料集包含從 Mind2Web 中隨機挑選出的 542 個任務。本文作者還為資料集中的每個任務都標註了關鍵節點。透過一系列實驗,我們發現,當 Agent 配備 Memory 模組,輔以 ReAct 推理框架,並搭載 GPT-4-turbo 模型後,其任務成功率提升至 23.1%。我們深信,隨著技術的不斷演進,Web Agent 的潛力依舊無限,這個數字將很快會被突破。

關鍵節點

“關鍵節點” 的概念是 WebCanvas 的核心思想之一。關鍵節點指的是完成特定網路任務過程中不可或缺的步驟,也就是說,無論完成任務的路徑如何,這些步驟都是不可或缺的。這些步驟涵蓋了訪問特定網頁以及在頁面上執行特定操作,如填寫表單或點選按鈕。

以 WebCanvas 框架圖綠色部分為例,使用者需要在爛番茄網站上尋找評分最高的即將上映的冒險電影。他可以透過多種途徑達到目的,比如從爛番茄的首頁開始探索,或者直接透過搜尋引擎定位置 “即將上映的電影” 頁面。在篩選影片的過程中,使用者可能先選擇 “冒險” 型別,再根據受歡迎程度排序,或者反之亦然。雖然存在多條實現目標的路徑,但進入特定頁面並進行篩選是完成任務不可或缺的步驟。因此,這三個操作被定義為該任務的關鍵節點。

評估指標

WebCanvas 的評估體系分為兩大部分:步驟得分和任務得分,兩者共同構評估 WebAgent 綜合能力。

  • 步驟得分:衡量 Agent 在關鍵節點上的表現,每個關鍵節點都與一個評估函式相關聯,透過三種評估目標(URL、元素路徑、元素值)和三種匹配函式(精確、包含、語義)來實現。每到達一個關鍵節點並透過評估函式,Agent 就能獲得相應的分數。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

評估函式總覽,其中 E 代表網頁元素 Element

  • 任務得分:分為任務完成得分和效率得分。任務完成得分反映 Agent 是否成功拿到了此任務所有的步驟得分。而效率得分則考量了任務執行的資源利用率,計算方法為每個步驟得分所需的平均步驟數。

Mind2Web-Live 資料集

作者從 Mind2Web 訓練集中隨機抽取了 601 個與時間無關的任務,以及測試集 Cross-task 子集中的 179 個同樣與時間無關的任務,然後將這些任務在真實線上環境中進行標註。最終,作者構建了由 542 個任務組成的 Mind2Web-Live 資料集, 其中包含了 438 個訓練樣本和 104 個用於測試的樣本。下圖直觀地展示了標註結果和評估函式的分佈。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

資料標註工具

資料標註過程中,作者使用了跨越星空科技開發的 iMean Builder 瀏覽器外掛。該外掛能夠記錄使用者瀏覽器互動行為,包括但不限於點選、文字輸入、懸浮、拖拽等動作,同時記錄操作的具體型別、執行引數、目標元素的 Selector 路徑,以及元素內容和頁面座標位置。此外,iMean Builder 還為每一步操作生成網頁截圖,為驗證和維護工作流程提供了直觀的展示。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

示例:使用 iMean Builder 外掛註釋兩個不同的任務。(A) 在 Yelp 上查詢加州提供免費 Wi-Fi 的豪華轎車停車場,(B) 在 Steam 上查詢 Dota 2 遊戲並將所有 DLC 新增到購物車中

資料維護

網路環境瞬息萬變,網站內容的更新、使用者介面的調整乃至站點的關閉都是不可避免的常態。這些變化可能導致先前定義的任務或關鍵節點失去時效性,從而影響評測的有效性和公平性。

為此,作者設計了一套資料維護方案,旨在確保評測集的持續相關性和準確性。在資料收集階段,除了標註關鍵節點外,iMean Builder 外掛還能夠詳細記錄每一步工作流執行的資訊,包括動作型別、Selector 路徑、元素值以及座標位置等。後續使用 iMean Replay SDK 的元素匹配策略就能重現工作流動作,並及時發現並報告工作流或評估函式中的任何無效情況。

透過此方案,我們有效解決了流程失效帶來的挑戰,確保了評測資料集能夠適應網路世界的不斷演變,為自動化評測 Agent 的能力提供了堅實的基礎。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

資料管理平臺

在 WebCanvas 網站上,使用者可以清晰地瀏覽所有已錄製的任務流程及其關鍵節點,也能夠迅速向平臺管理員反饋失效的流程,確保資料的時效性和準確性。

同時,作者鼓勵社群成員積極參與,共同構建一個良好的生態系統。無論是維護現有資料的完整性,還是開發更先進的 Agent 進行測試,甚至是創造全新的資料集,WebCanvas 都歡迎各種形式的貢獻。這不僅促進了資料質量的提升,還鼓勵技術創新,能夠形成良性迴圈推動整個領域向前發展。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

WebCanvas 網站首頁

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

Mind2Web-Live 資料集的視覺化展示

基礎 Agent 框架

作者構建了一個全面的 Agent 框架,旨在最佳化 Agent 在線上網路環境下的任務執行效率。該框架主要由四個關鍵元件組成:規劃(Planning)、觀察(Observation)、記憶(Memory)以及獎勵(Reward)模組。

  • 規劃(Planning):基於 Accessibility Tree 的輸入,Planning 模組運用 ReAct 推理框架進行邏輯推斷,生成具體的操作指令。此模組的核心功能在於根據當前狀態和任務目標,給出行動路徑。

  • 觀察(Observation):Agent 透過解析瀏覽器提供的 HTML 原始碼,將其轉換成 Accessibility Tree 結構。這一過程確保了 Agent 能夠以標準化格式接收網頁資訊,便於後續分析和決策。

  • 記憶(Memory):Memory 模組負責儲存 Agent 在任務執行過程中的歷史資料,包括但不限於 Agent 的思考過程、過往的決策等。

  • 獎勵(Reward):Reward 模組能對 Agent 的行為給予評價,包括對決策質量的反饋以及給出任務完成訊號。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

基礎 Agent 框架示意圖

主要實驗

作者使用基礎 Agent 框架並接入不同 LLM 進行評估(不含 Reward 模組)。實驗結果如下圖所示,其中 Completion Rate 指的是關鍵節點的達成率,Task Success Rate 指的是任務成功率。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

除此之外,作者還探索了 Reward 模組對 Agent 能力的影響,其中 (+) 號代表 Reward 資訊中包含人類標註資料以及關鍵節點資訊供 Agent 參考,Human Alignment 分數代表 Agent 與人類的對齊程度。初步實驗的結果表明,線上網路環境中,Agent 並不能夠透過 Self Reward 模組改善能力,但是整合了原始標註資料的 Reward 模組能夠增強 Agent 的能力。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

實驗分析

在附錄中,作者對實驗結果進行了分析,下圖是任務複雜度與任務難度之間的關係,橙色線條描繪了關鍵節點達成率隨任務複雜度增加的變化軌跡,而藍色線條則反映了任務成功率隨任務複雜度的變化軌跡。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

任務複雜度與任務難度之間的關係。"num of steps" 指的是標註資料中動作序列的長度,與關鍵節點的數量一起作為任務複雜度的參考。

下表是實驗結果與地區、裝置、系統之間的關係。

有效評估Agent實際表現,新型線上評測框架WebCanvas來了

總結

在推動 LLM 和 Agent 技術發展的征途上,構建一套適應真實網路環境的評測體系至關重要。本文聚焦於在瞬息萬變的網際網路世界中有效地評價 Agent 的表現。我們直面挑戰,透過在開放的環境中界定關鍵節點和對應的評測函式達成了這一目標,並開發資料維護系統減小了後續維護成本。

經過不懈努力,我們已邁出了實質性的步伐,並向著建立穩健且精準的線上評測系統前進。然而,在動態的網路空間中進行評測並非易事,它引入了一系列在封閉、離線場景下未曾遭遇的複雜問題。在評測 Agent 的過程中,我們遇到了諸如網路連線不穩定、網站訪問限制,以及評測函式的侷限性等難題。這些問題凸顯出在複雜的真實環境中,對 Agent 進行評測所面臨的艱鉅任務,要求我們不斷精進調整 Agent 的推理和評測框架。

我們呼籲整個科研社群共同協作,以應對未知挑戰,推動評測技術的革新與完善。我們堅信,只有透過持續的研究與實踐,才能逐步克服這些障礙。我們期待著與同行們攜手並進,共創 LLM Agent 的新紀元。

相關文章