不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM呼叫,成為網路任務智慧體新SOTA

机器之心發表於2024-11-06

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


網路智慧體旨在讓一切基於網路功能的任務自動發生。比如你告訴智慧體你的預算,它可以幫你預訂酒店。既擁有海量常識,又能做長期規劃的大語言模型(LLM),自然成為了智慧體常用的基礎模組。

於是上下文學習示例、任務技巧、多智慧體協同、強化學習演算法…… 一切適用於通用智慧體的想法都搶著在大模型落地。

然而有一個問題始終橫亙在 LLM 和智慧體之間:基於 LLM 的網路智慧體的行動 / 觀測空間與 LLM 訓練資料的空間相去甚遠。

智慧體在充斥著具身行為的行動空間(如滑鼠懸停、鍵盤組合鍵)和遍佈前端功能強化、格式渲染的觀測空間下運作,大語言模型的理解和推理能力能充分發揮作用嗎?尤其是大語言模型的主要訓練任務是文字補全、問答和對齊人類偏好,這一點值得思考。

來自伊利諾伊大學香檳分校和亞馬遜的研究人員選擇和這些問題進一步對話。他們去除了上下文示例、技巧、多智慧體系統,僅僅透過行動 / 觀測空間與 LLM 的訓練任務對齊。他們訓練的 AgentOccam 成為了零樣本基於 LLM 的網路智慧體新 Sota。不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM呼叫,成為網路任務智慧體新SOTA 幫你寫email 不靠更復雜的策略,僅憑和大模型訓練對齊,零樣本零經驗單LLM呼叫,成為網路任務智慧體新SOTA
幫你找導師

這正呼應了奧卡姆剃刀原則:「若無必要,勿增實體」。然而換個思考的角度,AgentOccam 的研究團隊也想發問:構建通用智慧體時,在鋪設複雜的系統框架前,是否已經最佳化了行動 / 觀測空間,讓這些功能模組達到了最優狀態?
圖片
  • 論文連結:https://arxiv.org/abs/2410.13825

  • 論文名:AgentOccam: A Simple Yet Strong Baseline for LLM-Based Web Agents

背景及動機

某天你刷著短影片,看中了主播手中拿著的商品。於是,你興致勃勃地對智慧助手說:「我是學生,讓這個老闆送我一張優惠券!」

隨後,智慧體申請了你的私人賬號許可權、後臺私信商家、繪聲繪色地寫下「我是學生」,傳送訊息,一套動作無需人為干預,行雲流水......一切這樣的任務,再也不必動手,都有智慧體代勞。

大語言模型是構建智慧體的熱門選擇。過去,基於 LLM 的網路智慧體通常專注於讓智慧體學會某種應用,比如構建上下文學習樣本、積累任務經驗與技巧、以及多智慧體角色扮演等等。然而,在實際互動中,智慧體的行動 / 觀測空間與 LLM 的技能點不太匹配,這之間的差距卻少有人研究。

於是,針對如何對齊基於 LLM 的網路智慧體的觀測和行動空間與其訓練期間學到的功能,來自伊利諾伊大學香檳分校和亞馬遜的研究人員們展開了研究。

網路智慧體需要準確地從格式各異、編碼指令碼不一的網頁中提取資訊,並在網頁上定義的動作(例如,滑鼠滑輪滾動、點選或懸停在按鈕上)中進行選擇。這些網路觀測和行動空間在 LLM 的預訓練和後續訓練資料中都較為罕見,這阻礙了 LLM 充分調動潛能,完成任務。

因此,基於不讓智慧體策略變得更復雜,而是讓智慧體與 LLM 更加匹配的想法,由此構建的智慧體得名 AgentOccam。

形式化與方法

該團隊透過部分可觀測的馬爾可夫決策過程(POMDP),將網路互動過程形式化為:<O,S,A,P,R,p_0,γ>。

在 POMDP 中,觀測 o∈O 是智慧體從網路環境接收到的資訊,例如 HTML,以及任何指令和提示。行動 a∈A 是網路環境認可的動作指令。

為解決 POMDP,常見目標是尋找策略圖片,最大化預期累積獎勵,其中 h_t 表示觀測歷史圖片

在基於 LLM 的網路智慧體設計中,這等價於藉助一個或多個基礎 LLM 策略 圖片
和一組演算法模組來設計策略圖片

在這項工作中,該團隊專注於一類特殊的策略,可以表示為:圖片,其中 f 和 g 是處理觀測和行動空間的基於規則的函式,該團隊將其稱為「觀測和行動空間對齊問題」

在這樣的問題設定下,接下來的所有更改僅應用於觀測和行動。值得注意的是,並非所有以往方法中的智慧體策略都能以這種方式表示。
圖片
例如上表中,基於搜尋的演算法需要一個頂層控制程式來選擇行動並觸發回溯;帶有評估器、反思或記憶模組的方法也需要一個管理中心來在主 LLM 和這些輔助模組或其他角色扮演 LLM 之間切換。

不同於以往復雜化智慧體策略,我們能否僅透過最佳化觀測和行動對映 f 和 g,使用基礎 LLM 策略 圖片 構建一個強大的網路智慧體?這是 AgentOccam 關注的問題。
圖片
如上圖所示,AgentOccam 包括三個組成部分:
  • 首先,減少非必要的網路互動動作,讓智慧體的具身和瑣碎互動需求達到最小;

  • 其次,消除冗餘和不相關的網頁元素,並重構網頁內容塊,以獲取更簡潔但同樣資訊豐富的表示,從而精煉觀察空間;

  • 最後,引入兩個規劃動作(分支和修剪),這使得智慧體能夠以規劃樹結構自組織導航工作流,並使用相同結構過濾歷史步以進行回放。

整個框架透過一套適用於所有標記語言的通用規則來格式化網頁,無需依賴測試基準中的任務相關資訊。
圖片
網路智慧體的行動空間規定了可以用來與網路環境互動的有效命令。

研究團隊從智慧體常見的失敗中得出總結:想要成功完成任務,需要編輯行動空間來解決兩個關鍵問題:第一,去除 LLM 難以理解且經常誤用的無關行動;第二,當執行任務需要規劃、嘗試多個潛在路徑時,要提高智慧體的記憶和規劃能力。

為此,該團隊提出了對應的解決方法。第一個問題可以透過簡單地移除或合併操作來解決(如上圖中的步驟 1 和 2)。對於第二個問題,過去的研究通常依賴人工制定規則或任務技巧,但這些方法難以泛化。在本研究中,LLM 將自主生成計劃和管理任務流程(如步驟 3 所示)。
圖片
AgentOccam 的觀測空間(提示詞)包含了任務概述的通用指令、期望的輸出和可用操作說明,以及關於當前任務目標、智慧體過去的互動記錄和最新的觀察資訊。

過往互動和當前觀測的部分佔據了最多的字元數。這主要歸因於兩個因素:單頁面的長度和歷史跨度的範圍,這是 AgentOccam 觀測空間的主要最佳化物件。
圖片
網頁標記語言主要用於前端載入和渲染,往往包含大量格式化字元,顯得冗餘且重複(如上圖步驟 1 所示)。因此,此時的目標是最佳化這些表示方式,使得單頁內容對 LLMs 更加簡潔易讀。

將觀測歷史作為輸入,對於執行長程任務至關重要。因為一些關鍵資訊可能不會顯示在當前頁面上。然而,觀測歷史也會顯著增加上下文長度,並增加推理難度以及推斷成本。

為了解決這個問題,設定僅選擇先前網頁上最重要和相關的資訊,這一選擇依據兩個規則,分別基於關鍵節點和規劃樹,見於步驟 2 和 3。

結果

研究團隊在 WebArena 上評估了 AgentOccam 效能。WebArena 含有 812 項任務,橫跨網購、社交網站、軟體開發、線上商貿管理、地圖等。

測試物件為 AgentOccam 框架下的 GPT-4-Turbo。對比的基線包括:一、WebArena 隨配智慧體,二、SteP,前 WebArena 上最優智慧體,涵蓋 14 條人類專為 WebArena 任務編寫的技巧,三、多智慧體協同方法 WebPilot;四、總結智慧體互動經驗的工作 AWM。
圖片
從上表不難看出,AgentOccam 效能優於以往及同期工作。其中,AgentOccam 分別以 9.8(+29.4%)和 5.9(+15.8%)的絕對分數領先往期和同期工作,並且透過其觀測與行動空間的對齊,使得相似的基本網路智慧體的成功率提高了 26.6 點(+161%)。
圖片
圖片
圖片
圖片
消融實驗

逐模組對比行動與觀測空間的對齊對最終結果的貢獻。從下表可以看出,行動空間對齊能使智慧體完成更多 click、type 等引導環境變化的動作,觀測空間對齊則減少大模型呼叫的字元數與智慧體完成任務所需的步數。
圖片
LLM-as-a-Judge

研究團隊發現,智慧體的決策行為波動性很強。簡而言之,面對一個目標,智慧體有一定機率做出正確的行為決斷,但由於 token 預測的隨機性,它可能做出一些高成本、低迴報的決定。這也導致它在後續步驟中難以糾正之前的錯誤而失敗。

例如,要求智慧體在某個最相關的話題下發布帖子,單次 LLM 呼叫的 AgentOccam 往往輕率地選擇話題,未考慮「最相關」的要求。

為了解決此類問題,他們引導 AgentOccam 生成單步內所有可能的行動,這系列行動將交付另一個 Judge 智慧體(同樣呼叫 GPT-4-turbo)決斷,做出最大化回報的選擇。

與複合策略結合使用

複合策略中,與任務相關的經驗可以提升智慧體效能。同時,不因為加入了更多背景知識擾亂決策,不會影響泛化性,能夠糾正錯誤行為模式。

由於行為 / 觀測空間對齊和複合策略方法正交,因此能結合利用。該團隊試驗將 AgentOccam 與 1)SteP 和 2)上述的 LLM-as-a-Judge 方法聯合使用。

對於和前 SOTA 方法 SteP 聯合,由於它引入人類編寫的 WebArena 任務攻略,在經驗密集型任務,如購物網頁任務中,人類撰寫的引導性經驗大幅提升任務成功率。

而在常識泛化密集型任務,如社交網頁發帖任務中,不相關知識出現會錯誤擾亂智慧體決策。對於 LLM-as-a-Judge 方法,Judge 角色的引入不影響智慧體的泛化性,同時糾正了智慧體倉促決策的錯誤行為模式,在 WebArena 上進一步提升 2.6 的絕對分數。

相關文章