一直爆料OpenAI「草莓」的賬號,竟然是個智慧體?史丹佛系創企「炒作」AgentQ

机器之心發表於2024-08-14
當炒作出了「潑天的流量」,已經沒人關心產品厲不厲害了。

最近,OpenAI 的秘密專案「Q*」一直受到了圈內人士的廣泛關注。上個月,以它為前身、代號為「草莓(Strawberry)」的專案又被曝光了。據推測,該專案能夠提供高階推理能力。

最近幾天,關於這個專案,網路上又來了幾波「鴿死人不償命」的傳播。尤其是一個「草莓哥」的賬號,不間斷地宣傳,給人期望又讓人失望。
圖片
沒想到,這個 Sam Altman 出現在哪裡,它就在哪裡跟帖的「營銷號」,皮下竟然是個智慧體?

今天,一家 AI 智慧體初創公司「MultiOn」的創始人直接出來認領:雖然沒等來 OpenAI 釋出「Q*」,但我們發了操控「草莓哥」賬號的全新智慧體 Agent Q,快來和我們線上玩耍吧!
圖片
MultiOn 聯合創始人兼 CEO Div Garg,他在史丹佛讀電腦科學博士期間休學創業。

這波看起來讓 OpenAI 給自己做嫁衣的營銷操作給大家都看懵了。畢竟,最近很多人徹夜未眠等待 OpenAI 的「大新聞」。這要追溯到 Sam Altman 和「草莓哥」的互動,在 Sam Altman 曬出的草莓照片下,他回覆了「草莓哥」:驚喜馬上就來。
圖片
不過,「MultiOn」的創始人 Div Garg 已經把認領 Agent Q 就是「草莓哥」的帖子悄悄刪了。

此次,「MultiOn」宣稱,他們釋出的 Agent Q 是一款突破性的 AI 智慧體。它的訓練方法結合了蒙特卡洛樹搜尋(MCTS)和自我批評,並且透過一種叫做直接偏好最佳化(DPO)的演算法來學習人類的反饋。

與此同時,作為擁有規劃和 AI 自我修復功能的下一代 AI 智慧體,Agent Q 的效能是 LLama 3 基線零樣本效能的 3.4 倍。同時,在真實場景任務的評估中,Agent Q 的成功率達到了 95.4%。
圖片
Agent Q 能做什麼呢?我們先來看一下官方 Demo。

它能夠為你預定某個時間某家餐廳的座位。

圖片

然後為你執行網頁操作,比如查詢空位情況。最終成功預定。

圖片

此外還能預定航班(比如本週六從紐約飛往舊金山,單程、靠窗和經濟艙)。

圖片

不過,網友似乎對 Agent Q 並不買賬。大家關心更多的還是他們是否真的借「草莓哥」賬號炒作的事情,甚至有些人稱他們為無恥的騙子。

圖片

重要元件和方法概覽

目前,Agent Q 的相關論文已經放出,由 MultiOn 和史丹佛大學的研究者聯合撰寫。這項研究的成果將在今年晚些時候向開發人員和使用 MultiOn 的普通使用者開放。
圖片
  • 論文地址:https://multion-research.s3.us-east-2.amazonaws.com/AgentQ.pdf

總結一波:Agent Q 能夠自主地在網頁上實施規劃並自我糾錯,從成功和失敗的經驗中學習,提高它在複雜任務中的表現。最終,該智慧體可以更好地規劃如何在網際網路上衝浪,以適應現實世界的複雜情況。

在技術細節上, Agent Q 的主要元件包括如下:

使用 MCTS(Monte Carlo Tree Search,蒙特卡洛樹搜尋)進行引導式搜尋:該技術透過探索不同的操作和網頁來自主生成資料,以平衡探索和利用。MCTS 使用高取樣溫度和多樣化提示來擴充套件操作空間,確保多樣化和最佳的軌跡集合。

AI 自我批評:在每個步驟中,基於 AI 的自我批評都會提供有價值的反饋,從而完善智慧體的決策過程。這一步驟級反饋對於長期任務至關重要,因為稀疏訊號通常會導致學習困難。

直接偏好最佳化(DPO):該演算法透過從 MCTS 生成的資料構建偏好對以微調模型。這種離策略訓練方法允許模型從聚合資料集(包括搜尋過程中探索的次優分支)中有效地學習,從而提高複雜環境中的成功率。

下面重點講一下網頁(Web-Page)端的 MCTS 演算法。研究者探索瞭如何透過 MCTS 賦予智慧體額外的搜尋能力。

在以往的工作中,MCTS 演算法通常由四個階段組成:選擇、擴充套件、模擬和反向傳播,每個階段在平衡探索與利用、迭代細化策略方面都發揮著關鍵作用。

研究者將網頁智慧體執行公式化為網頁樹搜尋,其中狀態由智慧體歷史和當前網頁的 DOM 樹組成。與國際象棋或圍棋等棋盤遊戲不同,研究者使用的複雜網路智慧體操作空間是開放格式且可變的。

研究者將基礎模型用作操作建議(action-proposal)分佈,並在每個節點(網頁)上取樣固定數量的可能操作。一旦在瀏覽器中選擇並執行一個操作,則會遍歷下個網頁,並且該網頁與更新的歷史記錄共同成為新節點。

研究者對反饋模型進行多次迭代查詢,每次從列表中刪除從上一次迭代中選擇的最佳操作,直到對所有操作進行完整排序。下圖 4 為完整的 AI 反饋過程。
圖片
擴充套件和回溯。研究者在瀏覽器環境中選擇並執行一個操作以到達一個新節點(頁面)。從選定的狀態節點軌跡開始,他們使用當前策略 𝜋_𝜃 展開軌跡,直到到達終止狀態。環境在軌跡結束時返回獎勵 𝑅,其中如果智慧體成功則 𝑅 = 1,否則 𝑅 = 0。接下來,透過從葉節點到根節點自下而上地更新每個節點的值來反向傳播此獎勵,如下所示:
圖片
下圖 3 展示了所有結果和基線。當讓智慧體在測試時能夠搜尋資訊時,即為基礎 xLAM-v0.1-r 模型應用 MCTS 時,成功率從 28.6% 提升到了 48.4%,接近平均人類表現的 50.0%,並且顯著超過了僅透過結果監督訓練的零樣本 DPO 模型的效能。
圖片
研究者進一步根據下圖中概述的演算法對基礎模型進行了微調,結果比基礎 DPO 模型提高了 0.9%。在精心訓練的 Agent Q 模型上再應用 MCTS,智慧體的效能提升到了 50.5%,略微超過了人類的平均表現。
圖片
他們認為,即使智慧體經過了大量的強化學習訓練,在測試時具備搜尋能力仍然是一個重要的正規化轉變。與沒有經過訓練的零樣本智慧體相比,這是一個顯著的進步。

此外,儘管密集級監督比純粹的基於結果的監督有所改善,但在 WebShop 環境中,這種訓練方法的提升效果並不大。這是因為在這個環境裡,智慧體只需要做很短的決策路徑,可以透過結果來學習信用分配。

評估結果

研究者選擇了讓智慧體在 OpenTable 官網上預訂餐廳的任務來測試 Agent Q 框架在真實世界的表現如何。要完成這個訂餐任務,智慧體必須在 OpenTable 網站上找到餐廳的頁面,選擇特定的日期和時間,並挑選符合使用者偏好的座位,最後提交使用者的聯絡方式,才能預定成功。

最初,他們對 xLAM-v0.1-r 模型進行了實驗,但該模型表現不佳,初始成功率僅為 0.0%。因此,他們轉而使用 LLaMa 70B Instruct 模型,取得了一些初步的成功。

不過由於 OpenTable 是一個實時環境,很難透過程式設計或自動化的方式進行測量和評估。因此,研究者使用 GPT-4-V 根據以下指標為每個軌跡收集獎勵:(1) 日期和時間設定正確,(2) 聚會規模設定正確,(3) 使用者資訊輸入正確,以及 (4) 點選完成預訂。如果滿足上述所有條件,則視為智慧體完成了任務。結果監督設定如下圖 5 所示。
圖片
而 Agent Q 將 LLaMa-3 模型的零樣本成功率從 18.6% 大幅提高到了 81.7%,這個結果僅在單日自主資料收集後便實現了,相當於成功率激增了 340%。在引入在線搜尋功能後,成功率更是攀升至 95.4%。
圖片
更多技術細節和評估結果請參閱原論文。

參考連結:https://www.multion.ai/blog/introducing-agent-q-research-breakthrough-for-the-next-generation-of-ai-agents-with-planning-and-self-healing-capabilities

相關文章