AI智慧體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

机器之心發表於2024-05-28

AI 智慧體的宣傳很好,現實不太妙。

隨著大語言模型的不斷進化與自我革新,效能、準確度、穩定性都有了大幅的提升,這已經被各個基準問題集驗證過了。

但是,對於現有版本的 LLM 來說,它們的綜合能力似乎並不能完全支撐得起 AI 智慧體。

圖片

多模態、多工、多領域儼然已成為 AI 智慧體在公共傳媒空間內的必須要求,但是在具體的功能實踐中所展現的真實效果卻差強人意,這似乎也再次提醒各個 AI 智慧體初創公司以及大型科技巨頭認清現實:腳踏實地一點,先別把攤子鋪得太大,從 AI 增強功能開始做起。

近日,一篇就 AI 智慧體在宣傳和真實表現上的差距而撰寫的部落格中,強調了一個觀點:「AI 智慧體在宣傳上是個巨人,而現實卻很不妙。」

不可否認的是,自主 AI 智慧體能夠執行復雜任務的前景已經引起極大的興奮。透過與外部工具和功能的互動,LLMs 可以在沒有人為干預的情況下完成多步驟的工作流程。

但現實證明,這比預期的要更具挑戰性。

WebArena 排行榜(一個真實可復現的網路環境,用於評估實用智慧體的效能)對 LLM 智慧體在現實任務中的表現進行了基準測試,結果顯示即使是表現最好的模型,成功率也只有 35.8%。

圖片

WebArena 排行榜對 LLM 智慧體在現實任務中的表現進行的基準測試結果:SteP 模型在成功率指標上表現最為良好,達到了 35.8%,而知名的 GPT-4 的成功率僅達到了 14.9%。

什麼是 AI 智慧體?

「AI 智慧體」這個術語並沒有真正被定義,對智慧體究竟是什麼也存在很多的爭議。

AI 智慧體可以定義為「一個被賦予行動能力的 LLM(通常在 RAG 環境中進行函式呼叫),以便在環境中對如何執行任務做出高層次的決策。」

當前,構建 AI 智慧體主要有以下兩種架構方法:

  1. 單一智慧體:一個大型模型處理整個任務,並基於其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的湧現能力,避免了將任務分解所帶來的資訊丟失。
  2. 多智慧體系統:將任務分解為子任務,每個子任務由一個更小、更專業的智慧體處理。與嘗試使用一個難以控制和測試的大型通用智慧體相比,人們可以使用許多更小的智慧體來為特定子任務選擇正確的策略。由於上下文視窗長度的限制或不同技能組合的需要等實際約束,這種方法有時是必要的。

理論上,具有無限上下文長度和完美注意力的單一智慧體是理想的。由於上下文較短,在特定問題上,多智慧體系統總是比單一系統效果差。

實踐中的挑戰

在見證了許多 AI 智慧體的嘗試之後,作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智慧體初創公司似乎在等待一個模型突破,以開啟智慧體產品化的競賽。

AI 智慧體在實際運用中的表現並不夠成熟,這體現在輸出不精確、效能差強人意、成本較高、賠償風險、無法獲得使用者信任等問題:

  • 可靠性:眾所周知,LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連線起來會加劇這些問題,尤其是對於需要精確輸出的任務。
  • 效能和成本:GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函式呼叫方面表現不錯,但它們仍然較慢且成本高,特別是如果需要進行迴圈和自動重試時。
  • 法律問題:公司可能需要對其智慧體的錯誤負責。最近的一個例子是,加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
  • 使用者信任:AI 智慧體的「黑箱」性質以及類似示例使得使用者難以理解和信任其輸出。在涉及支付或個人資訊的敏感任務中(如支付賬單、購物等),贏得使用者信任將會很困難。

現實世界中的嘗試

目前,以下幾家初創公司正在涉足 AI 智慧體領域,但大多數仍處於實驗階段或僅限邀請使用:

  • adept.ai - 融資 3.5 億美元,但訪問許可權仍然非常有限。
  • MultiOn - 融資情況未知,他們的 API 優先方法看起來很有前景。
  • HypeWrite - 融資 280 萬美元,起初是一個 AI 寫作助手,後來擴充套件到智慧體領域。
  • minion.ai - 最初引起了一些關注,但現在已經沉寂,僅有等候名單。

它們中似乎只有 MultiOn 在追求「給出指令並觀察其執行」的方法,這與 AI 智慧體的承諾更為一致。

其他所有公司都在走記錄和重放的 RPA(record-and-replay)路線,這在現階段可能是為保證可靠性所必需的。

同時,一些大公司也在將 AI 功能帶到桌面和瀏覽器,並且看起來將會在系統層面上獲得本地的 AI 整合。

OpenAI 宣佈了他們的 Mac 桌面應用程式,可以與作業系統螢幕互動。AI智慧體的炒作與現實:GPT-4都撐不起,現實任務成功率不到15%

在 Google I/O 大會上,Google 演示了 Gemini 自動處理購物退貨。

圖片

微軟宣佈了 Copilot Studio,它將允許開發人員構建 AI 智慧體機器人。

圖片

這些技術演示令人印象深刻,人們可以拭目以待這些智慧體功能在公開發布並在真實場景中測試時的表現,而不是僅限於精心挑選的演示案例。

AI 智慧體將走向哪條路?

作者強調:「AI 智慧體被過度炒作了,大多數還沒有準備好用於關鍵任務。」

然而,隨著基礎模型和架構迅速進步,他表示人們仍可以期待看到更多成功的實際應用。

AI 智慧體最有前途的前進道路可能是這樣的:

  • 近期的重點應放在利用 AI 增強現有工具,而不是提供廣泛的全自主獨立服務。
  • 人機協同的方法,讓人類參與監督和處理邊緣案例。
  • 根據當前的能力和侷限,設定不脫離現實的期望。

透過結合嚴格約束的 LLMs、良好的評估資料、人機協同監督和傳統工程方法,就可以在自動化等複雜任務方面實現可靠且良好的結果。

對於 AI 智慧體是否會自動化乏味重複的工作,例如網路抓取、填表和資料錄入?

作者:「是的,絕對會。」

那 AI 智慧體是否會在沒有人們干預的情況下自動預訂假期?

作者:「至少在近期內不太可能。」

原文連結:https://www.kadoa.com/blog/ai-agents-hype-vs-reality

相關文章