AI智慧體的炒作與現實：GPT-4都撐不起，現實任務成功率不到15%

机器之心發表於2024-05-28

原文網址 : https://www.jiqizhixin.com/articles/2024-05-28-5

AI 智慧體的宣傳很好，現實不太妙。

隨著大語言模型的不斷進化與自我革新，效能、準確度、穩定性都有了大幅的提升，這已經被各個基準問題集驗證過了。

但是，對於現有版本的 LLM 來說，它們的綜合能力似乎並不能完全支撐得起 AI 智慧體。

多模態、多工、多領域儼然已成為 AI 智慧體在公共傳媒空間內的必須要求，但是在具體的功能實踐中所展現的真實效果卻差強人意，這似乎也再次提醒各個 AI 智慧體初創公司以及大型科技巨頭認清現實：腳踏實地一點，先別把攤子鋪得太大，從 AI 增強功能開始做起。

近日，一篇就 AI 智慧體在宣傳和真實表現上的差距而撰寫的部落格中，強調了一個觀點：「AI 智慧體在宣傳上是個巨人，而現實卻很不妙。」

不可否認的是，自主 AI 智慧體能夠執行復雜任務的前景已經引起極大的興奮。透過與外部工具和功能的互動，LLMs 可以在沒有人為干預的情況下完成多步驟的工作流程。

但現實證明，這比預期的要更具挑戰性。

WebArena 排行榜（一個真實可復現的網路環境，用於評估實用智慧體的效能）對 LLM 智慧體在現實任務中的表現進行了基準測試，結果顯示即使是表現最好的模型，成功率也只有 35.8%。

^{WebArena 排行榜對 LLM 智慧體在現實任務中的表現進行的基準測試結果：SteP 模型在成功率指標上表現最為良好，達到了 35.8%，而知名的 GPT-4 的成功率僅達到了 14.9%。}

什麼是 AI 智慧體？

「AI 智慧體」這個術語並沒有真正被定義，對智慧體究竟是什麼也存在很多的爭議。

AI 智慧體可以定義為「一個被賦予行動能力的 LLM（通常在 RAG 環境中進行函式呼叫），以便在環境中對如何執行任務做出高層次的決策。」

當前，構建 AI 智慧體主要有以下兩種架構方法：

單一智慧體：一個大型模型處理整個任務，並基於其全面的上下文理解做出所有決策和行動。這種方法利用了大型模型的湧現能力，避免了將任務分解所帶來的資訊丟失。
多智慧體系統：將任務分解為子任務，每個子任務由一個更小、更專業的智慧體處理。與嘗試使用一個難以控制和測試的大型通用智慧體相比，人們可以使用許多更小的智慧體來為特定子任務選擇正確的策略。由於上下文視窗長度的限制或不同技能組合的需要等實際約束，這種方法有時是必要的。

理論上，具有無限上下文長度和完美注意力的單一智慧體是理想的。由於上下文較短，在特定問題上，多智慧體系統總是比單一系統效果差。

實踐中的挑戰

在見證了許多 AI 智慧體的嘗試之後，作者認為它們目前仍為時過早、成本過高、速度過慢且不夠可靠。許多 AI 智慧體初創公司似乎在等待一個模型突破，以開啟智慧體產品化的競賽。

AI 智慧體在實際運用中的表現並不夠成熟，這體現在輸出不精確、效能差強人意、成本較高、賠償風險、無法獲得使用者信任等問題：

可靠性：眾所周知，LLMs 容易產生幻覺和不一致性。將多個 AI 步驟連線起來會加劇這些問題，尤其是對於需要精確輸出的任務。
效能和成本：GPT-4、Gemini-1.5 和 Claude Opus 在使用工具 / 函式呼叫方面表現不錯，但它們仍然較慢且成本高，特別是如果需要進行迴圈和自動重試時。
法律問題：公司可能需要對其智慧體的錯誤負責。最近的一個例子是，加拿大航空被命令向一位被航空公司聊天機器人誤導的客戶賠償。
使用者信任：AI 智慧體的「黑箱」性質以及類似示例使得使用者難以理解和信任其輸出。在涉及支付或個人資訊的敏感任務中（如支付賬單、購物等），贏得使用者信任將會很困難。

現實世界中的嘗試

目前，以下幾家初創公司正在涉足 AI 智慧體領域，但大多數仍處於實驗階段或僅限邀請使用：

adept.ai - 融資 3.5 億美元，但訪問許可權仍然非常有限。
MultiOn - 融資情況未知，他們的 API 優先方法看起來很有前景。
HypeWrite - 融資 280 萬美元，起初是一個 AI 寫作助手，後來擴充套件到智慧體領域。
minion.ai - 最初引起了一些關注，但現在已經沉寂，僅有等候名單。

它們中似乎只有 MultiOn 在追求「給出指令並觀察其執行」的方法，這與 AI 智慧體的承諾更為一致。

其他所有公司都在走記錄和重放的 RPA（record-and-replay）路線，這在現階段可能是為保證可靠性所必需的。

同時，一些大公司也在將 AI 功能帶到桌面和瀏覽器，並且看起來將會在系統層面上獲得本地的 AI 整合。

OpenAI 宣佈了他們的 Mac 桌面應用程式，可以與作業系統螢幕互動。 AI智慧體的炒作與現實：GPT-4都撐不起，現實任務成功率不到15%

在 Google I/O 大會上，Google 演示了 Gemini 自動處理購物退貨。

微軟宣佈了 Copilot Studio，它將允許開發人員構建 AI 智慧體機器人。

這些技術演示令人印象深刻，人們可以拭目以待這些智慧體功能在公開發布並在真實場景中測試時的表現，而不是僅限於精心挑選的演示案例。

AI 智慧體將走向哪條路？

作者強調：「AI 智慧體被過度炒作了，大多數還沒有準備好用於關鍵任務。」

然而，隨著基礎模型和架構迅速進步，他表示人們仍可以期待看到更多成功的實際應用。

AI 智慧體最有前途的前進道路可能是這樣的：

近期的重點應放在利用 AI 增強現有工具，而不是提供廣泛的全自主獨立服務。
人機協同的方法，讓人類參與監督和處理邊緣案例。
根據當前的能力和侷限，設定不脫離現實的期望。

透過結合嚴格約束的 LLMs、良好的評估資料、人機協同監督和傳統工程方法，就可以在自動化等複雜任務方面實現可靠且良好的結果。

對於 AI 智慧體是否會自動化乏味重複的工作，例如網路抓取、填表和資料錄入？

作者：「是的，絕對會。」

那 AI 智慧體是否會在沒有人們干預的情況下自動預訂假期？

作者：「至少在近期內不太可能。」

^{原文連結：https://www.kadoa.com/blog/ai-agents-hype-vs-reality}

AI撐起“大安防”引領金融行業實現智慧化發展
2019-12-12
AI行業
微服務框架的實現：舍與不捨
2022-10-24
微服務框架
UCOSIII（1）——SVC與PenSV實現任務切換
2020-10-17
celery 與 flask 實現非同步任務排程
2021-03-08
Flask非同步
CompleteFuture實現簡單的任務編排實踐
2021-10-18
用CompletableFuture實現非同步任務
2019-01-19
非同步
Java如何實現定時任務？
2022-03-25
Java
SpringBoot如何實現定時任務
2021-10-13
Spring Boot
PHP定時執行任務的實現
2019-05-11
PHP
[筆記]laravel定時任務的實現
2021-03-05
筆記Laravel
ES系列(七)：多節點任務的分發與收集實現
2021-06-26
利用AI智慧體實現自動化公開課
2024-07-10
AI智慧體
golang runtime實現多核並行任務
2018-11-01
Golang並行
linux實現一個定時任務
2018-12-10
Linux
基於REDIS實現延時任務
2019-04-12
Redis
使用at和cron實現任務計劃
2018-08-04
基於redis實現定時任務
2019-08-25
Redis
java springboot 實現定時器任務
2020-10-20
JavaSpring Boot定時器
Python如何快速實現分散式任務？
2021-09-09
Python分散式
AsyncTask實現非同步任務執行
2021-09-09
非同步
Linux中如何實現定時任務
2022-11-18
Linux
AI實戰篇：Spring AI + 混元手把手帶你實現企業級穩定可部署的AI業務智慧體
2024-10-18
AISpring智慧體
幾種實現延時任務的方式（一）
2019-03-04
Python實現定時任務的多種方式
2024-08-15
Python
【freertos】004-任務建立與刪除及其實現細節
2022-03-29
智慧提醒助手——基於HarmonyOS Next的多場景後臺任務實現
2024-10-27
【小白學PyTorch】15 TF2實現一個簡單的服裝分類任務
2020-09-29
PyTorchTF2
AI＋智慧交通實現整體升級和協同
2020-11-25
AI
struct 和 interface：結構體與介面都實現了哪些功能？
2021-02-04
Struct結構體
SpringBoot中併發定時任務的實現、動態定時任務的實現（看這一篇就夠了）
2019-04-05
Spring Boot
7.6 實現程式掛起與恢復
2023-09-24
實現一個“計劃任務”機制
2020-10-11
使用Java實現定時任務排程
2024-07-15
Java
Java定時任務實現優惠碼
2024-07-03
Java
Spring Boot 實現定時任務的 4 種方式
2019-04-01
Spring Boot
golang實現簡單的併發任務消費
2018-07-01
Golang
AI攻略：Paddlehub實現人體解析
2020-01-18
AI
GPT-4要革程式設計師的命？智慧開發的理想與現實 | 愛分析調研
2023-04-18
GPT程式設計師

AI智慧體的炒作與現實：GPT-4都撐不起，現實任務成功率不到15%

相關文章