Windows 競技場:面向下一代AI Agent的測試集

机器之心發表於2024-10-03
圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

Copilot 和 ChatGPT 這樣的 AI 助手已經成為了百萬使用者的日常工具, 它們可以幫我們完成各種任務:寫程式碼開發程式、 回答問題、 甚至研究創新食譜。那麼,隨著大語言模型的發展,未來的 AI 助手應該是什麼樣的呢?未來的 AI 模型的能力將不僅侷限於邏輯推理,它還應該具備自主計劃和行動的能力。未來的 AI 助手 – AI Agent(Assistant)可以在 PC 上進行自主操作,進一步提高我們的生產力;它還能幫我們降低使用專業軟體的門檻;最重要的是,它可以替我們完成複雜繁瑣的任務,例如假期規劃、文件編輯、填寫報銷申請等等。

在微軟,我們正在為下一代 AI Computer Agent 的研發奠定基礎。在此之前,我們必須找到一個可重複、穩定、高質量的測試集(Benchmark)。為此,我們開發並開源了 Windows 競技場:Windows Agent Arena (WAA) —— 一個基於 windows 作業系統的 Agent 測試集。WAA 可以讓研究人員更方便地開發、測試和比較不同 Agent 和模型的優劣。WAA 包含一系列基於 windows 常見的應用程式的任務,並以此來評估不同 AI Computer Agent 在現實作業系統上執行不同任務時的表現。

圖片

  • 論文標題:Windows Agent Arena: Evaluating Multi-Modal OS Agents at Scale

  • 論文地址:https://arxiv.org/abs/2409.08264

  • 專案地址:https://github.com/microsoft/WindowsAgentArenaWindows 競技場:面向下一代AI Agent的測試集

什麼是 AI Computer Agent?

AI Computer Agent 可以被譯為 AI 計算機助理。我們通常認為 Agent 是能感知其環境、並對其進行推理,甚至採取行動的系統。而 Computer Agent 則意味著能理解當前的螢幕上的內容,然後自主點選、輸入和操作可以幫助使用者完成任務的應用程式。一個 AI Computer Agent 需要能支援多模態輸入,並且能使用大語言模型和視覺模型來理解螢幕上的內容並與其進行互動。

Windows Agent Arena 測試集 (WAA)

圖片

圖 1 Windows Agent Arena 概覽

目前許多公司和科研人員都在探索能夠代替人類完成任務的 AI Agent。例如,微軟最近釋出的 UFO 模型是一個能夠控制 Windows UI 的代理。另外,目前業界也已經存在一些針對 Agent 的 Benchmark,比如基於網路任務 Visual Web Arena、移動裝置 Android World 和計算機 OS World 的 Benchmark。

圖片

圖 2 WAA 任務分類

我們提出的 WAA 將進一步擴充套件 OS World 提出的 Benchmark。由於 OS World 主要包含 Linux 系統的任務,而缺乏 windows 平臺上的任務,我們針對 Windows 平臺上的任務進行了擴充套件。我們一共設定了 154 個使用者在 Windows 上日常會涉及到的任務,包括瀏覽器、文件管理器、影片播放、編寫程式碼和常用的應用程式(記事本、畫圖、檔案瀏覽器、時鐘和設定)等。

圖片

圖 3 在 azure 雲上部署 WAA

WAA 的另一個特點是支援雲上並行測試。這樣,測試數百個任務無需花費大量時間在本地序列,而是可以使用 Azure 雲來並行部署數百個實驗,從而將測試時間從幾天縮短至幾分鐘。

使用 Windows Agent Arena 非常簡單:你只需 clone 我們的程式碼,在本地簡單測試,然後直接部署到雲上。

目前的 Agent 能做什麼?

圖片

圖 4 基於不同模型的 Agent 在 WAA 上表現

我們的技術報告對比了基於不同大模型的 Computer Agent 的能力。除了大模型之外,我們使用了小型的視覺模型,例如微軟開發的 Omniparser 模型, OCR 等等來解析螢幕截圖、 識別圖示和影像區域。然後,我們將預處理的資訊傳送到 GPT-4V(或者 GPT-4O, Phi-3V),從而得到下一步在計算機上需要執行的命令。在我們測試的模型中,最好的 Agent 解決了 19.5% 的任務(任務部分完成沒有得分);而一個人在沒有外部幫助的情況下得分為 74.5%。我們發現各個任務類別之間的差異很大:大約三分之一的瀏覽器、設定和影片任務能被成功完成,而大部分 Office 任務都以失敗告終。現階段,Agents 仍然會有很多缺陷,例如我們也發現了由於在執行低階動作或推理時出錯導致的情況。Windows 競技場:面向下一代AI Agent的測試集

成功案例Windows 競技場:面向下一代AI Agent的測試集

失敗案例

當我們設計和改進在計算機上執行復雜任務的 AI Agent 時,符合倫理規範和負責任的 AI 使用至關重要。從一開始,我們的團隊就意識到這些技術可能帶來的潛在風險和挑戰。

隱私和安全是最重要的關注點。當研究開發和測試這些模型時,我們必須確保 AI Agent 不參與任何形式的未經授權的訪問或個人資訊的資訊洩露,從而最大限度地減少潛在的安全風險。我們相信,使用者應該能夠輕鬆地理解、指導和在必要時覆蓋 AI 的行動。

當我們繼續在這個充滿機會與挑戰的領域開發和探索,我們會始終致力於構建尊重使用者隱私、促進公平並對社會產生積極影響的 AI 技術。

相關文章