編者按: 未來我們與計算機的互動方式將發生怎樣的變革?當 AI 能像人類一樣自如地操控電腦和手機,我們的工作方式會有什麼改變?
本文深入剖析了 Anthropic、微軟和蘋果三大科技巨頭在突破這一瓶頸上的最新進展。透過解讀他們各自獨特的技術路線 —— 從 Anthropic 採用畫素計數方式實現精準導航,到微軟將介面解析為結構化資料,再到蘋果專注於移動端的多模態互動方案,文章為我們展現了 AI 驅動螢幕互動的未來圖景。
作者 | Tula Masterman
編譯 | 嶽揚
01 引言:AI Agent 領域的持續變革
Anthropic、微軟和蘋果的最新動態正在重塑我們對 AI Agents 的認知。目前,“AI Agent” 這一概念已被廣泛提及 —— 幾乎每一項與人工智慧相關的公告都會涉及 AI Agents,但其先程序度和實用性卻有著天壤之別。
在這個領域的一端,我們看到了一些能夠進行多輪規劃、工具操作和目標評估的先進 AI Agents。它們透過不斷迭代來完成特定任務,甚至能夠建立和利用“記憶(memories)”,從過往的錯誤中吸取教訓,以推動未來的成功。如何打造一個高效的 AI Agents,是當前人工智慧研究的熱點之一。這涉及到探究成功 Agents 應該具備哪些特性(例如,AI Agents 的規劃方式、記憶運用、工具選擇以及任務跟蹤能力)以及如何構建一個高效的 AI Agents 團隊。
而在另一端,是一些執行的任務目的單一、幾乎無需推理的 AI Agents。這些 AI Agents 往往更側重於特定的工作流程(例如,專門負責生成文件摘要並儲存結果的 Agent)。由於這些 Agents 的應用場景較為明確,因此它們通常更容易實現,不需要過多的規劃和跨工具協調,也無需處理複雜的決策問題。
隨著 Anthropic、微軟和蘋果的最新動態不斷髮布,我們目睹了基於文字的 AI Agents 向多模態轉變。這一變化意味著我們可以透過書面或口頭指令來指導 AI Agents,使其能夠流暢地在手機或電腦上執行任務。這一技術有很大的潛力可以提升跨裝置使用的便利性,然而,與此同時,這種技術也伴隨著重大的風險。Anthropic 關於 computer use 技術的相關公告強調了 AI 不受限制訪問使用者螢幕的潛在風險,並提出了一系列降低風險措施,例如在專用的虛擬機器或容器中執行 Claude,將網際網路訪問限制在允許的域名列表中,進行人工干預檢查,並避免讓模型接觸敏感資料。他們還強調,透過 API 提交的內容不會被用於模型訓練。
02 Anthropic、微軟和蘋果最新公告亮點
2.1 Anthropic推出Claude 3.5 Sonnet:賦予人工智慧使用計算機的能力
- 概述:Computer Use 的目標是讓 AI 能夠像人類一樣操作計算機。在理想狀態下,Claude 能夠實現文件的開啟與編輯、點選頁面的各個區域、內容的滾動閱讀,以及命令列程式碼的執行和執行等多種操作。目前,Claude 已能按照人類指令在螢幕上移動游標、點選指定區域,並在虛擬鍵盤上輸入文字。在 OSWorld 基準測試[1]中,Claude取得了 14.9% 的成績,雖然超過了同基準測試中的其他 AI 模型,但與人類 70–75% 的平均得分相比,仍有不小的差距。
- 工作原理:Claude 透過檢視使用者上傳的螢幕截圖,並計算畫素位置來確定游標移動的位置,從而完成指定任務。研究人員提到,為了安全起見,在訓練過程中並未給予 Claude 網際網路訪問許可權,但 Claude 能夠將從使用計算器和文字編輯器等簡單任務的訓練中學習到的知識,應用到更為複雜的任務上。在任務執行失敗時,它還會進行重試。Computer Use 功能包含了三個由 Anthropic 定義的工具:computer、text editor 和 bash。其中,computer 工具用於螢幕上的導航,text editor 用於文字檔案的檢視、建立和編輯,而 bash 則用於執行 bash shell 命令。
- 面臨的挑戰:儘管 Claude 的能力表現良好,但還有很長的路要走。目前,它在頁面滾動、整體穩定性方面存在問題,且對提示詞注入攻擊較為敏感。
- 使用指南:公眾可透過 Anthropic API 體驗公共測試版。Computer Use 功能可以與常規工具結合使用。
2.2 微軟的OmniParser & GPT-4V:讓AI能夠理解和操作螢幕
- 概述:OmniParser 用於解析使用者介面截圖,並將其轉換成結構化的資料輸出。這些輸出可以被傳遞給 GPT-4V 這樣的模型,以便根據檢測到的螢幕元素生成相應的操作動作。在包括專為 Windows 系統設計的 Windows Agent Arena[2] 在內的多種基準測試中,OmniParser 與 GPT-4V 的組合得分約為20%。這些測試任務旨在評估 AI Agents 在規劃、理解螢幕內容和使用工具方面的能力。
- 工作原理:OmniParser 透過整合多個經過微調的模型來解析螢幕內容。它採用了微調後的可互動圖示/區域檢測模型(YOLOv8[3])、圖示描述模型(BLIP-2[4] 或 Florence2[5])以及 OCR 模組。這些模型被用於識別圖示和文字,並在生成內容描述後,將輸出資料傳送給 GPT-4V,由 GPT-4V 決定如何利用這些資訊與螢幕互動。
- 面臨的挑戰:目前,當 OmniParser 檢測到重複的圖示或文字並將其傳遞給 GPT-4V 時,GPT-4V 經常無法正確點選目標圖示。此外,OmniParser 的準確性受 OCR 輸出影響,如果邊界框定位不準確,整個系統可能無法正確點選連結區域。還有,對於某些圖示的理解也存在挑戰,因為同一個圖示有時會被用來表示不同的含義(例如,三個點可能代表載入中,也可能代表選單選項)。
- 使用指南:OmniParser 可在 GitHub[6] 和 HuggingFace[7] 上獲取。您需要安裝必要的依賴項,並從 HuggingFace 載入模型。之後,您可以嘗試執行 demo notebooks,瞭解 OmniParser 如何分析影像。
2.3 蘋果的Ferret-UI:將多模態智慧引入移動端
- 概述:蘋果的 Ferret(任意時間、任意地點、任意粒度下引用和定位任何事物)技術早在 2023 年便已問世。近期,蘋果推出了 Ferret-UI,這是一款 MLLM(多模態大語言模型),能夠在移動裝置端使用者介面上執行“引用、定位和推理”任務。這些任務包括小部件的分類和圖示的識別(引用任務),以及尋找特定圖示或文字(定位任務)。Ferret-UI 能夠理解使用者介面並根據指令進行互動。
- 工作原理:Ferret-UI 在 Ferret 的基礎上進行了最佳化,透過訓練來適應不同解析度的影像,從而更好地掌握移動端使用者介面的細節。每張影像都被分割成兩張子影像,並生成各自的特徵。大語言模型(LLM)結合全影像、兩張子影像、區域特徵和文字嵌入資訊來生成響應。
- 面臨的挑戰:Ferret-UI 的相關論文指出,模型在某些情況下會預測目標附近的文字,而不是目標文字,或者當螢幕上出現拼寫錯誤的單詞時,會預測出正確的單詞,而不是螢幕上顯示的錯誤單詞,有時還會錯誤地識別使用者介面的屬性。
- 使用指南:蘋果在 GitHub[8] 上公開了 Ferret-UI 的資料和程式碼,僅供研究目的使用。蘋果釋出了兩個 Ferret-UI 模型版本,一個基於 Gemma-2b,另一個基於 Llama-3–8B。這些模型遵循 Gemma 和 Llama 的許可協議,而資料集則允許非商業用途。
2.4 總結:AI 驅動螢幕導航的三種策略
總的來說,這些系統分別展示了構建多模態 AI Agents 的不同路徑,它們能夠代表我們與電腦或手機進行互動。
Anthropic 推出的 Claude 3.5 Sonnet 著眼於一般的計算機互動,透過畫素計數來實現螢幕上的精準導航。微軟的 OmniParser 則專注於解決將使用者介面拆分為結構化輸出的難題,隨後這些資訊會被傳遞至 GPT-4V 等模型以決定下一步操作。而蘋果的 Ferret-UI 則是針對移動端使用者介面設計的,它能識別圖示、文字和小部件,並能執行與使用者介面相關的開放式指令。
這三種系統的工作流程一般包括兩個主要階段:一是解析視覺資訊,二是思考如何與之互動。精確解析螢幕內容對於規劃互動方式以及確保系統穩定執行任務至關重要。
03 結語:打造更智慧、更安全的AI Agents
依我之見,這些進步最激動人心的地方在於多模態功能與推理框架正逐步融合。雖然這些工具展現出巨大的潛力,但與人類的表現相比仍有較大差距。此外,在部署能夠訪問螢幕的 AI Agents 系統時,還必須正視和解決一系列 AI 安全方面的問題。
智慧體系統的一大優勢在於它們能夠透過將任務細分為多個部分,從而克服單個模型在認知方面的侷限性。這些系統的構建方式多種多樣。有時候,使用者面前看似單一的智慧體,實際上可能是由多個子智慧體組成的團隊 —— 每個子智慧體擁有不同的職責,比如規劃(planning)、螢幕互動(screen interaction)或記憶儲存管理(memory management)。比如,負責推理的智慧體可能會與專門處理螢幕資料的智慧體協作,同時另一個智慧體則負責整理記憶儲存,以提高未來的表現。
另外,這些功能也可以整合在一個全能的智慧體中。在這種情況下,智慧體可能包含多個內部規劃模組 —— 一個專注於螢幕操作的規劃,另一個則負責整個任務的管理。儘管構建智慧體的最佳方案尚待探索,但我們的目標始終不變:那就是創造出能夠在不同模態下長期穩定工作,並能無間適應使用者需求的智慧體。
Thanks for reading!
Hope you have enjoyed and learned new things from this blog!
END
本期互動內容 🍻
❓如果讓 AI 來操作你的裝置,你最擔心什麼問題?安全、隱私還是其他?
🔗文中連結🔗
[1]https://os-world.github.io/
[2]https://microsoft.github.io/WindowsAgentArena/
[3]https://yolov8.com/
[4]https://arxiv.org/abs/2301.12597
[5]https://arxiv.org/abs/2311.06242
[6]https://github.com/microsoft/OmniParser/
[7]https://huggingface.co/microsoft/OmniParser
[8]https://github.com/apple/ml-ferret/tree/main/ferretui
原文連結:
https://towardsdatascience.com/computer-use-and-ai-agents-a-n...