AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本論文的主要作者 Chaoyun Zhang、Shilin He、Liqun Li,Si Qin 等均來自 Data, Knowledge, and Intelligence (DKI) 團隊,為微軟 Windows GUI Agent UFO 的核心開發團隊的成員。
圖形使用者介面(Graphical User Interface, GUI)作為數字時代最具代表性的創新之一,大幅簡化了人機互動的複雜度。從簡單的圖示、按鈕、視窗到複雜的多應用工作流程,GUI 為使用者提供了直觀、友好的操作體驗。然而,在自動化和智慧化升級的過程中,傳統的 GUI 操控方式始終面臨諸多技術挑戰。以往的指令碼化或規則驅動方法在特定場景下確實有所幫助,但隨著現代應用環境的日益複雜和動態化,它們的侷限性愈發凸顯。
近年,人工智慧與大語言模型(Large Language Models, LLMs)的快速發展為此領域帶來了變革性機遇。
近日,微軟研究團隊釋出了一篇長達 80 頁、逾 3 萬字的綜述論文《Large Language Model-Brained GUI Agents: A Survey》。這份綜述系統梳理了大模型驅動的 GUI 智慧體在現狀、技術框架、挑戰與應用等方面的研究進展。論文指出,透過將大語言模型(LLMs)與多模態模型(Visual Language Models, VLMs)相結合,GUI 智慧體可以根據自然語言指令自動操作圖形介面,並完成複雜的多步驟任務。這一突破不僅超越了傳統 GUI 自動化的固有瓶頸,更推動了人機互動方式從「點選 + 輸入」向「自然語言 + 智慧操作」的躍遷。
連結:https://arxiv.org/abs/2411.18279過去數十年中,GUI 自動化技術主要依靠兩大途徑:- 指令碼化方法:如 Selenium、AutoIt 等工具依賴預先編寫的固定指令碼,以模擬點選、輸入等操作。這類方法適用於相對穩定的介面和流程,但當介面頻繁更新或佈局動態變化時,指令碼易失效且維護成本高。
- 規則驅動方法:根據預設規則識別 GUI 元件(如按鈕、輸入框)並執行相應操作。這類方法缺乏靈活性,難以應對複雜或非標準化的工作流程。
這些傳統方法在面對高度動態、跨應用的複雜任務時顯得力不從心。例如:- 如何讓自動化系統理解網頁內容並從中提取使用者所需的關鍵資訊?
- 如何適應不同裝置、作業系統上的多樣化 GUI 介面?
微軟的綜述指出,大語言模型(LLM)在解決上述問題中發揮著關鍵作用,其優勢主要體現在以下三個方面:以 GPT 系列為代表的大模型擁有出色的自然語言理解與生成能力。它們能夠將使用者簡單直觀的指令(如「開啟檔案,提取關鍵資訊,然後傳送給同事」)自動解析為一系列可執行的操作步驟。透過多步推理(Chain-of-Thought)和任務分解,智慧體可逐步完成極為複雜的流程。引入多模態技術後,視覺語言模型(VLM)可處理文字與視覺資訊。透過分析 GUI 截圖或 UI 結構樹,智慧體可以理解介面元素(按鈕、選單、文字框)的佈局和含義。這為智慧體提供了類似人類的視覺理解能力,使其能夠在動態介面中執行精準操作。如自動在網頁中定位搜尋欄並輸入關鍵詞,或在桌面應用中找到特定按鈕進行復制、貼上操作。相較傳統指令碼方法,使用大模型的 GUI 智慧體能對實時反饋做出響應,並動態調整策略。當介面狀態變化或出現錯誤提示時,智慧體可以嘗試新的路徑與方案,而不再依賴固定的指令碼流程。在大模型的加持下,GUI 智慧體為人機互動帶來了質變的提升。使用者僅需自然語言指令,智慧體即可完成原本需要繁瑣點選和複雜操作才能達成的目標。這不僅降低了使用者的操作和學習成本,也減少了對特定軟體 API 的依賴,提升了系統通用性。如圖 2 所示,自 2023 年以來,以大模型驅動的 GUI 智慧體為主題的研究層出不窮,逐漸成為前沿熱點。微軟的綜述指出,一個大模型驅動的 GUI 智慧體通常包括以下關鍵元件,如圖 3 所示:輸入資料包括 GUI 截圖、UI 結構樹、元素屬性(型別、標籤、位置)以及視窗層級資訊。透過 Windows UI Automation、Android Accessibility API 等工具,智慧體可有效捕獲介面資訊。2. 提示工程(Prompt Engineering)智慧體將使用者指令與當前 GUI 狀態相結合,構建輸入提示(Prompt),並利用大語言模型生成下一步操作計劃。例如:「使用者指令 + 介面截圖 + UI 元素屬性」 經過 LLM 處理後,智慧體將輸出明確的操作步驟(點選、輸入、拖拽等)。將構建好的 Prompt 輸入 LLM 後,模型會預測後續的執行動作和計劃步驟。智慧體根據 LLM 輸出的高層指令進行實際操作,如滑鼠點選、鍵盤輸入或觸控操作,從而在網頁、移動應用或桌面系統中完成任務。為應對多步驟複雜任務,GUI 智慧體設計了短期記憶(STM)與長期記憶(LTM)機制,用於跟蹤任務進度和歷史操作,確保上下文的一致性與連貫性。此外,更高階的技術(如基於計算機視覺的 GUI 解析、多智慧體協同、自我反思與進化、強化學習等)也在不斷探索中。這些技術將使 GUI 智慧體日益強大和完善。微軟的綜述已對這些前沿方向進行了詳細論述。GUI 智慧體框架、資料、模型與測評:全面梳理與實踐指南微軟的綜述對該領域的發展路徑進行了系統性總結,涵蓋框架設計、資料採集、模型最佳化和效能測評,為研究者與開發者提供了完整的指導框架。當下 GUI 智慧體的框架設計根據應用場景和平臺特性,可分為:- Web 平臺智慧體:如 WebAgent 與 SeeAct 基於 HTML DOM 或視覺化特徵,執行網頁導航、資料抓取、表單填寫等多步驟操作。
- 移動平臺智慧體:透過 iOS 和 Android 的 Accessibility API 獲取 UI 層級結構,如 AppAgent、AutoDroid 可應對移動端複雜 UI 佈局與多種手勢操作。
- 桌面平臺智慧體:如微軟的 UFO 智慧體,透過分析 Windows、macOS 的 GUI 層級樹和 API 呼叫來模擬鍵鼠操作,完成跨軟體的任務執行。
- 跨平臺智慧體:如 AGUVI,通用框架可適應多種裝置與系統,為跨平臺自動化奠定基礎。這類智慧體具備更強的泛化能力,可自由遷移於不同平臺之間。
這些框架的提出與驗證,為 GUI 智慧體在各類應用場景中落地提供了可能性,併為跨平臺自動化打造了堅實基礎。高效精準的 GUI 操作離不開豐富、真實的資料支撐,包括:- GUI 環境資料:截圖、UI 元素屬性(型別、標籤、位置)、視窗層級資訊等,為智慧體提供視覺與結構化資訊基礎。
- 運算元據:使用者真實互動記錄,如點選、輸入、手勢等,為模型學習人類操作規律提供樣本。
這些資料為訓練與測試提供了基礎,也為領域標準化評估奠定了堅實的根基。圖 4 展示了訓練 GUI agent 的資料採集流程。綜述提出了「大行動模型」(Large Action Model, LAM)的概念,在 LLM 的基礎上進行微調,以解決 GUI 智慧體任務執行中的核心難題:- 高效推理:在海量運算元據上進行微調後,LAM 可快速生成精準的操作指令,降低推理延遲。
- 精確執行:擁有高度泛化能力,可適應不同平臺的 GUI 環境。
- 多步驟任務規劃:支援複雜任務拆解與動態執行,連續完成多項操作,無需預定義指令碼流程。
如圖 5 所示,透過在真實環境中微調 LAM,智慧體在執行效率與適應性上顯著提升。測評是衡量智慧體能力的重要手段。如圖 6 所示,透過觀察智慧體執行任務的軌跡和日誌記錄,可以測評智慧體各方面的能力。主要測評指標主要包括:- 任務完成率:是否準確執行使用者指令並完成特定任務。
- 執行效率:考察完成任務所需時間與步驟,尤其在資源受限硬體上的表現。
- 在特定規則下完成率:測試智慧體在遵循使用者提供的特定規則和策略下完成任務的能力。
領域內已出現一系列標準化 Benchmark,為 GUI 智慧體的效能評價與對比提供了客觀依據和平臺。1. 軟體測試:從繁瑣指令碼到自然語言驅動的智慧探索傳統的軟體 GUI 測試常依賴冗長的指令碼編寫與重複的人工驗證,既費時又容易遺漏關鍵場景。如今,藉助大型語言模型(LLM)賦能的 GUI 智慧體,我們迎來了一場測試領域的革新。這些智慧體不再只是簡單地重複固定指令碼,而是能透過自然語言描述直接生成測試用例,對介面元素進行「自主探索」,並動態應對各種變化的使用者介面。研究顯示(如 GPTDroid、VisionDroid 和 AUITestAgent 等工具所展現的),智慧體可在不需專業軟體工程師深度介入的情況下,高效地捕捉潛在缺陷、追蹤複雜互動路徑,實現從輸入生成、bug 重現到功能驗證的全面自動化測試流程。以字型大小除錯為例,只需一句「請測試系統設定中更改字型大小的流程」,GUI 智慧體便可自主導航介面、模擬使用者點選、滑動選項,並在結果介面中精準確認字型調整是否生效。這樣的自然語言驅動測試不但有效提高測試覆蓋率與效率,即使非技術人員也能輕鬆參與質量保障過程。這意味著軟體產品迭代速度的加快,以及開發與質量保證團隊從重複勞動中解放,從而更專注於創新與最佳化。2. 智慧助手:從被動響應到多平臺、多步驟的全能執行官虛擬助手不再侷限於簡單的鬧鐘設定或天氣查詢。當 LLM 賦能的 GUI 智慧體成為虛擬助手的「大腦」時,我們得到的是一位真正的「多面手」—— 可跨越桌面、手機、Web 瀏覽器和企業應用,以自然語言命令為指引,自動完成從文件編輯、資料表格分析,到複雜手機操作流程的各種任務。這些智慧體不僅能響應指令,還能根據上下文理解使用者需求,並靈活適配不同介面元素。例如,它們可在移動端應用中自主查詢隱藏的功能入口,為新使用者演示如何截圖;或在辦公環境下,將一組跨平臺資料整理後自動生成報告。在這類應用中,使用者不必再為記憶繁瑣的操作步驟煩惱,也不必面對複雜的流程而左右為難,只需以自然語言描述目標,智慧體便能迅速解析上下文、定位介面元件並完成指令。透過持續學習與最佳化,這些智慧助手還能越來越「懂你」,有效提升你的生產力與體驗滿意度。綜上,GUI 智慧體在現實應用中已不僅僅是 “工具”,而更像一位全天候的 “數字助理” 和 “質量專家”。在測試領域,它們為軟體品質保駕護航,大幅降低人力和時間成本;在日常與商務操作中,它們成為跨平臺的多功能幫手,讓使用者能以更直觀、更人性化的方式,與數字世界輕鬆互動。未來,隨著技術的不斷迭代升級,這些智慧體將持續擴充應用邊界,併為各行各業的數字化轉型注入新的活力。儘管 GUI 智慧體前景廣闊,但微軟的綜述也明確指出目前的挑戰所在:- 隱私與安全:智慧體需要訪問使用者介面內容,資料安全與隱私保護亟待完善。
- 推理延遲與硬體受限:大模型推理開銷較大,需在效能與實時性間取得平衡。
- 安全與可信:確保智慧體可靠執行任務,避免誤操作與安全風險。
- 人機協同與互動策略:在複雜任務中平衡使用者與智慧體的決策與執行關係。
- 個性化與定製化:智慧體如何學習使用者偏好和習慣,從而更精確地滿足使用者需求。
- 通用泛化性:面對不同裝置、作業系統與複雜非標準介面元素的適配仍是難題。
展望未來,隨著大語言模型與多模態技術的持續進化,GUI 智慧體將在更多領域落地,為生產力與工作流程帶來深刻變革。大模型的興起為 GUI 自動化開啟了全新空間。當 GUI 智慧體不再僅依賴固化的指令碼與規則,而是藉由自然語言與視覺理解來決策和執行操作時,人機互動方式發生了質的轉變。這不僅簡化了使用者操作,更為智慧助手、自動化測試等應用場景提供了強大支援。隨著技術的不斷迭代與生態的日趨成熟,GUI 智慧體有望成為日常工作與生活中的關鍵工具,讓複雜的操作愈加智慧、高效,並最終引領人機互動走向全新的智慧化時代。