手機「自動駕駛」大揭秘!vivo萬字綜述探討大模型手機自動化

机器之心發表於2025-01-07
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

1. 導言

你是否想過,手機能像電影鋼鐵俠中的智慧管家賈維斯那般,一句話就能順暢自如地完成各種複雜任務。

最近國內外的手機廠商和 AI 公司紛紛釋出了手機 AI 智慧體相關產品,讓曾經的幻想逐漸有了可行性。

vivo 作為行業領跑者,在十月的開發者大會上推出了其手機智慧體產品 “PhoneGPT",能幫使用者實現一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館並透過 AI 實現電話預定包廂,被網友們稱作 “i 人救星”。
圖片
圖 1 vivo PhoneGPT訂座(藍心小V對話或小V主介面下滑探索-智慧體廣場體驗)

與此同時,各大廠家似乎提前約好一樣,都瞄準了一句話訂咖啡的場景,頗有當年賈伯斯使用初代 iPhone 訂星巴克的即視感。更有坊間戲稱,今年秋天第一杯咖啡是手機智慧體幫你點的。
圖片
圖 2 vivo PhoneGPT訂咖啡(藍心小V對話或小V主介面下滑探索-智慧體廣場體驗)

儘管行業發展迅速,最近關於手機 AI 智慧體的論文井噴,相關技術路線迭代發展迅速,但這一領域仍缺少系統性的綜述。此次 vivo AI Lab 聯合香港中文大學 MMLab 等團隊釋出了 “大模型驅動的手機 AI 智慧體” 綜述論文,該論文長達 48 頁,覆蓋 200 餘篇文獻,對基於大模型的手機自動操作智慧體相關技術展開了全面且深入的研究,希望給學界和產業界作為參考,共同推進行業發展。
圖片
  • 論文標題:LLM-Powered GUI Agents in Phone Automation: Surveying Progress and Prospects
  • 論文地址:https://www.preprints.org/manuscript/202501.0413/v1

1.1 研究背景

  • 手機 GUI 自動化旨在透過程式設計模擬人類與手機介面的互動,以完成複雜任務,傳統方法包括自動化測試、快捷指令和機器人流程自動化(RPA),但存在通用性、靈活性、維護成本、意圖理解和螢幕感知等方面的挑戰。
  • 大語言模型(LLM)的出現為手機自動化帶來了新的正規化,基於 LLM 的手機 GUI 智慧體能夠理解自然語言指令,感知介面並執行任務,有望實現更智慧、自適應的自動化操作。

1.2 研究目的

  • 系統總結 LLM 驅動的手機 GUI 智慧體的研究成果,包括框架、模型、資料集和評估方法。
  • 分析 LLM 在手機自動化中的應用現狀,探討其優勢和麵臨的挑戰。
  • 指出未來研究的方向,為相關領域的研究人員和從業者提供參考。

1.3 主要貢獻
圖片
圖 3 大模型驅動的手機 GUI 智慧體文獻分類

  • 對 LLM 驅動的手機 GUI 智慧體進行全面系統的綜述,涵蓋發展軌跡、核心技術和應用場景。
  • 提出多視角的方法論框架,包括框架設計、模型選擇與訓練、資料集與評估指標。
  • 深入分析 LLM 賦能手機自動化的原因,探討其在自然語言理解、推理和決策等方面的優勢。
  • 介紹和評估最新進展、資料集和基準,為研究提供資源支援。
  • 識別關鍵挑戰並提出未來研究的新視角,如資料集多樣性、裝置端部署效率和安全問題。

2. 手機自動化的發展歷程

2.1 LLM 時代之前的手機自動化

  • 自動化測試:為解決手機應用複雜度增加帶來的測試難題,經歷了從隨機測試到基於模型的測試、基於學習的測試,再到強化學習測試的發展,但仍面臨測試覆蓋範圍、效率、成本和模型泛化能力等挑戰。
  • 快捷指令:如 Tasker 和 iOS Shortcuts,透過預定義規則或觸發條件實現任務自動化,但範圍和靈活性有限。
  • 機器人流程自動化(RPA):在手機上模擬人類執行重複性任務,但在處理動態介面和指令碼更新方面存在困難。

2.2 傳統方法的挑戰

  • 通用性有限:傳統方法針對特定應用和介面,難以適應不同應用和動態環境,缺乏靈活性和上下文適應能力。
  • 維護成本高:編寫和維護自動化指令碼需要專業知識,且隨著應用更新,指令碼需頻繁修改,耗時費力,入門門檻高限制了使用者使用。
  • 意圖理解能力差:基於規則和指令碼的系統只能執行預定義任務,難以理解複雜自然語言指令,無法滿足使用者多樣化需求。
  • 螢幕 GUI 感知能力弱:傳統方法難以準確識別和互動不同應用中的各種 GUI 元素,對動態內容和複雜介面的處理能力有限。

2.3 LLM 推動手機自動化
圖片
圖 4 大模型驅動的手機 GUI 智慧體發展里程碑

  • 發展歷程與里程碑:LLM 在手機自動化中的應用不斷演進,透過自然語言理解、多模態感知和推理決策能力的提升,逐步實現更復雜任務的自動化。

  • LLM 解決傳統挑戰的方式

  • 上下文語義理解:從大量文字語料庫學習,理解複雜語言結構和領域知識,準確解析多步驟命令。
  • 螢幕 GUI 多模態感知:利用多模態感知能力,統一文字和視覺感知資訊,實現對螢幕元素的準確定位和互動。
  • 推理和決策制定:基於語言、視覺上下文和歷史互動進行復雜推理、多步驟規劃和上下文感知適應,提高任務執行成功率。

2.4 新興商業應用

  • Apple Intelligence:2024 年 6 月推出,整合 AI 能力到 iOS、iPadOS 和 macOS,透過智慧總結、優先順序通知和上下文感知回覆增強通訊、生產力和專注功能,保障使用者隱私和安全。
  • vivo PhoneGPT:2024 年 10 月推出,OriginOS 5 作業系統中的個人 AI 助手,具備自主拆解需求、主動規劃路徑、實時環境識別和動態反饋決策的能力,能幫使用者實現一句話點咖啡、訂外賣、甚至能夠一句話找到最近的私房菜館並透過 AI 實現電話預定包廂等任務。
  • Honor YOYO Agent:2024 年 10 月釋出,適應使用者習慣和複雜指令,透過語音或文字命令自動化多步驟任務,如購物比價、自動填表、定製飲品和會議靜音,提升使用者體驗。
  • Anthropic Claude Computer Use:2024 年 10 月推出 Claude 3.5 Sonnet 模型的 Computer Use 功能,使 AI 智慧體能像人類一樣操作計算機,觀察螢幕、移動游標、點選按鈕和輸入文字,改變人機互動正規化。
  • Zhipu.AI AutoGLM:2024 年 10 月推出,透過簡單命令模擬人類操作智慧手機,如點贊評論、購物、訂票和點餐,能導航介面、解讀視覺線索並執行任務,展示 LLM 驅動的手機自動化在商業應用中的潛力。

3. 手機 GUI 智慧體框架

3.1 基本框架
圖片
圖 5 大模型驅動的手機 GUI 智慧體基礎框架

  • 感知模組
  • UI 資訊:包括 UI 樹(如 DroidBot - GPT 將其轉換為自然語言句子)、截圖(如 AutoUI 依賴截圖進行 GUI 控制)、Set - of - Marks(用於標註截圖,如 MM - Navigator)和 Icon & OCR 增強(如 Mobile - Agent - v2 整合 OCR 和圖示資料)。
  • 手機狀態:如鍵盤狀態和位置資料,用於上下文感知操作。

  • 大腦模組
  • 儲存:包括記憶(如記錄歷史螢幕任務相關內容)和知識(來自預訓練知識、領域特定訓練和知識注入)。
  • 決策制定:包括規劃(如 Mobile - Agent - v2 的規劃智慧體生成任務進度)、推理(可以利用 Chain - of - thought 增強推理能力)和反思(如 Mobile - Agent - v2 的反思智慧體評估決策並調整)。

  • 行動模組:透過執行觸控互動、手勢操作、輸入文字、系統操作和媒體控制等型別的動作,實現與手機 UI 和系統功能的互動,確保決策轉化為裝置上的實際操作。
3.2 多智慧體框架
圖片
圖 6 多智慧體框架分類

  • 角色協調多智慧體框架(Role-Coordinated Multi-Agent Framework):如 MMAC - Copilot 中多個具有不同功能的智慧體協作,包括規劃、決策、記憶管理、反思和工具呼叫等,透過預定義工作流程共同完成任務。
  • 基於場景的任務執行框架(Scenario-Based Task Execution Framework):如 MobileExperts 根據特定任務場景動態分配任務給專家智慧體,每個智慧體可以具有針對特定場景(如購物、編碼、導航)的能力,提高任務成功率和效率。

3.3 計劃 - 然後 - 行動框架(Plan-Then-Act Framework)

  • 如 SeeAct、UGround、LiMAC 和 ClickAgent 等工作展示了該框架的有效性,透過先生成動作描述,再根據動作描述定位到要操作的控制元件位置,提高了任務執行的清晰度、可靠性和適應性,允許獨立改進規劃和 UI 定位模組。

4. 用於手機自動化的大語言模型
圖片
圖 7 模型分類

4.1 提示工程(Prompt Engineering)
圖片
圖 8 提示詞設計

  • 純文字提示詞(Text-Based Prompt):主要架構為單文字模態 LLM,透過解釋 UI 樹資訊進行決策,如 DroidBot - GPT、Enabling Conversational 等,在不同應用中有一定進展,但存在對螢幕的全域性資訊理解利用不足等問題。
  • 多模態提示詞(Multimodal Prompt):多模態大語言模型(MLLM)整合視覺和文字資訊,透過截圖和補充 UI 資訊進行決策,包括基於 SoM 輸出索引方法(如 MM - Navigator、AppAgent)和直接座標輸出方法(如 VisionTasker、Mobile - Agent 系列),提高了準確性和魯棒性,但在 UI 定位準確性方面仍面臨挑戰。

4.2 基於訓練的方法(Training-Based Methods)

  • GUI 任務專用模型架構(Task Specific Model Architectures)

  • 通用目的:如 Auto - GUI、CogAgent、ScreenAI、CoCo - Agent 和 MobileFlow 等,旨在增強直接 GUI 互動、高解析度視覺識別、全面環境感知和條件行動預測能力,以應對不同應用和介面的任務。
圖片
圖 9 不同的 UI 理解任務

  • 特定領域:專注於螢幕理解任務,包括 UI 定位(如 LVG、UI - Hawk)、UI 引用(如 Ferret - UI、UI - Hawk)和螢幕問答(如 ScreenAI、WebVLN、UI - Hawk),透過特定技術提升智慧體在複雜使用者介面中的互動能力。

  • 監督微調(Supervised Fine-Tuning)

  • 通用目的:透過在特定任務資料集上微調,增強模型在 GUI 定位、OCR、跨應用導航和效率等方面的能力,如 SeeClick、GUICourse、GUI Odyssey 和 TinyClick 等工作。
  • 特定領域:應用於特定任務,如 ReALM 解決參考解析度問題,IconDesc 用於生成 UI 圖示替代文字,提高了模型在特定領域的效能。

  • 強化學習(Reinforcement Learning)

  • 手機智慧體:如 DigiRL、DistRL 和 AutoGLM,透過強化學習訓練智慧體適應動態手機環境,提高決策能力和成功率,AutoGLM 還實現了跨平臺應用。
  • 網頁智慧體:ETO、Agent Q 和 AutoWebGLM 利用強化學習使智慧體適應複雜網頁環境,透過學習互動和改進決策,提高在網頁導航和操作任務中的效能。
  • Windows 智慧體:ScreenAgent 透過強化學習使智慧體在 Windows 環境中與真實計算機螢幕互動,完成多步驟任務,展示了在桌面 GUI 自動化中的潛力。

5. 資料集和基準

5.1 相關資料集
圖片
表1 資料集

  • 早期資料集:如 PixelHelp 將自然語言指令對映到 UI 動作,UIBert 透過預訓練提升 UI 理解,Meta - GUI 收集對話與 GUI 操作痕跡,UGIF 解決多語言 UI 指令跟隨問題,MoTIF 引入任務可行性和不確定性。
  • 大規模資料集:Android In The Wild(AITW)和 Android In The Zoo(AITZ)提供大量裝置互動資料,GUI Odyssey 用於跨應用導航訓練和評估,AndroidControl 研究資料規模對智慧體效能的影響,AMEX 提供詳細註釋增強智慧體對 UI 元素的理解。

5.2 基準
圖片
表 2 Benchmarks

  • 評估方法(Evaluation Pipelines):MobileEnv 提供通用訓練和評估平臺,AndroidArena 評估 LLM 智慧體在複雜 Android 環境中的效能,LlamaTouch 實現移動 UI 任務的裝置端執行和評估,B - MoCA 評估不同配置下的移動裝置控制智慧體,AndroidWorld 提供動態可引數化任務環境,MobileAgentBench 為移動 LLM 智慧體提供高效基準,AUITestAgent 實現自動 GUI 測試,AndroidLab 提供系統框架和基準。

  • 評估指標(Evaluation Metrics)

  • 任務完成指標:如任務完成率、子目標成功率和端到端任務完成率,評估智慧體完成任務的有效性。
  • 行動執行質量指標:包括行動準確性、正確步驟、正確軌跡、操作邏輯和推理準確性,衡量智慧體行動的精確性和邏輯性。
  • 資源利用和效率指標:如資源消耗、步驟效率和反向冗餘比,評估智慧體資源利用效率。
  • 任務理解和推理指標:如 Oracle 準確性、點準確性、推理準確性和關鍵資訊挖掘能力,考察智慧體的理解和推理能力。
  • 格式和合規性指標:驗證智慧體輸出是否符合格式約束。
  • 完成意識和反思指標:評估智慧體對任務邊界的識別和學習能力。
  • 評估準確性和可靠性指標:確保評估過程的一致性和可靠性。
  • 獎勵和整體效能指標:如任務獎勵和平均獎勵,綜合評估智慧體效能。

6. 挑戰與未來方向

6.1 資料集開發與微調可擴充套件性

  • 現有資料集缺乏多樣性,未來需開發大規模、多模態且涵蓋廣泛應用、使用者行為、語言和裝置型別的資料集。
  • 解決微調在域外效能方面的挑戰,探索混合訓練方法、無監督學習、遷移學習和輔助任務,以減少對大規模資料的依賴。

6.2 輕量級和高效的裝置端部署

  • 克服移動裝置在計算和記憶體方面的限制,採用模型剪枝、量化和高效 transformer 架構等方法,如 Octopus v2 和 Lightweight Neural App Control 的創新。
  • 利用專門硬體加速器和邊緣計算解決方案,減少對雲的依賴,增強隱私保護並提高響應速度。

6.3 使用者中心適應:互動與個性化

  • 提高智慧體對使用者意圖的理解能力,減少手動干預,支援語音命令、手勢和持續學習使用者反饋。
  • 實現智慧體的個性化適應,透過整合多種學習技術,使其快速適應新任務和使用者特定上下文,無需大量重新訓練。

6.4 模型定位、推理等能力提升

  • 改進語言指令到 UI 元素的精確對映,整合先進視覺模型、大規模註釋和有效融合技術,提升多模態定位能力。
  • 增強智慧體在複雜場景中的推理、長程規劃和適應性,開發新架構、記憶體機制和推理演算法,超越當前 LLM 能力。

6.5 標準化評估基準

  • 建立統一的基準,覆蓋多種任務、應用型別和互動模態,提供標準化指標、場景和評估協議,促進公平比較和全面評估。

6.6 確保可靠性和安全性

  • 開發強大的安全協議、錯誤處理技術和隱私保護方法,防範對抗攻擊、資料洩露和意外行為,保護使用者資訊和信任。
  • 實施持續監測和驗證過程,實時檢測和緩解風險,確保智慧體行為可預測、尊重隱私並在各種條件下保持穩定效能。

7. 總結

  • 綜述了 LLM 驅動的手機自動化技術發展,包括多種框架(單智慧體、多智慧體、計劃 - 然後 - 行動)、模型方法(提示工程、基於訓練)和資料集 / 基準。
  • 分析了 LLM 在提升手機自動化效率、智慧性和適應性方面的作用,以及面臨的挑戰和未來發展方向。
  • 強調了標準化基準和評估指標對推動領域發展的重要性,有助於公平比較不同模型和方法。

展望未來,隨著模型架構改進、裝置端推理最佳化和多模態資料整合,基於大模型的手機 GUI 智慧體有望在複雜任務中實現更高自主性,融合更多 AI 正規化,為使用者提供無縫、個性化和安全的體驗。

相關文章