AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
該技術報告的主要作者 Lu Wang, Fangkai Yang, Chaoyun Zhang, Shilin He, Pu Zhao, Si Qin 等均來自 Data, Knowledge, and Intelligence (DKI) 團隊,為微軟 TaskWeaver, WizardLLM, Windows GUI Agent UFO 的核心開發者。
近年來,大語言模型(Large Language Models, LLMs)的迅猛發展推動了自然語言處理(NLP)領域的技術進步。這些模型在對話生成、文字翻譯、知識問答和程式碼生成等任務中展現出卓越的效能。
然而,儘管 LLMs 可以透過語言生成為使用者提供資訊支援,其功能仍侷限於文字層面,無法主動與物理或數字環境互動,或因缺乏領域知識和資料而導致生成的「動作」效果不佳。這種「語言 - 行動斷層」阻礙了人工智慧(AI)在許多實際場景中的廣泛應用。
為解決這一核心問題,微軟團隊首次提出了一種完整的方法體系,詳盡描述了在無直接可用資料的情況下如何從零開始訓練一個大行動模型(Large Action Model, LAM),並將其逐步構建為可在真實環境中完成任務的智慧體。
這一工作為 LAM 模型訓練的奠定了基礎,還為 AI 從被動語言生成向主動行動生成的轉變提供了新思路。
技術報告連結:Large Action Models: From Inception to Implementation 資料處理程式碼連結:https://github.com/microsoft/UFO/tree/main/dataflow 完整的技術文件連結:https://microsoft.github.io/UFO/dataflow/overview/
從語言到行動的必要演化
LLMs 的侷限性
傳統 LLMs,如 OpenAI 的 GPT 系列和 Mistral-7B,能夠生成富有邏輯性和創意的文字內容,廣泛應用於問答系統、程式碼補全、文案生成等任務中。然而,當使用者的需求超越語言生成層面,例如操作軟體、完成複雜的工作流程或直接操控物理裝置時,這些模型便暴露出明顯的不足。
這一侷限性源於 LLMs 的設計初衷:它們被最佳化用於生成語言內容,而非執行行動。雖然 LLMs 在任務規劃和意圖理解方面表現出色,但它們缺乏行動生成所需的任務分解、環境互動和多步執行能力。
LAM(大行動模型)具備三大特性:
使用者意圖理解,能從多種輸入(語言、語音、影像等)中準確解析意圖並轉化為具體可執行計劃; 行動生成能力,可根據環境將使用者需求轉化為 GUI 操作、API 呼叫、物理動作等多種形式的具體步驟; 動態規劃與適應,能夠分解複雜任務,靈活應對環境變化,實時調整計劃以完成目標。這些特性使 LAM 在複雜任務執行中表現出色。
圖 1:從 LLM 到 LAM 的演化
從 LLMs 到 LAMs 的挑戰
如圖 1 所示,構建 LAMs 的核心挑戰在於如何將模型從一個被動的文字生成器轉變為能夠在真實環境中執行復雜任務的主動行動生成器。這一轉變不僅需要重新定義模型能力,還涉及從資料、訓練方法到評估方式的全面革新:
資料積累的難題
資料獲取是訓練 LAM 的最大挑戰。LAM 需要大量任務 - 行動對資料來學習如何在不同環境中執行操作。然而,這類資料在實際應用中往往難以獲取或批次收集。
模型訓練的重大轉化
LAM 的開發需要從僅生成文字的 LLMs 轉化為具備任務規劃、動態執行和調整能力的模型。這不僅需要對模型架構進行深度改造,還需要採用全新的訓練方法,以賦予模型行動生成與環境適配的能力。
離線評估的侷限性
在靜態、受控環境中測試 LAM 的效能是必要的一步,用以驗證其基礎能力。然而,僅止步於離線評估無法真實反映模型在實際複雜場景中的表現。
環境適配與線上評估的複雜性
LAM 需要實時與複雜、多樣的數字或物理環境互動。這要求模型具備動態適應性,能夠根據實時反饋調整行動。此外,在真實環境中進行線上評估,測試 LAM 的準確性、效率和任務完成效果,是驗證其實際效能的關鍵環節。
針對上述挑戰,微軟團隊首次提出並實現了一套完整的從 0 到 1 訓練 LAM 模型的流程,涵蓋了從資料積累、模型訓練到實際部署的所有步驟。
該團隊的方法不僅解決了「無資料」的初始瓶頸,還透過逐步迭代的方式,讓模型從簡單的任務規劃能力成長為具備複雜行動生成能力的智慧體。這一研究填補了現有領域的空白,為 LAMs 的開發提供了首個實踐範例。
資料積累
從無到有構建 LAM 的第一步
在訓練 LAM(大行動模型)時,資料積累是關鍵。與 LLMs(大語言模型)訓練需要大量文字資料類似,LAM 的開發依賴高質量的任務 - 行動資料。
然而,這類資料在實際應用中非常稀缺,特別是領域專屬和可執行的資料。為了克服這一瓶頸,該團隊設計了一套從無到有的資料收集與處理流程,分為兩大階段:任務 - 計劃資料收集和任務 - 行動資料收集。
圖 2:任務 - 計劃資料的收集過程
階段一:任務 - 計劃資料收集
如圖 2 所示,任務 - 計劃資料以使用者請求為起點,生成任務描述及其對應的詳細操作步驟。該團隊從多種開源資源中收集任務 - 計劃對,包括應用幫助文件(如 Microsoft Word 的幫助頁面)、WikiHow 任務教程,以及使用者的搜尋查詢記錄。
透過這些來源,該團隊構建了包含 76,672 對任務與計劃的初始資料集,其中 29,182 對是直接獲取的,47,490 對透過資料擴充套件技術生成。
此外,他們採用資料增強技術生成更多工 - 計劃對。透過 GPT-4o 演化原始任務,增加複雜性和約束條件,同時生成相應的計劃,擴充套件資料集規模至原來的 150%。例如,「在 Excel 中建立下拉選單」被演化為「建立依賴下拉選單,並根據第一列選擇過濾第二列內容」,從而提高模型對複雜任務的適應能力。
圖 3:任務 - 行動資料收集過程
階段二:任務 - 行動資料收集
任務 - 計劃資料雖然用於高層次規劃,但不能直接執行。如圖 3 所示,為填補從規劃到執行的差距,該團隊透過以下步驟生成任務 - 行動資料:
1. 例項化任務:利用預定義模板(如 Word 文件樣例),將任務描述具體化,將抽象的計劃步驟轉化為具體的行動序列(如「點選選單欄中的「設計」選項」)。
2. 執行驗證:在真實環境中執行例項化的任務,捕獲執行軌跡和環境反饋,確保行動序列的可操作性和正確性。
3. 評估與後處理:使用 GPT-4o 對執行結果進行驗證,僅保留與任務目標一致的成功軌跡,並記錄詳細後設資料(如環境狀態和執行時間),最終生成結構化的任務 - 行動對。
這一流程最終生成了覆蓋廣泛操作場景的任務 - 行動資料集,為 LAM 訓練提供了精確的行動模板,顯著提升了模型在真實環境中的任務執行能力。
透過兩階段的逐步積累,成功地從「無資料」狀態出發,構建了 LAM 訓練所需的高質量任務 - 行動資料。這一方法不僅解決了資料稀缺問題,還透過引入真實環境互動和動態驗證,確保資料的高效性和適用性,為從 LLMs 到 LAMs 的轉變提供了堅實基礎。
方法:從 0 到 1,逐步構建 LAM
如圖 4 所示,構建 LAM 的過程分為四個階段,涵蓋了從資料積累到模型訓練的完整工作流。
圖 4:LAM 的訓練過程
第一階段:任務計劃預訓練
為了讓模型具備基本的任務規劃能力,首先訓練模型生成任務分解計劃。資料來源為任務 - 計劃資料。模型的目標是根據輸入任務生成正確的任務分解計劃。例如,「在 Word 中插入表格」被分解為「點選插入選單」、「選擇表格選項」、「輸入表格行列數」等步驟。這一階段讓模型掌握了任務分解的基本能力,為後續的行動生成打下了基礎。
第二階段:專家知識學習
儘管第一階段的模型可以生成任務計劃,但仍缺乏執行這些計劃的能力。為此,需要利用收集到的任務 - 行動資料,並透過模仿學習訓練模型執行具體操作。經過訓練,模型從一個被動的計劃生成器轉變為能夠執行計劃的主動行動生成器。
第三階段:自我探索提升
專家資料的覆蓋範圍有限,無法囊括所有可能的任務場景。為此,該團隊設計了自我探索機制,將 LAM 部署在 UFO 中,UFO 是一個開源 GUI Agent 框架,能夠透過互動 Windows 作業系統中的圖形使用者介面(GUI)元素來完成任務。讓 LAM 嘗試完成之前失敗的任務,並從中積累新的成功經驗。
1. 任務挑戰:模型嘗試完成 2,284 個由 GPT-4 未解決的任務,透過動態探索生成可能的成功軌跡。
2. 資料擴充套件:在自我探索中,模型生成了 496 條新成功軌跡,將其與之前的專家資料合併形成擴充套件資料集。
3. 模型迭代:透過再次微調,模型進一步提升了處理複雜任務的能力,增強了對未知環境的適應性。
這一階段實現了從無資料到新資料的自動生成與積累,擴充套件了訓練資料的覆蓋範圍。
第四階段:獎勵模型最佳化
為了進一步提升模型的行動質量,在此引入了獎勵模型(Reward Model, RM),同時利用正負反饋,透過強化學習最佳化 LAM 的決策能力。
實驗結果
離線實驗結果
表格 1:不同 LAM 訓練階段的離線實驗結果
為了驗證訓練方法的有效性,該團隊在 435 個任務上對不同階段的 LAM 模型進行了離線測試。如表格 1 的實驗結果顯示,LAM 的各階段的訓練都帶來了模型效能提升。
環境適配
圖 5:LAM 智慧體架構
如圖 5 所示,經過訓練的 LAM 模型被整合到 GUI 智慧體 UFO 的 AppAgent 中作為推理引擎,後者充當橋樑,將 LAM 預測的動作「著地」為可執行的實際操作。
線上實驗結果
表格 2:LAM 的線上實驗結果
如表格 2 所示,LAM 線上上實驗任務中成功率(TSR)方面表現優異,達到 71.0%,在文字輸入模式下超越了基線模型(GPT-4o 和 GPT-4o Mini)。
效率對比
LAM 在任務完成時間和平均步時延上展現了顯著優勢:
1. 任務完成時間:LAM 完成單個任務平均耗時僅 30.42 秒,相比之下,無視覺輸入的 GPT-4o 耗時 86.42 秒,約為 LAM 的 2.84 倍,而帶視覺輸入的 GPT-4o 耗時更長,為 96.48 秒。
2. 平均步時延:LAM 的每步時延為 5.41 秒,顯著優於無視覺輸入的 GPT-4o(12.84 秒)和帶視覺輸入的 GPT-4o(19.36 秒)。
更多細節,請參閱技術報告原文。