AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
本文共同第一作者為上海交通大學 ACM 班的三年級本科生何彥衡,金嘉禾,兩人均為 GAIR 實驗室成員,指導老師為劉鵬飛副教授。上海交通大學生成式人工智慧實驗室 (GAIR Lab)的主要研究方向為:大模型的複雜推理,大模型預訓練中的資料工程,多模態大模型,以及智慧體。實驗室主頁:https://plms.ai/
想象這樣一個場景:深夜 11 點,你已經忙碌了一天,正準備休息,卻想起明天早上還得分享一篇經典論文《Attention Is All You Need》,需要準備幻燈片。這時,你突然想到了自己的 AI 助手 —— PC Agent。你告訴它演講的要點以及 PPT 要儲存的地方,然後就安心睡去。第二天醒來,一份內容完備、製作精美的 PPT 已經在電腦中準備妥當。
這個聽起來如同科幻的場景,已經被上海交通大學 GAIR 實驗室的研究者們變成了現實!他們提出認知遷移的方法,透過高效收集人類認知軌跡,打造(訓練,非 API 呼叫)了能夠像人類一樣閱讀電腦螢幕,精準操控鍵盤滑鼠,執行長達數十步、跨軟體的複雜生產任務的 PC Agent,標誌著 AI 真正為人類減負的重要一步!Sam Altman 說,比起讓智慧體「訂一家餐廳」,真正有趣的是讓它「諮詢 300 家餐廳」來找到最符合的口味。這樣大量重複性的工作,對 PC Agent 而言也不在話下。比如,它可以一口氣為多點陣圖靈獎得主分別製作海報:
此外,PC Agent 也能輕鬆對標類似 Claude 3.5 Sonnet 的演示任務 —— 展現 “AI 呼叫 AI” 完成工作的巧妙設計。影片展示了它如何為自己創造一個網站:
- 論文標題:PC Agent: While You Sleep, AI Works - A Cognitive Journey into Digital World
- 論文地址:https://arxiv.org/pdf/2412.17589
- 程式碼地址:https://github.com/GAIR-NLP/PC-Agent
近期,Claude 3.5 Sonnet 的升級吸引了整個領域的目光。與 Siri 等依賴後端 API 呼叫的傳統智慧助手不同,它能根據使用者指令,像人一樣操控電腦,解讀計算機螢幕,執行鍵盤滑鼠操作。這種擬人的 GUI 前端互動模式具有高度通用性,賦予 AI 幾乎無限的可能。兩年以來,隨著大語言模型的突破性進展,AI 已經實現了一個又一個里程碑,但依然侷限於對話視窗,而無法邁入真實世界工作。我們需要讓智慧體切實減輕人類的負擔,邁向 OpenAI 通往 AGI 五級目標中的第三級。然而,當下智慧體的電腦使用能力依然遠遜色於人類,並未達到真正能為人類減負的水平,對開源社群來說更是如此。團隊指出了兩個關鍵的技術挑戰:深度的電腦理解認知與精準的視覺定位能力。為了像人類一樣使用電腦,智慧體需要能為滑鼠操作輸出精確的座標,視覺定位 —— 即精準定位元素(如 “最小化” 按鈕)位置的能力,成為了 GUI 互動的基礎。然而,目前絕大多數的視覺語言模型,包括最先進的 GPT-4o,仍缺乏這一基本能力。近期有些研究試圖透過在大規模 GUI 視覺定位資料集上微調模型來解決此問題,但這種辦法往往犧牲了模型的通用能力。即使具備了基礎的視覺定位能力,當前模型依然無法勝任真正複雜的任務。團隊認為,關鍵在於模型缺乏對電腦使用的認知理解。這體現在兩個方面:例如,為了在 PowerPoint 中新增標題,需要先點選文字框再輸入。這對人類來講非常直觀,卻能難倒目前的智慧體。細粒度電腦操作知識的缺乏要求我們從人類認知的角度補充訓練資料,因為 GUI 是為人類而設計的。現有大語言模型展現出強大的能力,但未能完美勝任智慧體工作流的需求,包括在長過程中充分關注上下文,根據變化的環境做出決策,並根據反饋調整策略。雖然提示工程可以在一定程度上彌補這一差距,但實現真正強大的智慧體還需要專門的訓練。認知遷移 (Congition Transfer) 面對認知理解的挑戰,團隊提出人類認知遷移的方法,包括首個高效採集大規模人機互動資料的輕量級工具和從原始互動資料重建背後人類認知的完整流水線。透過開源相關程式碼,團隊希望加速整個社群對數字智慧體的研究進展。具體來說,他們 1)首先採集人類使用電腦的原始操作軌跡,2)然後使用大模型重建無法被採集的人類認知 ,最終得到包含人類認知的互動軌跡(Cognitive trajectory)。透過模仿學習人類認知軌跡,AI 不僅能夠模仿具體的動作,還能學習動作背後人類對電腦使用的認知理解。初步實驗表明,僅在 133 條認知軌跡資料上訓練,PC Agent 就能夠學會執行高達 50 步的複雜任務,極大證明了人類認知遷移方法的高效性。團隊破解了一個阻礙智慧體發展的關鍵瓶頸:訓練資料的稀缺。他們開發了首個高效採集人機互動資料的輕量級工具 —— PC Tracker,旨在透過大規模收集真實人類動作軌跡來應對這一資料挑戰。類似於螢幕錄製,PC Tracker 在後臺執行,透過監控鍵盤和滑鼠的活動來記錄使用者動作,同時捕捉螢幕截圖以記錄狀態觀察。下面是 PC Tracker 採集的軌跡的示例:在桌面上建立一個標題為 “Hello,world” 的幻燈片。具體而言,PC Tracker 具備以下關鍵特性:不同於冗餘的錄屏方案,PC Tracker 僅捕捉關鍵事件 —— 僅當使用者動作發生時,才會觸發記錄,從而減小儲存開銷。PC Tracker 在後臺執行,在持續記錄的同時不會影響使用者體驗。軟體不會記錄可訪問樹,因為爬取過程會引入明顯的延遲,干擾使用者操作。而且隨著視覺語言模型的發展,團隊認為可訪問樹資訊對未來模型不再必要。輕量級採集與無損使用者體驗的設計確保了大規模長期部署的可行性,使得 PC Tracker 支援無限規模的人機互動資料收集。團隊統計表明,一小時的電腦使用即可產生約 2000 個事件,展現出巨大的資料潛力。PC Tracker 支援一個為 AI 設計的統一動作空間,人類原始的離散鍵鼠操作會被合併封裝成如雙擊、輸入(type)等更具語義資訊的動作。PC Tracker 支援任務(task oriented)和無任務 (non-task oriented) 兩種採集模式。無任務模式記錄使用者自由的互動軌跡,非常適合長期、大規模的資料收集;而任務模式記錄使用者完成特定任務的互動軌跡,主要用於監督微調的資料標註。所有記錄資料均在使用者本地儲存並提供 Markdown 視覺化檔案,使用者也可以在採集過程中方便控制記錄的終止以及資料的丟棄,以確保隱私。人類行為是大腦認知活動的外在投射。在使用電腦時,我們的腦中經歷了自然的認知活動過程,包括對歷史進展和當前狀態的分析,作出下一步決策的推理等。這一思考過程蘊含了人類對電腦使用的認知,但大腦活動無法被直接記錄。為此,團隊利用大模型分兩階段對軌跡資料進行認知重建:原始點選動作僅包括數值座標位置,與其他動作(如鍵盤輸入)相比缺乏直接的語義資訊,因此首先進行的處理是點選動作的語義資訊重建。具體而言,這一步為點選的目標生成了自然語言描述,如下圖所示為點選位置 (717, 387) 生成描述 “TripAdvisor 網站上方中部的搜尋框”。利用軌跡資料中的上下文資訊和補全的動作語義,團隊迭代提示大模型生成每步動作背後的思考過程。如圖所示,人類動作 “點選 TripAdvisor 網站上方中部的搜尋框” 背後的思考過程被成功重建:“我想要找艾菲爾鐵塔的高分餐廳,雖然已經檢視了關於 “艾菲爾鐵塔餐廳” 的資訊,但需要擴大搜尋範圍。透過點選搜尋框,我可以輸入一個更廣泛的查詢......”基於對當前智慧體面臨的主要挑戰(視覺定位與認知理解)的深刻理解,團隊分別提出解決方案,打造了一個能夠完成真正複雜任務的 PC Agent:使用 PC Tracker 採集並重建認知後得到的認知軌跡,是訓練智慧體的高質量資料。團隊選擇了 PPT 製作(包括上網收集資源)這一綜合任務作為初步實驗場景,僅在 133 條認知軌跡上訓練以驗證其資料效率。這些軌跡分為自由(使用 Chrome 和 PowerPoint)任務與 PPT 製作任務兩類,動作數量明顯高於現有公開軌跡資料,如下圖所示。團隊發現,Ai2 近期釋出的開源通用視覺語言模型 Molmo,透過引入創新的指令微調資料 Pixmo,展現了良好的視覺定位能力。因此,團隊將其作為視覺定位智慧體的基礎模型。然而,Molmo 仍會偶爾出現定位偏差,而操作電腦時微小的點選錯位也可能導致災難性後果,如不慎關閉瀏覽器 —— 當前的智慧體很難從這些錯誤中恢復。團隊提出了一種創新方法,進一步增強其視覺定位能力,幾乎能達到人類的完美水平:Molmo 可以藉助來自系統介面的外部反饋,自我驗證其視覺定位的準確性。如下圖所示,定位智慧體會先根據點選目標描述生成一個初步的座標,然後從系統介面中獲取該座標對應的元素資訊,判斷是否與目標描述匹配。如不匹配,定位過程將重新進行。在 PC Agent 的初步實現中,為了更好的利用現有模型的能力,團隊採用了一個多智慧體架構。其中,規劃智慧體負責動作決策,視覺定位智慧體負責點選動作執行。值得指出的是,此係統完全基於開源模型構建。具體來說,兩個智慧體如此協作:規劃智慧體首先分析任務並觀察狀態,以作出動作決策。非點選相關動作將被直接執行,而對於點選相關動作,規劃智慧體生成的點選目標描述將被轉發給視覺定位智慧體,由其生成具體座標。如果它發現目標在螢幕上不存在,將提示規劃智慧體重新決策。具體的動作執行將呼叫 pyautogui 函式完成。下圖為一個協作的示例。團隊提出了一種創新的認知遷移框架,包括首個高效採集人機互動資料的工具 PC Tracker 和完整的認知重建過程,並初步驗證了方法的高效性。PC Agent 在 PPT 製作場景下展示了執行復雜長程任務的能力,標誌 AI 真正為人類減負邁出的重要一步。1. 大規模泛化實驗:儘管已在有限的訓練資料下初步實驗,但泛化能力的驗證仍需跨軟體和跨任務的更大規模實驗。2. 長程規劃與魯棒性:OpenAI o1 所展現的推理與自我糾錯能力,為在長序列中實現魯棒操作提供了有力支撐。在面對複雜任務時,如何保持行動與目標的一致性,以及如何建立更加完善的糾錯機制,仍是亟待深入討論的問題。3. 無任務資料的利用:PC Tracker 可以在不限制特定任務的情況下提供近乎無限規模的自然人機互動資料,這些資料包含了豐富的人類一般操作策略與行為偏好資訊,可應用於預訓練、監督微調和強化學習等多個場景。探索有效的方法來利用這些資料是重要而有前景的方向。4. 動作空間最佳化:針對拖拽等複雜滑鼠操作的特殊挑戰,需要開發更精確的空間關係理解機制,並最佳化資料收集策略。5. 複雜任務的評估:當前對數字智慧體的評估基準主要關注基礎任務的成功率。然而,對於像 PPT 製作這樣的真實世界複雜任務,我們需要更加全面的評估框架,不僅關注任務成功率,還要考慮完成質量、專業性等多維度指標。