資訊革命產生了數字世界,數字世界為大模型的誕生提供了資料,也最容易實現通用人工智慧(AGI)。向數字世界 AGI 邁進,北京智源人工智慧研究院、新加坡南洋理工大學、北京大學攜手提出通用計算機控制 General Computer Control (GCC),即智慧體需要像人一樣看螢幕,透過鍵盤、滑鼠完成計算機上的所有任務。在過去很長一段時間裡,人工智慧研究以遊戲為場景,而 GCC 將為通用人工智慧研究提供場景,也將進一步促進大模型和 AI Agents 的落地與產業化。為此,研究團隊提出通用計算機控制智慧體框架 Cradle,使智慧體不依賴任何內部 API 直接控制鍵盤、滑鼠和任何軟體互動,無論開源還是閉源,甚至能玩《荒野大鏢客 2》這樣的商業 3A 遊戲大作!- 論文標題:Towards General Computer Control: A Multimodal Agent for Red Dead Redemption II as a Case Study
- 論文連結:https://arxiv.org/abs/2403.03186
- 專案主頁:https://baai-agents.github.io/Cradle/
- 程式碼連結:https://github.com/BAAI-Agents/Cradle
隨著大模型的發展,越來越多的智慧體(AI Agents)研究關注計算機控制,包括瀏覽網頁、操作智慧手機、玩遊戲等。然而,已有研究依賴內部 API 獲取輸入,並輸出預先定義好的動作。要構建能完成計算機上一切任務的通用智慧體,必須使用最通用和最標準的輸入輸出與計算機進行互動。因此,通用計算機控制使用統一的輸入和輸出,從而讓智慧體的通用性變為可能。但通用性帶來了操作上的難度:(1)使用計算機螢幕作為輸入對智慧體的影片理解能力提出了更高的要求,例如由於沒有內部 API,需要透過視覺資訊判斷動作是否執行成功;(2)使用鍵盤和滑鼠操作作為輸出使得智慧體需要更高的時空操作精度,比如鍵盤按鍵和滑鼠點選通常額外涉及時間維度。如何解決這些難題是構建通用計算機控制智慧體 (GCC Agents) 的挑戰!「計算機指任何以使用者為中心的計算裝置,包括 PC、智慧手機和平板電腦等。儘管 Cradle 著重於鍵盤和滑鼠操作,但可以很容易擴充套件到控制手柄和觸控式螢幕等」通用計算機控制智慧體框架 Cradle 主要由 6 個模組組成:資訊收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模組。Cradle 高度的通用性來源於其對和計算機互動過程中的原始輸入輸出的合理封裝和抽象。以從螢幕中顯示的影片作為輸入,提取其中的文字和視覺資訊進行決策,並且輸出底層作業系統中控制鍵盤和滑鼠的訊號去和計算機互動,使得其可以不依賴於任何假設與所有軟體進行互動。「Cradle 主要由資訊收集、自我反思、任務推斷、技能管理、行動計劃以及記憶模組等 6 個模組組成,其強大的決策推理來自於 “反思過去,總結現在,規劃未來”」同時 Cradle 強大的決策推理模組讓其得以自發和軟體進行互動並且完成任務,這個過程可以被簡單地總結為:反思過去,總結現在,規劃未來。- 反思過去:使用執行過往動作過程的影片作為輸入,分別提取出其中關鍵的文字和視覺資訊,透過反思來判斷上一步動作是否執行成功、任務是否完成以及如何改進。
- 總結現在:反思完之後,總結當前情況,並且以此為依據來決定是否更換任務目標或是修改任務內容。
- 規劃未來:最後根據當前任務和現狀生成或者更新技能,並且從已學會的技能中檢索與當前任務相關的技能作為備選,然後從中選取合適的技能例項化為動作去執行。
在決策推理的同時,Cradle 會週期性地總結和維護儲存在情境記憶中的歷史資訊以及儲存在長期記憶中的技能。這一過程的大腦是多模態大模型,如 GPT-4V,但是 Cradle 為其新增了總結、反思以及記憶等功能,形成了完整的面向通用計算機控制的智慧體框架,有效解決了通用性所帶來的難題。為了證明框架的通用性和強大的決策能力,研究團隊選擇將 Cradle 部署到最為困難以及鮮有人探索的的商業 3A 遊戲大作《荒野大鏢客 2》。他們認為作為操作最為困難的軟體,假如 Cradle 能夠在 3A 遊戲上自由探索甚至完成主線劇情,那麼說明該框架有巨大潛力泛化到其他遊戲和軟體上。「與 Minecraft 這樣的開源遊戲不同,大多數商業遊戲特別是 3A 遊戲並不提供內部 API 介面,使得類似 Voyager 這樣的依賴內部 API 獲取輸入並輸出預定義動作的框架無法遷移到其他遊戲中」以 GPT-4V 為基礎,Cradle 能直接根據遊戲內的提示和教程生成對應的可執行程式碼作為技能,一步步豐富自己的技能庫, 並在之後的遊戲中重複使用這些技能。在執行了錯誤動作之後,Cradle 能夠有效地透過反思來發現並且糾正錯誤。Cradle 不僅能從頭開始跟隨遊戲指引生成相應技能,完成長達 40 分鐘時的主線劇情,還能在開放世界自由探索,騎馬,打獵,戰鬥,與 NPC 對話,使用道具,操作地圖,甚至商店購物,均不在話下。這是首個能長時間遊玩商業 3A 遊戲的智慧體。
結束語
開源的 Cradle 程式碼可以很容易擴充套件到其他軟體和遊戲。研究團隊表示,為了能夠實現真正的通用計算機控制,後續 Cradle 還將移植到更多軟體和遊戲上,也鼓勵相關研究團隊 / 工業界開展進一步研究與探索。目標是讓智慧體可以與無論是開源還是閉源的所有軟體進行互動並持續自我提升,實現通用性,最終成為通用人工智慧誕生的搖籃。
"GCC is a cradle for AGI."
—The Cradle team
One more thing:Cradle 技術解讀直播3 月 14 日 14:30-15:30,論文一作新加坡南洋理工大學博士生譚偉豪進行線上解讀報告。掃描下圖二維碼報名。