導航、採礦、建造,北大這個新智慧體把《我的世界》玩透了

机器之心發表於2024-10-30
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

該研究成果由來自北京大學的蔡少斐、王子豪、連可為、牟湛存、來自北京通用人工智慧研究院的馬曉健研究員、來自加州大學洛杉磯分校的劉安吉共同完成。通訊作者為北京大學助理教授梁一韜。所有作者均隸屬 CraftJarvis 研究團隊。

在遊戲和機器人研究領域,讓智慧體在開放世界環境中實現有效的互動,一直是令人興奮卻困難重重的挑戰。想象一下,智慧體在《我的世界(Minecraft)》這樣的環境中,不僅要識別和理解複雜的視覺資訊,還需要利用滑鼠和鍵盤精細地控制遊戲畫面,快速做出反應,完成像導航、採礦、建造、與生物互動等任務。面對如此龐大且複雜的互動空間,如何能讓智慧體能理解並執行人類的意圖呢?
圖片
針對這個問題,CraftJarvis 團隊提出利用 VLMs (視覺語言模型)強大的視覺語言推理能力來指導任務的完成,並創新地提出了一種基於視覺 - 時間上下文提示(Visual-Temporal Context Prompting)的任務表示方法。該方法允許人類或 VLMs 在當前和歷史遊戲畫面中將希望進行互動的物體分割出來,來傳達具體的互動意圖。為了將互動意圖對映為具體的滑鼠鍵盤操作,該團隊進一步訓練了一個以物體分割為條件的底層策略 ROCKET-1。這種融合了視覺 - 時間上下文提示的智慧體架構為開放世界的互動奠定了基礎,預示了未來遊戲 AI 和機器人互動的新可能性。
圖片
  • 論文連結: https://arxiv.org/pdf/2410.17856

  • 專案主頁: https://craftjarvis.github.io/ROCKET-1

導航、採礦、建造,北大這個新智慧體把《我的世界》玩透了導航、採礦、建造,北大這個新智慧體把《我的世界》玩透了導航、採礦、建造,北大這個新智慧體把《我的世界》玩透了

研究創新點

視覺 - 時間上下文提示方法
圖片
架構對比圖;(e) 為基於視覺 - 時間上下文提示的新型架構

視覺 - 時間上下文提示是一種全新的任務表達方式。透過整合智慧體過去和當前的觀察資訊,該方法利用物體分割資訊,為智慧體提供空間和互動型別的線索,從而讓低階策略能夠準確識別和理解環境中的關鍵物件。這一創新使得智慧體能夠在執行任務時始終保持對目標物件的關注。

基於物體分割的條件策略 ROCKET-1
圖片
基於因果 Transformer 實現的 ROCKET-1 架構

ROCKET-1 是一種基於視覺 - 時間上下文的低階策略,能夠在視覺觀察和分割掩碼的支援下預測行動。透過使用 Transformer 模組,ROCKET-1 可以在部分可觀測(Partially Observable)環境中推理過去和當前觀測的依賴關係,實現精準的動作預測。與傳統方法不同,ROCKET-1 能夠處理細微的空間和時序變化,並始終關注要進行互動的物體,顯著提升了與環境互動的成功率。

反向軌跡重標註策略
圖片
反向軌跡重標記流程示意

訓練 ROCKET-1 需要收集大量帶有物體分割的軌跡資料。傳統的資料標註方法成本高、效率低,CraftJarvis 團隊提出了一種逆向軌跡重標註方法,利用 SAM-2 的物體分割能力在倒放的影片中連續地對發生互動的物體生成分割註釋。這種方法能夠根據現有的互動事件重建資料集,使得 ROCKET-1 在離線條件下即可完成高效訓練,減少了對人工標註的依賴,併為大規模資料處理提供了切實可行的解決方案。

充分釋放預訓練基礎模型的能力
圖片
CraftJarvis 團隊將具身決策所依賴的能力分解為視覺語言推理、視覺空間定位、物體追蹤和實時動作預測,並巧妙地組合 GPT-4o、Molmo、SAM-2、ROCKET-1 加以解決。

為了應對複雜任務規劃的挑戰,該團隊引入了 GPT-4o,目前最先進的視覺語言模型之一。可以進行強大的視覺語言推理,將複雜的任務分解為一系列具體的物體互動指令。此外,該團隊採用了 Molmo 模型來將 GPT-4o 的互動意圖翻譯為觀察影像中的座標點,用以精確定位互動物體。

為了應對物件跟蹤的挑戰,該團隊引入了 SAM-2,一個先進的影片分割模型。SAM-2 不僅能夠透過點提示對物體進行分割,還可以在時間上連續追蹤目標,即便物體在視野中消失或重新出現時也能有效保持跟蹤。這為 ROCKET-1 提供了穩定的物件資訊流,確保了在高頻變化的環境中智慧體的互動精度。

實驗成果

為了驗證 ROCKET-1 的互動能力,CraftJarvis 團隊在《我的世界》中設計了一系列任務,包括採礦、放置物品、導航和與生物互動等。
圖片
《我的世界》互動任務評測集
圖片
ROCKET-1 評測結果

實驗結果顯示,ROCKET-1 在這些任務上,尤其在一些具有高空間敏感性的任務中,獲得的成功率遠高於現有方法(在多數任務上實現了高達 90% 的成功率提升),ROCKET-1 表現出了出色的泛化能力。即便在訓練集中從未出現的任務(如將木門放到鑽石塊上),ROCKET-1 依然能夠藉助 SAM-2 的物體追蹤能力完成指定目標,體現了其在未知場景中的適應性。

此外,該團隊也設計了一些需要較為複雜的推理能力的長期任務,同樣展示了這套方法的傑出效能。
圖片
ROCKET-1 在解決任務時的截圖
圖片
需要依賴規劃能力的長期任務效能結果

視覺 - 時間上下文方法的提出和 ROCKET-1 策略的開發不僅為 Minecraft 中的複雜任務帶來了全新解決方案,也在通用機器人控制、通用視覺導航等領域展示了廣泛的應用前景。

相關文章