NeurIPS 2024 | 哈工深提出新型智慧體Optimus-1，橫掃Minecraft長序列任務

机器之心發表於2024-12-06

原文網址 : https://www.jiqizhixin.com/articles/2024-12-06-5

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報導了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯絡報導。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

本篇論文的工作已被 NeurlPS（Conference on Neural Information Processing Systems）2024 會議接收。本文主要作者來自哈爾濱工業大學 (深圳) 聶禮強，邵睿團隊，合作單位為鵬城實驗室。其中，第一作者李在京就讀於哈爾濱工業大學 (深圳) 計算機學院，研究方向為開放世界智慧體和多模態學習。

在 Minecraft 中構造一個能完成各種長序列任務的智慧體，頗有挑戰性。現有的工作利用大語言模型 / 多模態大模型生成行動規劃，以提升智慧體執行長序列任務的能力。然而，由於這些智慧體缺乏足夠的知識和經驗，面對 Minecraft 中複雜的環境仍顯得力不從心。為此，本文提出了一個新穎的智慧體框架 ——Optimus-1，該框架結合結構化知識與多模態經驗，旨在賦能智慧體更好地執行長序列任務。

論文題目：Optimus-1: Hybrid Multimodal Memory Empowered Agents Excel in Long-Horizon Tasks
論文連結：https://arxiv.org/abs/2408.03615
專案主頁：https://cybertronagent.github.io/Optimus-1.github.io/
程式碼倉庫：https://github.com/JiuTian-VL/Optimus-1

現有的 Minecraft Agents 有哪些侷限性？

1. 對結構化知識缺乏探索。Minecraft 中充滿了豐富的結構化知識，例如工具的合成規則（一根木棍和兩塊鐵錠可以合成一把鐵劍），以及不同層級的科技樹（木材 → 石器 → 鐵器 → 金器 → 鑽石）等。這些知識有助於智慧體做出合理的規劃，一步一步獲取完成任務所需的材料和工具。然而，現有的智慧體缺乏必要的知識，導致他們做出長序列規劃的能力受限。

2. 缺乏充足的多模態經驗。過往的經驗對幫助人類完成未曾遇見的任務具有重要作用，同樣，智慧體也能借助歷史經驗在面對新任務時作出更加精準的判斷與決策。然而，現有的智慧體在多模態經驗的積累與總結上存在缺陷，未能有效整合視覺、語言、動作等多方面的經驗，限制了其在複雜任務中的決策能力和適應性。

為了解決上述挑戰，我們設計了一個混合多模態記憶模組，將結構化知識和多模態經驗整合到智慧體的記憶機制中。類似於知識與經驗在指導人類完成複雜任務中的重要作用，智慧體在規劃階段藉助結構化知識生成可行的任務計劃，而在反思階段則利用多模態經驗對當前狀態進行判斷，並做出更加合理的決策。在此基礎上，我們提出了智慧體框架 Optimus-1。在混合多模態記憶的賦能下，Optimus-1 在 67 個長序列任務上實現了當前最先進的效能，並縮小了與人類水平基線的差距。

研究方法

Optimus-1 的框架如下圖所示。它由混合多模態記憶模組，知識引導的規劃器，經驗驅動的反思器，以及行動控制器組成。給定一個長序列任務，知識引導的規劃器首先從混合多模態記憶中檢索任務相關的知識，並基於這些知識生成一系列可執行的子目標。這些子目標依次輸入到行動控制器中，生成行動訊號以完成任務。在執行任務過程中，經驗驅動反思器會定期啟用，檢索與當前子目標相關的多模態經驗作為參考，以此判斷智慧體當前狀態，從而做出更為合理的決策。

^{圖 1：Optimus-1 的整體框架}

1. 混合多模態記憶（Hybrid Multimodal Memory）

^{圖 2：摘要化多模態經驗池和層次化有向知識圖的構建流程}

如上圖所示，混合多模態記憶由摘要化多模態經驗池（AMEP）和層次化有向知識圖（HDKG）組成。對於 AMEP，影片流首先透過 Video Buffer 和 Image Buffer 過濾，得到固定視窗大小的幀序列，並與文字透過 MineCLIP 計算相似度，若超過閾值，則儲存幀序列、文字及環境資訊等內容作為多模態經驗。這些經驗為智慧體反思階段提供細粒度的多模態資訊，同時透過摘要化降低了儲存開銷。

對於 HDKG，任務執行過程中獲取的知識被轉化為圖結構。例如，“兩根木棍和三塊木板可以合成一把木鎬” 被表示為有向圖 {2 sticks, 3 planks} → {1 wooden pickaxe}，為智慧體的規劃階段提供必要的知識支援，幫助其做出合理的任務規劃。

2. 知識引導的規劃器（Knowledge-Guided Planner）

給定任務 t，當前的視覺觀察 o，知識引導的規劃器從 HDKG 中檢索相關知識，生成子目標序列

：

其中，

表示多模態大模型，

表示從 HDKG 中檢索的有向圖。

3. 行動控制器（Action Controller）

行動控制器

以當前的視覺觀察 o，以及子目標

作為輸入，生成行動

：

4. 經驗驅動的反思器（Experience-Driven Reflector）

經驗驅動的反思器會定期被啟動，以當前的視覺觀察 o，子目標

，以及從 AMEP 中檢索的 case

作為輸入，生成反思 r:

反思 r 分為三類：COMPLETE 表示當前子目標已完成，可以執行下一子目標；CONTINUE 表示當前子目標未完成，需要繼續執行；REPLAN 表示當前子目標無法繼續執行，需要知識引導的規劃器重新規劃。

實驗結果

本文在開放世界環境 Minecraft 中選取了 67 個長序列任務進行評估，涵蓋木材，石器，鐵器，金器，鑽石，紅石，裝備七個任務組。每次執行任務，智慧體都隨機在任意環境中，初始裝備為空，這顯著增加了任務的挑戰性。此外，本文還構建了一個人類水平的基線，以評估現有的智慧體與人類水平之間的差距。

^{表 1：Optimus-1 在 7 個任務組上的平均成功率}

實驗結果如上表所示，Optimus-1 在所有任務組的成功率都顯著高於先前的方法。廣泛的消融實驗也證明了知識和經驗對智慧體執行長序列任務的重要性。

^{表 2：消融實驗結果。其中，P，R，K，E 分別代表規劃，反思，知識，以及經驗。}

值得注意的是，本文還探索了將任務失敗的 case 應用於 in-context learning 所帶來的影響。實驗結果顯示，將成功和失敗的 case 都納入智慧體的反思階段，能夠顯著提升任務的成功率。

^{表 3：對多模態經驗的消融實驗結果。其中，zero，suc，Fai 分別代表 zero-shot，僅使用成功 case，以及僅使用失敗 case。}

通用性

雖然基於 GPT-4V 構建的 Optimus-1 效能卓越，但呼叫商用大模型的成本不容忽視。因此，本文進行了更廣泛的實驗，探索一個重要問題：使用現有的開源多模態大模型構建 Optimus-1，效能表現如何？

^{圖 3：不同多模態大模型作為 backbone 的效能對比}

如上圖所示，在沒有混合多模態記憶模組的情況下，各種多模態大模型在長序列任務上的表現較差，尤其是在具有挑戰性的鑽石任務組中，成功率接近 0。而在混合多模態記憶模組賦能下，開源多模態大模型也和 GPT-4V 有了可比的效能。這揭示了混合多模態記憶模組的通用性。

結論

在本文中，我們提出了混合多模態記憶模組，由 HDKG 和 AMEP 組成。HDKG 為智慧體的規劃階段提供必要的世界知識，而 AMEP 則為反思階段提供精煉的歷史經驗。在此基礎上，我們在 Minecraft 中構建了智慧體 Optimus-1。廣泛的實驗結果表明，Optimus-1 在長序列任務中的表現超越了現有的智慧體。此外，我們還驗證了混合多模態記憶模組的通用性，開源多模態大模型在其賦能下，與 GPT-4V 也有可比的效能。

最強NLP預訓練模型！谷歌BERT橫掃11項NLP任務記錄
2018-10-12
模型谷歌
NeurIPS 2024 | LLM智慧體真能模擬人類行為嗎？答案有了
2024-12-11
智慧體
NeurIPS 2024 | 真實世界複雜任務，全新基準GTA助力大模型工具呼叫能力評測
2024-11-04
大模型
主流定時任務解決方案全橫評
2022-09-05
橫掃Java Collections系列 —— TreeSet
2019-02-24
Java
橫掃Java Collections系列 —— List
2019-01-23
Java
重新思考擴張卷積！中科院&深睿提出新型上取樣模組JPU
2019-04-04
卷積
AI，被“橫掃記錄”反噬？
2019-01-31
AI
CVPR 2024 | 一統所有目標感知任務，華科&位元組提出目標感知基礎模型GLEE
2024-03-21
模型
基於軟體分析的智慧化開發新型服務與技術
2021-11-08
時間序列基本概念、任務、預測方法
2023-01-30
多項NLP任務新SOTA，Facebook提出預訓練模型BART
2019-12-10
模型
NeurIPS 2024 Spotlight | 如何操縱時間序列預測結果？BackTime：全新的時間序列後門攻擊正規化
2024-11-15
【強化學習】不用地圖如何導航？DeepMind提出新型雙路徑強化學習「智慧體」架構
2018-04-09
強化學習地圖智慧體架構
唯美橫版國單《微光之鏡》：一位前米哈遊員工的追夢告白
2023-01-13
探險新型序列化工具MessagePack
2018-09-02
2024/10/22人工智慧
2024-10-22
人工智慧
非同步任務：並行與序列的典型問題
2019-05-06
非同步並行
Google 提出了一種新型的文字生成模型 LaserTagger
2020-02-23
Go模型
MixMIM 建立混合影像，提出新型掩碼方案
2023-02-06
工信部：2024年1-4月我國軟體業務收入3.8萬億元同比增長11.6%
2024-06-03
橫掃鴻蒙彈窗亂象，SmartDialog出世
2024-08-11
鴻蒙
Leetcode 山字形序列_正反掃描
2020-09-25
LeetCode
CCL 2024 Task7 雙任務冠軍
2024-05-23
工信部：2024年1-5月中國軟體業務收入49317億元同比增長11.6%
2024-07-19
MineCraft - 服務端外掛指令彙總
2018-08-10
Raft服務端
linux雲服務搭建Minecraft伺服器
2021-03-14
LinuxRaft伺服器
騰訊AI Lab & 羅切斯特大學合作提出影片再定位任務
2018-09-10
AI
NLP生成任務超越BERT、GPT！微軟提出通用預訓練模型MASS
2019-05-10
GPT微軟模型
【智慧工廠】智慧工廠整體規劃與實施
2018-03-07
Taskade for Mac任務清理軟體
2021-08-12
Mac
“橫掃14億夢境”《夢遊》首測體驗：多角色真肉鴿
2023-12-12
麻省理工 HAN Lab 提出 ProxylessNAS 自動為目標任務和硬體定製高效 CNN 結構
2018-12-07
CNN
NeurIPS 2024 | 消除多對多問題，清華提出大規模細粒度影片片段標註新正規化VERIFIED
2024-10-28
智慧工廠——智慧製造的載體
2022-01-07
IDC：2024年Q3全球智慧掃地機器人出貨501.4萬臺同比增長 11.1%
2024-12-15
機器人
BAIR展示新型模仿學習，學會「像人」那樣執行任務
2018-07-11
AI
任務佇列,巨集任務與微任務
2020-04-05
佇列

NeurIPS 2024 | 哈工深提出新型智慧體Optimus-1，橫掃Minecraft長序列任務

相關文章