具身智慧新高度!智元機器人推出全球首個4D世界模型EnerVerse

机器之心發表於2025-01-09

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


如何讓機器人在任務指引和實時觀測的基礎上規劃未來動作,一直是具身智慧領域的核心科學問題。然而,這一目標的實現受兩大關鍵挑戰制約:

  1. 模態對齊:需在語言、視覺和動作等多模態空間中建立精確的對齊機制。
  2. 資料稀缺:缺乏規模化、多模態且具備動作標籤的資料集。

針對上述難題,智元機器人團隊提出了 EnerVerse 架構,透過自迴歸擴散模型(autoregressive diffusion),在生成未來具身空間的同時引導機器人完成複雜任務。不同於現有方法簡單應用影片生成模型,EnerVerse 深度結合具身任務需求,創新性地引入稀疏記憶機制(Sparse Memory)自由錨定視角(Free Anchor View, FAV),在提升 4D 生成能力的同時,實現了動作規劃效能的顯著突破。實驗結果表明,EnerVerse 不僅具備卓越的未來空間生成能力,更在機器人動作規劃任務中實現了當前最優(SOTA)表現。

專案主頁與論文已上線,模型與相關資料集即將開源:
圖片
  • 主頁地址:https://sites.google.com/view/enerverse/home
  • 論文地址:https://arxiv.org/abs/2501.01895
圖片
如何讓未來空間生成賦能機器人動作規劃?

機器人動作規劃的核心在於基於實時觀測和任務指令,預測並完成一系列複雜的未來操作。然而,現有方法在應對複雜具身任務時存在如下侷限:

  • 通用模型侷限性:當前通用影片生成模型缺乏對具身場景的針對性最佳化,無法適應具身任務中的特殊需求。
  • 視覺記憶泛化能力不足:現有方法依賴稠密連續的視覺記憶,容易導致生成長程任務序列時邏輯不連貫,動作預測效能下降。

為此,EnerVerse 透過逐塊生成的自迴歸擴散框架,結合創新的稀疏記憶機制與自由錨定視角(FAV)方法,解決了上述瓶頸問題。

技術方案解析

逐塊擴散生成:Next Chunk Diffusion

EnerVerse 採用逐塊生成的自迴歸擴散模型,透過逐步生成未來具身空間來引導機器人動作規劃。其關鍵設計包括:

  • 擴散模型架構:基於結合時空注意力的 UNet 結構,每個空間塊內部透過卷積與雙向注意力建模;塊與塊之間透過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。
  • 稀疏記憶機制:借鑑大語言模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶佇列,有效降低計算開銷,同時顯著提升長程任務的生成能力。
  • 任務結束邏輯:透過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。
圖片
靈活的 4D 生成:Free Anchor View (FAV)

針對具身操作中複雜遮擋環境和多視角需求,EnerVerse 提出了自由錨定視角(FAV)方法,以靈活表達 4D 空間。其核心優勢包括:

  • 自由設定視角:FAV 支援動態調整錨定視角,克服固定多視角(fixed multi-anchor view)在狹窄場景中的侷限性。例如,在廚房等場景中,FAV 可輕鬆適應動態遮擋關係。
  • 跨視角空間一致性:基於光線投射原理(ray casting),EnerVerse 透過視線方向圖(ray direction map)作為視角控制條件,並將 2D 空間注意力擴充套件為跨視角的 3D 空間注意力(cross-view spatial attention),確保生成影片的幾何一致性。
  • Sim2Real 適配:透過在模擬資料上訓練的 4D 生成模型(EnerVerse-D)與 4D 高斯潑濺 (4D Gaussian Splatting) 交替迭代,EnerVerse 構建了一個資料飛輪,為真實場景下的 FAV 生成提供偽真值支援。
圖片
高效動作規劃:Diffusion Policy Head

EnerVerse 透過在生成網路下游整合 Diffusion 策略頭(Diffusion Policy Head),打通未來空間生成與機器人動作規劃的全鏈條。其關鍵設計包括:

  • 高效動作預測:生成網路在逆擴散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預測的實時性。
  • 稀疏記憶支援:在動作預測推理中,稀疏記憶佇列儲存真實或重建的 FAV 觀測結果,有效提升長程任務規劃能力。

實驗結果

1. 影片生成效能

在短程與長程任務影片生成中,EnerVerse 均展現出卓越的效能:

  • 在短程生成任務中,EnerVerse 表現優於現有微調影片生成模型,如基於 DynamiCrafter 與 FreeNoise 的擴散模型。
  • 在長程生成任務中,EnerVerse 展現出更強的邏輯一致性與連續生成能力,這是現有模型無法實現的。
圖片
此外,EnerVerse 在 LIBERO 模擬場景和 AgiBot World 真實場景中生成的多視角影片質量也得到了充分驗證。
圖片
其對應的生成影片如下所示:具身智慧新高度!智元機器人推出全球首個4D世界模型EnerVerse具身智慧新高度!智元機器人推出全球首個4D世界模型EnerVerse
2. 動作規劃能力

在 LIBERO 基準測試中,EnerVerse 在機器人動作規劃任務中取得顯著優勢:

  • 單視角(one FAV)設定:EnerVerse 在 LIBERO 四類任務中的平均成功率已超過現有方法。
  • 多視角(three FAV)設定:進一步提升任務成功率,在每一類任務上均超越當前最佳方法。
圖片
圖片
值得注意的是,LIBERO-Long上均為需要機器多步執行的任務,如下影片所示:具身智慧新高度!智元機器人推出全球首個4D世界模型EnerVerse
3. 消融與訓練策略分析

稀疏記憶機制:消融實驗表明,稀疏記憶對長程式列生成的邏輯合理性及長程動作預測精度至關重要。
圖片
圖片
二階段訓練策略:先進行未來空間生成訓練,再進行動作預測訓練的二階段策略,可顯著提升動作規劃效能。
圖片
4. 注意力視覺化

透過視覺化 Diffusion 策略頭中的交叉注意力模組,研究發現 EnerVerse 生成的未來空間與預測的動作空間具有較強的時序一致性。這直觀體現了 EnerVerse 在未來空間生成與動作規劃任務中的相關性與優勢。
圖片
智元機器人透過 EnerVerse 架構開創了未來具身智慧的新方向。透過未來空間生成引導動作規劃,EnerVerse 不僅突破了機器人任務規劃的技術瓶頸,還為多模態、長程任務的研究提供了全新正規化。

作者介紹

EnerVerse 主要科研成員來自智元機器人研究院具身演算法團隊。論文共同一作黃思淵是上海交通大學與上海人工智慧實驗室的聯培博士生,師從 CUHK-MMLab 的李鴻升教授。博士期間的研究課題為基於多模態大模型的具身智慧以及高效智慧體的研究。在 CoRL、MM、 IROS、ECCV 等頂級會議上,以第一作者或共同第一作者身份發表多篇論文。另一位共同一作陳立梁是智元機器人的具身演算法專家,主要負責具身空間智慧與世界模型的研究。

相關文章