AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
模態對齊:需在語言、視覺和動作等多模態空間中建立精確的對齊機制。 資料稀缺:缺乏規模化、多模態且具備動作標籤的資料集。
主頁地址:https://sites.google.com/view/enerverse/home 論文地址:https://arxiv.org/abs/2501.01895
通用模型侷限性:當前通用影片生成模型缺乏對具身場景的針對性最佳化,無法適應具身任務中的特殊需求。 視覺記憶泛化能力不足:現有方法依賴稠密連續的視覺記憶,容易導致生成長程任務序列時邏輯不連貫,動作預測效能下降。
擴散模型架構:基於結合時空注意力的 UNet 結構,每個空間塊內部透過卷積與雙向注意力建模;塊與塊之間透過單向因果邏輯(causal logic)保持時間一致性,從而確保生成序列的邏輯合理性。 稀疏記憶機制:借鑑大語言模型(LLM)的上下文記憶,EnerVerse 在訓練階段對歷史幀進行高比例隨機掩碼(mask),推理階段以較大時間間隔更新記憶佇列,有效降低計算開銷,同時顯著提升長程任務的生成能力。 任務結束邏輯:透過特殊的結束幀(EOS frame),實現對任務結束時機的精準監督,確保生成過程在合適節點終止。
自由設定視角:FAV 支援動態調整錨定視角,克服固定多視角(fixed multi-anchor view)在狹窄場景中的侷限性。例如,在廚房等場景中,FAV 可輕鬆適應動態遮擋關係。 跨視角空間一致性:基於光線投射原理(ray casting),EnerVerse 透過視線方向圖(ray direction map)作為視角控制條件,並將 2D 空間注意力擴充套件為跨視角的 3D 空間注意力(cross-view spatial attention),確保生成影片的幾何一致性。 Sim2Real 適配:透過在模擬資料上訓練的 4D 生成模型(EnerVerse-D)與 4D 高斯潑濺 (4D Gaussian Splatting) 交替迭代,EnerVerse 構建了一個資料飛輪,為真實場景下的 FAV 生成提供偽真值支援。
高效動作預測:生成網路在逆擴散的第一步即可輸出未來動作序列,無需等待完整的空間生成過程,確保動作預測的實時性。 稀疏記憶支援:在動作預測推理中,稀疏記憶佇列儲存真實或重建的 FAV 觀測結果,有效提升長程任務規劃能力。
在短程生成任務中,EnerVerse 表現優於現有微調影片生成模型,如基於 DynamiCrafter 與 FreeNoise 的擴散模型。 在長程生成任務中,EnerVerse 展現出更強的邏輯一致性與連續生成能力,這是現有模型無法實現的。
單視角(one FAV)設定:EnerVerse 在 LIBERO 四類任務中的平均成功率已超過現有方法。 多視角(three FAV)設定:進一步提升任務成功率,在每一類任務上均超越當前最佳方法。