世界模型在機器人任務規劃中的全新正規化:NUS邵林團隊提出通用機器人規劃模型FLIP
机器之心發表於2025-03-19
本文的作者均來自新加坡國立大學 LinS Lab。本文第一作者為新加坡國立大學博士生高崇凱,其餘作者為北京大學實習生張浩卓,新加坡國立大學博士生徐志軒,新加坡國立大學碩士生蔡哲豪。本文的通訊作者為新加坡國立大學助理教授邵林。人類具有通用的、解決長時序複雜任務的規劃能力,這在我們處理生活中的複雜操作任務時很有用。這種能力可以被描述為這樣的過程:首先,人們會在面臨一個任務時思考當前可能的動作,然後透過想象能力預測這些步驟可能帶來的結果,最後基於常識對這些結果進行打分,選擇最佳動作來執行並完成任務。這種基於世界模型的搜尋演算法是人類解決開放世界操作任務的能力基礎。這種能力背後的核心在於,人類大腦構建了一個關於物理世界的 “世界模型” 和一個通用的價值函式,他們模型賦予了我們對於物體未來狀態的想象能力和規劃能力。那麼,機器人能否也具備這樣的對物理世界的理解和想像能力,使得能夠在執行任務之前就能規劃好未來的步驟?近年來,機器人技術飛速發展,我們見證了越來越多智慧化機器人的出現。然而,與人類相比,現有機器人在處理複雜、多階段任務時仍顯得力不從心。它們往往依賴於特定任務的資料和預設指令,或者藉助大模型在簡單的抓取技能上進行規劃,難以像人類一樣靈活地規劃和執行復雜通用的操作任務。如何為機器人構建類似於人類的 “世界模型”,從而實現通用任務規劃能力,一直是機器人研究中的核心挑戰。近日,來自新加坡國立大學的邵林團隊提出了 FLIP:一種基於世界模型的影片空間任務搜尋和規劃框架。該方法能夠適用於通用的機器人操作任務上,包括可行變物體操作和靈巧手操作任務。該方法直接基於機器人視覺空間進行任務規劃,透過特殊設計的動作提出模組、動力學預測模組、和價值函式預測模組進行基於世界模型的任務規劃,且具有模型引數量的可擴充套件性。該論文已發表在 ICLR 2025 上,並在 CoRL 2024 LEAP Workshop 中被選為 Oral Presentation。- 論文標題:FLIP : Flow-Centric Generative Planning as General-Purpose Manipulation World Model
- 專案主頁:https://nus-lins-lab.github.io/flipweb/
- 論文連結:https://arxiv.org/abs/2412.08261
- 程式碼連結:https://github.com/HeegerGao/FLIP
一、引言世界模型(World Models)指的是基於學習的方法,用於模擬環境的表示或模型。藉助世界模型,智慧體可以在模型內部進行想象、推理和規劃,從而更加安全且高效地完成任務。近期生成模型的進展,特別是在影片生成領域,展示了利用網際網路規模的訓練資料生成高質量影片,以作為世界模擬器的應用潛力。世界模型在多個領域開闢了新途徑,尤其是在機器人操縱任務方面,這也是本文的研究重點。通用機器人的智慧主要分為兩個層次:第一,透過多模態輸入對任務進行高層次的抽象規劃;第二,透過與現實環境互動實現計劃的具體執行。設計良好的世界模型能夠有效地實現第一個功能,即實現基於模型的規劃。這種模型需要具備互動性,能夠根據給定的動作來模擬環境狀態。框架的核心在於找到一種通用且可擴充套件的動作表示,連線高層規劃和低層執行。這種動作表示需滿足兩個要求:一是能表達場景中不同物體、機器人及任務的多種運動;二是容易獲得大量的訓練資料以支援擴充套件。現有方法或是依賴語言描述作為高層動作,或是直接採用底層的機器人動作與世界模型互動,但這些方法存在一些限制,比如需要額外的資料或標註過程,或者無法描述精細複雜的動作細節,例如靈巧手的精細動作。這些限制激勵我們探索其他更有效的動作表示。同時,現有的世界模型缺乏合適的價值函式作為結果的評價標準,對未來的規劃常常限制在貪心搜尋層面,難以實現真正的任務空間的搜尋能力。影像流是一種描述影像中畫素隨時間變化的動態表示,能夠通用且簡潔地表示不同機器人和物體的運動,比語言更加精細和準確。此外,影像流可以直接透過已有的影片追蹤工具從影片資料中獲取。同時,已有研究表明,影像流對於訓練低層次的操控策略也具有很高的有效性。因此,影像流非常適合作為世界模型的動作表示。然而,目前如何使用影像流來規劃機器人操控任務仍有待探索。在本文中,我們提出了以影像流為中心的通用機器人操控規劃方法(FLIP)。具體而言,我們從帶有語言標註的影片資料中訓練出以影像流為核心的世界模型。該世界模型包括三個模組:一是負責動作生成的影像流生成網路;二是根據影像流生成影片的動力學模型;三是進行視覺語言評估的價值模型。我們設計了一種新的訓練方式,用於整合這三個模組,以實現基於模型的規劃:給定初始影像和任務目標,動作模組生成多個影像流方案,動力學模型預測短期影片結果,價值模組評估影片生成結果的優劣,透過樹搜尋方法合成長期規劃。實驗結果表明,FLIP 方法不僅可以成功解決模擬和真實環境下的多種機器人操控任務,如布料摺疊、展開等,還能生成高質量的長期影片結果。同時,這些影像流和影片規劃也能用於指導低層次策略的訓練。此外,我們還證明了 FLIP 的三個模組均優於現有相關方法。進一步的實驗也顯示,FLIP 能有效模擬各種複雜的機器人操控任務,展現了其良好的互動性、零樣本遷移和可擴充套件能力。本文的主要貢獻如下:- 提出了以影像流為中心的通用機器人操控規劃方法(FLIP),實現了互動式的世界模型。
- 設計了影像流生成網路、流條件影片生成網路,以及一種新的視覺語言表示模型訓練方法作為 FLIP 的核心模組。
- 透過實驗驗證了 FLIP 方法在多種任務上的通用性與優越性,展現了出色的長期規劃能力、影片生成質量和策略指導能力。
我們把機器人操作任務建模為 MDP,我們旨在透過學習一個世界模型和一個低層策略來解決這一問題。世界模型在影像和影像流空間上進行基於模型的規劃,以最大化回報,合成長時程的規劃方案;而低層策略則負責在真實環境中執行這些規劃。我們計劃僅使用帶有語言標註的影片資料集來訓練世界模型,使其具備通用性和可擴充套件性,而低層策略則利用少量帶有動作標註的資料集進行訓練。為了實現基於模型的規劃,我們的世界模型包含以下三個關鍵模組,具體將在接下來的章節中介紹。FLIP 的動作模組是一個影像流生成網路,其作用是生成影像流(即查詢點在未來時刻的軌跡)作為規劃的動作。我們之所以使用生成模型而非預測模型,是因為在基於模型的規劃過程中,動作模組需要提供多種不同的動作候選,以用於基於取樣的規劃方法。具體來說,給定時刻 t 之前 h 步的影像觀測歷史、語言目標,以及一組二維查詢點座標,影像流生成網路會生成未來 L 個時間步內(含當前時間步)的查詢點座標。一個關鍵的問題是訓練資料標註。查詢點的影像流可以直接使用現有的影片點跟蹤模型(例如 CoTracker)從純影片資料中提取。然而,如何選取查詢點成為問題。以往的方法或是使用自動分割模型在感興趣區域選取查詢點,或是按照預定義的比例在運動和靜止區域選取查詢點。這些方法存在兩個問題:一是現代分割模型(例如 SAM)很難在複雜場景下準確無誤地分割出目標區域;二是在長時間的影片中,可能出現物體的進入或離開,僅使用初始幀的查詢點會產生問題。因此,我們在每個時間步對整幅影像均勻取樣密集的網格查詢點,以解決第一個問題;同時,僅對短時程的影片片段進行跟蹤,即從長影片的每一幀開始進行短時程跟蹤,以緩解第二個問題。這樣,即便有物體進出,其影響也被限制在短時程內。具體來說,對資料集中每一幀,我們均勻取樣一個候選點網格,並利用現有的 Co-Tracker 工具生成未來 L 步的影片片段中的影像流。如圖 2 所示,我們設計了一個以 Transformer 架構為基礎的條件變分自編碼器(VAE)進行影像流生成。與之前預測絕對座標的方法不同,我們發現預測相對位移的表現更好,即預測每個查詢點的座標變化量。在 VAE 編碼器端,我們對真實影像流進行編碼,將觀測歷史轉換成影像區塊(patches),並利用語言模型 Llama 進行語言嵌入編碼成 token,將它們與一個用於資訊匯聚的 CLS token 拼接後送入 Transformer 編碼器,將 CLS 位置的輸出提取為 VAE 的隱變數。在 VAE 解碼器端,我們首先將當前時刻 t 的查詢點編碼成查詢 token,將它們與影像和語言 token 以及重引數化取樣出的隱變數 z 拼接後送入另一個 Transformer 編碼器,提取查詢 token 位置的輸出,透過兩個 MLP 網路預測未來 L 步的位移幅度和位移方向,從而逐步重構完整的未來影像流。同時,我們還對影像 token 位置的輸出進行影像重建任務的輔助訓練,這被證明對提高模型訓練的準確性有幫助。我們的第二個模組是一個動力學模組,是以影像流為條件的影片生成網路,根據當前的影像觀測歷史、語言目標和預測的影像流生成後續 L 幀影片,以實現下一步的迭代規劃。我們設計了一種新的基於潛在空間的影片擴散模型,能夠有效地接受多種條件輸入,如影像、影像流和語言。該模型基於 DiT 架構構建,並結合了空間 - 時間注意力機制。在此我們著重介紹多模態條件處理機制的設計。在原始的 DiT 及之前基於軌跡條件的影片擴散模型中,通常使用自適應層歸一化(AdaLN-Zero)處理條件輸入(例如擴散步驟和類別標籤),其透過零初始化的 MLP 網路迴歸出層歸一化的縮放和平移引數。然而,這種機制會將所有條件資訊壓縮為標量,無法實現條件與輸入之間更精細的互動,因此不適用於影像與影像流等複雜條件。為了解決這一問題,我們提出了一種混合條件處理機制,用於多模態條件生成。具體而言,我們使用交叉注意力機制,使影像流條件(表示為目標點的 tokens)與觀測條件及帶噪幀之間進行細粒度的互動。對於歷史影像觀測條件,我們將其直接拼接到高斯噪聲幀上。此外,我們仍然使用 AdaLN-Zero 機制處理全域性條件,包括擴散步驟和語言指令,以整體指導擴散過程。為了保證觀測條件的清晰性,在擴散過程中我們既不向觀測歷史新增噪聲,也不對其進行去噪處理。FLIP 的價值模組基於語言目標對當前影像進行評估,從而生成一個價值函式估計 V̂t,用於在影像空間進行基於模型的規劃:V̂t = V (ot, g)。在本研究中,我們採用了 LIV 模型作為價值函式。LIV 首先從帶語言標註的無動作影片中學習語言 - 視覺的共享表示,隨後基於當前影像與目標語言的相似度計算價值。具體而言,LIV 計算影像與語言表示的加權餘弦相似度,作為價值的衡量標準。預訓練的 LIV 模型在應用於新任務時需要進行微調以獲得良好的價值表示。原始的微調損失包括影像損失和語言影像損失,前者透過時間對比學習增加起始幀與結束幀的相似性,同時將相鄰幀的嵌入距離維持為(經過折扣的)固定值;後者則鼓勵目標影像與目標語言的相似性提升。然而,我們發現該原始的微調方法對於長時程且不完美的影片資料表現不佳,微調後的價值曲線呈現明顯的劇烈波動,這對基於取樣的規劃演算法十分不利,因為多數規劃演算法期望平滑的價值曲線。例如在規劃過程中,機械臂可能出現暫停或猶豫等情況,導致任務表現不穩定。為了緩解這一問題,我們將原有損失函式中 "相鄰幀" 的概念替換為 "相鄰狀態",將狀態定義為短時程的影片片段。具體地,我們將長影片劃分為多個固定長度的小片段,每個片段被視作影片的最小單元。透過此調整,能有效平滑價值曲線,顯著改善規劃過程中價值評估的平滑性,如圖 3 所示。直接以自迴歸方式生成長時程影片通常不夠準確。因此,我們採用基於模型的規劃方法,使用影像流動作模組和影片生成模組,透過最大化累積折扣回報來規劃未來影片幀,公式表示為: 
根據貝爾曼方程,這等效於每一步選擇使即時獎勵與未來狀態價值之和最大的下一狀態。我們設計的獎勵機制也鼓勵找到最短的規劃路徑。我們使用爬山法(Hill Climbing)解決該問題,具體操作是首先初始化 B 個規劃束(beam)。在每個時刻 t,根據當前的影像觀測歷史和語言目標,動作模組生成多個影像流動作候選方案;然後動力學模組基於這些影像流生成若干個短期未來影片片段。接著,透過價值模組評估生成的影片,選擇 A 個影片中具有最高獎勵的影片,以進行下一輪迭代。為了防止規劃過程過於依賴某些異常狀態,我們週期性地將具有最低價值的規劃束替換為最高價值的規劃束。該演算法總結在圖 4 中。FLIP 的低層策略負責具體執行規劃好的動作。在給定當前影像歷史、語言目標、影像流動作,以及影片生成模組生成的短時程影片後,該策略預測具體的低層機器人動作,從而引導機器人在真實環境中進行操作。我們訓練了多個策略,每個策略輸入不同型別的條件資訊,所有策略都僅需使用少量的示範資料進行訓練。在本節中,我們首先展示 FLIP 能夠:1)實現不同機器人操控任務的基於模型的規劃;2)合成長時程影片(≥ 200 幀);3)指導低層策略在模擬和真實環境中執行任務。我們也分別評估動作模組、動態模組和價值模組,並展示 FLIP 的互動性、零樣本轉移能力和擴充套件性。實驗設定。在本節中,我們使用四個基準測試 FLIP 的規劃能力。模型以初始影像和語言指令為輸入,搜尋影像流和影片空間合成任務規劃方案。第一個基準是 LIBERO-LONG,一個包含 10 個長時程桌面操控任務的模擬基準,我們使用解析度為 128×128×3 的 50×10 個影片進行訓練,並在新的 50×10 個隨機初始化上測試。第二個基準是 FMB,包含物體操作和裝配任務,我們使用 1,000 個單物體多階段影片和 100 個多物體多階段影片(解析度 128×128×3)訓練,在 50 個新初始化上測試。第三和第四個基準是布料摺疊和展開任務,我們使用各 40 個不同視角的影片進行訓練,在 10 個新視角上測試(解析度 96×128×3)。評估方式為人工檢查生成影片是否成功解決任務,我們與兩個基準方法進行比較:1)UniPi,一種基於文字的影片生成方法;2)FLIP-NV,即移除價值模組的 FLIP 版本。結果。實驗結果如圖 5 所示,顯示 UniPi 的成功率較低,表明直接生成長影片有較大難度。FLIP-NV 表現優於 UniPi,說明影像流能有效指導影片生成。FLIP 的表現超過了所有基準,體現了價值模組對基於模型規劃的重要性。實驗設定。本節我們定量評估 FLIP 生成長時程影片的質量,與其它影片生成模型進行對比。我們選擇 LIBERO-LONG、FMB、布料摺疊 / 展開,以及 Bridge-V2 基準進行評估,影片長度普遍超過 200 幀(Bridge-V2 除外)。我們選擇的基準方法包括 LVDM(一種先進的文字到影片方法)和 IRASim(一種以機械臂末端軌跡為條件的影片生成方法)。評估指標包括潛在空間的 L2 距離、畫素空間的 PSNR 和 FVD 影片質量評估指標。結果如圖 5 所示。FLIP 在所有資料集上表現均優於基準方法。LVDM 在較短的 Bridge-V2 上表現尚可,但在長影片基準(如 LIBERO-LONG 和 FMB)表現不佳。IRASim 表現優於 LVDM,說明軌跡引導的重要性,但由於其自迴歸生成方式,仍不及 FLIP 透過模型規劃和短影片片段拼接的方式生成高質量影片。FMB 的表現普遍較差,原因在於訓練影片包含大量瞬時跳躍行為,而 FLIP 依靠歷史觀測的方式在一定程度上克服了這一問題。我們還定性展示了 FLIP 在 ALOHA 任務、轉筆、機器人取藥、系塑膠袋、人類剝雞蛋等複雜長影片任務上的應用,如圖 6 所示。實驗設定。本節我們探討生成的影像流和影片規劃如何作為條件,用於訓練操控策略完成任務。主要問題是確定影像流或影片(或二者結合)哪個更適合指導策略學習。我們使用 LIBERO-LONG 基準進行評估,每個任務使用 10 個帶動作標註和 50 個無動作標註的影片示範進行訓練。推理階段,FLIP 作為閉環策略,每執行一段動作後重新規劃。我們與 ATM 及其擴散策略版本,以及 OpenVLA(零樣本和微調版)進行比較。結果分析如圖 7 所示。我們可以發現,相比擴散策略和 ATM-DP,我們提出的計劃引導策略表現出更高的成功率,這表明密集的影像流資訊和高質量的未來影片作為條件要優於稀疏的影像流資訊。其中,影像流與影片共同引導的策略(Ours-FV)表現最佳,說明結合影像流和影片作為條件資訊有助於提升策略成功率。此外,僅用影片引導的策略(Ours-V)雖然表現尚可,但在機器人偏離訓練軌跡時生成的影片質量會降低,導致較大的表現波動;而加入影像流作為額外條件後,成功率的方差明顯減小,體現了影像流預測的穩定性。 圖 7 基於影像流的下層模型的成功率,和 FLIP 的價值函式模組效果為展示 FLIP 的幾個關鍵特性,我們在 LIBERO-LONG 等基準資料集上進行了額外的實驗驗證。實驗結果展示在圖 8 中。互動式世界模型能力。我們驗證了訓練好的動力學模組的互動性,即能夠根據人為指定的影像流生成相應的影片。實驗表明,該模組能夠準確響應使用者指定的影像流,生成對應的影片。零樣本遷移能力。我們展示了預訓練的 FLIP 模型無需額外微調,即可有效處理未見過的任務資料,成功生成自然的機器人動作,表明 FLIP 具備一定的知識遷移能力。可擴充套件性。透過在大規模影片資料集上訓練,FLIP 顯示出較好的擴充套件能力。即使面對大量複雜任務和影片資料,模型依然能穩定地實現有效的規劃和影片生成。在本研究中,我們提出了 FLIP,一種以影像流為核心的通用機器人操控任務生成規劃方法。FLIP 透過影像流和影片生成實現對多種操控任務的通用規劃。儘管 FLIP 表現出色,但仍存在一些侷限性:首先是規劃速度較慢,主要由於規劃階段需要進行大量的影片生成過程,限制了該方法在準靜態操控任務中的應用。其次,FLIP 未使用場景的物理屬性和三維資訊。未來的研究可以考慮開發結合物理性質與三維場景資訊的世界模型,以進一步擴充套件 FLIP 的適用範圍。