清華、華為等提出iVideoGPT:專攻互動式世界模型

机器之心發表於2024-05-28
iVideoGPT,滿足世界模型高互動性需求。

近年來,生成模型取得了顯著進展,其中影片生成正在成為一個新的前沿領域。這些生成影片模型的一個重要應用是,在多樣化的網際網路規模資料上以無監督方式學習,用於構建預測世界模型。這些世界模型有望積累關於世界如何運作的常識性知識,從而能夠基於智慧體的行為預測潛在的未來結果。

透過利用這些世界模型,採用基於強化學習的智慧體可以在世界模型中進行想象、推理和規劃,從而在現實世界中透過少量試驗就能更安全、更有效地獲得新技能。

儘管生成模型和世界模型有著基本的聯絡,但用於影片生成生成模型和用於智慧體學習的世界模型的發展之間仍然存在顯著的差距。主要挑戰之一是如何在互動性和可擴充套件性之間取得最佳平衡。

在基於模型的強化學習領域,世界模型主要使用迴圈網路架構。這種設計允許在每一步中基於動作傳遞觀察或潛在狀態,從而促進互動行為學習。然而,這些模型大多專注於遊戲或模擬環境,資料簡單,並且對大規模複雜的 in-the-wild 資料進行建模的能力有限。

相比之下,網際網路規模的影片生成模型可以合成逼真的長影片,這些影片可以透過文字描述或未來動作序列進行控制。雖然這樣的模型允許高層次的、長期的規劃,但它們的軌跡級互動性並沒有為智慧體提供足夠的粒度來有效地學習精確的行為作為基本技能。

來自清華大學華為諾亞方舟實驗室、天津大學的研究者提出了 iVideoGPT(Interactive VideoGPT),這是一個可擴充套件的自迴歸 Transformer 框架,它將多模態訊號(視覺觀察、動作和獎勵)整合到一系列 token 中,透過預測下一個 Token 使智慧體能夠進行互動體驗。

iVideoGPT 採用新穎的壓縮 tokenization 技術,可有效離散高維視覺觀察。利用其可擴充套件架構,研究者能夠在數百萬人類和機器人操作軌跡上對 iVideoGPT 進行預訓練,從而建立一個多功能基礎,可用作各種下游任務的互動式世界模型。該研究促進了互動式通用世界模型的發展。
圖片
  • 論文地址:https://arxiv.org/pdf/2405.15223
  • 論文標題:iVideoGPT: Interactive VideoGPTs are Scalable World Models

方法

在這一部分,研究團隊介紹了一種可擴充套件的世界模型架構 ——iVideoGPT,其具有極高的靈活性,能夠整合多模態資訊,包括視覺觀察、動作、獎勵以及其他潛在的輸入。

iVideoGPT 的核心包括一個壓縮 tokenizer,用於離散化影片幀,以及一個自迴歸 transformer,用於預測後續 token。透過在多樣化的影片資料上進行預訓練,該模型可以獲得廣泛的世界知識,然後有效地遷移到下游任務中。
圖片
架構

壓縮 tokenization。Transformer 在處理離散 token 序列方面表現特別出色。VQGAN 是一種常用的視覺 tokenizer,用於將原始畫素轉換為離散 token。研究者提出用一種由雙編碼器和解碼器 {(E_c, D_c),(E_p, D_p)} 組成的新型條件 VQGAN 對影片進行 token 化。

如圖 3a 所示,初始上下文幀圖片包含豐富的上下文資訊,透過 N 個 token 獨立地進行 token 化和重構

圖片

相比之下,由於上下文幀和未來幀之間存在時間冗餘,只有必要的變化資訊如移動物件的位置和姿態,才需要被編碼。上述過程是透過使用條件編碼器和解碼器實現的:

圖片

研究人員透過在多尺度特徵圖之間使用交叉注意力來實現條件機制。總的來說,tokenizer 是透過以下目標進行訓練的:

圖片

該研究提出的 tokenization 主要有兩個好處:

  • 首先,它顯著減少了 token 化後影片的序列長度,該長度隨幀數的增加而線性增長,但增長率 n 要小得多;
  • 其次,透過條件編碼,預測後續 token 的 transformer 可以更容易地保持上下文的時間一致性,並專注於建模必要的動態資訊。

Transformer 的可互動預測。Token 化後,影片被展平成一系列 token:

圖片

長度為圖片。特殊的 slot token [S] 被插入以劃定幀邊界,並促進額外低維模態(如動作)的融合。如圖 3b 所示,一個類似 GPT 的自迴歸 transformer 被用於透過逐幀生成 next-token 來進行互動式影片預測。在這項工作中,該團隊使用了 GPT-2 的模型大小,但採用了 LLaMA 架構,以便利用 LLM 架構的最新創新,如旋轉位置嵌入。

預訓練

語言模型可以透過 next-word 預測以自監督的方式從網際網路文字中獲得廣泛的知識。同樣,世界模型的無動作(action-free)影片預訓練正規化將影片預測作為預訓練目標,為 LLM 缺乏的物理世界知識提供網際網路規模的監督。

研究人員在這一通用目標上預訓練 iVideoGPT,應用交叉熵損失來預測後續影片 token:

圖片

預訓練資料。雖然網際網路上有大量影片可用,但由於計算限制,研究人員特別為機器人操作領域預訓練了 iVideoGPT。他們利用來自 Open X-Embodiment(OXE)資料集和 Something-Something v2(SSv2)資料集的 35 個資料集的混合,共計 150 萬條軌跡。

微調

動作條件與獎勵預測。該團隊的架構被設計為靈活地整合額外模態以學習互動式世界模型,如圖 3b 所示。動作透過線性投影並新增到 slot token 嵌入中進行整合。對於獎勵預測,他們沒有學習獨立的獎勵預測器,而是在每個觀察的最後一個 token 的隱藏狀態上新增了一個線性頭(linear head)。

這種多工學習方法可以增強模型對任務相關資訊的關注,從而提高控制任務的預測準確性。他們在方程式(3)的交叉熵損失之外,還使用了均方誤差損失進行獎勵預測。

Tokenizer 適應。研究團隊選擇更新完整模型,包括 tokenizer,以適應下游任務,並發現這一策略比引數高效的微調方法更有效。

很少有文獻探討將 VQGAN tokenizer 用於特定領域的資料。在這項工作中,由於 tokenization 將動態資訊與上下文條件解耦,並假設雖然此模型可能在下游任務中遇到未見過的物件,如不同型別的機器人,但 transformer 從多樣化場景中學到的基本物理知識 —— 如運動和互動是共享的。

這一假設得到了實驗的支援,他們將 iVideoGPT 從混合預訓練資料遷移到未見過的 BAIR 資料集,其中預訓練的 transformer 可以零樣本泛化預測自然運動,僅需對未見過的機器人抓手的 tokenizer 進行微調(見圖 7)。這一特性對於將類似 GPT 的 transformer 擴充套件到大型尺寸尤為重要,能夠在保持 transformer 完整的同時實現跨領域的輕量級對齊。
圖片
實驗

如表 1 所示,與 SOTA 方法相比,iVideoGPT 展現出了具有競爭力的效能,同時在其架構中實現了互動性和可擴充套件性。雖然初步實驗是在 64×64 的低解析度下進行的,但 iVideoGPT 可以輕鬆擴充套件到 RoboNet 的 256×256。
圖片
有關定性結果,請參閱圖 9。
圖片
圖 4 顯示了 iVideoGPT 與基準模型相比的成功率。iVideoGPT 在兩個 RoboDesk 任務中大幅優於所有基線,並實現了與最強模型 SVG' 相當的平均效能。
圖片
圖 6 顯示基於模型的演算法不僅比無模型演算法提高了樣本效率,而且達到或超過了 DreamerV3 的效能。
圖片
接下來該研究分析了大規模預訓練 iVideoGPT 在未見過的 BAIR 資料集上的零樣本影片預測能力。有趣的是,研究者在圖 7 的第二行觀察到,iVideoGPT 在沒有微調的情況下,預測了一個機器人抓手的自然運動 —— 儘管與預訓練資料集不同。這表明,儘管由於預訓練資料的多樣性不足,模型在完全未見過的機器人上的零樣本泛化能力有限,但它有效地將場景上下文與運動動態分離開來。相比之下,使用經過適應的 tokenizer,未經過微調的 Transformer 成功地遷移了預訓練知識,並在第三行預測了新型機器人的運動,提供了與第四行中完全微調的 Transformer 相似的感知質量,定量結果見圖 8a。
圖片
瞭解更多結果,請參考原論文。

相關文章