通用世界模型問世:不學習就能生成新領域影片,可實時控制

机器之心發表於2024-05-24

這才是 AI 影片生成的未來?

隨著 OpenAI 今年 2 月釋出 Sora,世界模型(World Model)再次成為了 AI 領域的熱門。

世界模型,即透過預測未來的正規化對數字世界和物理世界進行理解,一直以來被認為是通往通用人工智慧(AGI)的關鍵路徑之一,與當前大模型推崇的智慧體(Agent)方向互相區分。

世界模型的研究促進了互動式內容的建立,併為有根據的、長期的推理提供了基礎。當前的基礎模型並不能完全滿足通用世界模型的功能——大型語言模型(LLM)受到對語言模態的依賴以及對物理世界有限理解的限制,而影片模型(如 Sora)則缺乏對世界模擬的互動式動作控制。

在 UC San Diego、穆罕默德・本・扎耶德人工智慧大學(MBZUAI)等機構的最新研究中,人們透過引入 Pandora 向構建通用世界模型邁出了一步。

圖片MBZUAI 校長邢波(Eric Xing)表示,Pandora 是一個可透過語言命令實時操控的世界模型,能夠在視覺空間中實時推理概念層面。是時候超越語言世界中的 LLM,進入物理和感官世界了!

Pandora 是一種混合自迴歸擴散模型,可透過生成影片來模擬世界狀態,並允許透過自由文字動作(free-text action)進行實時控制。Pandora 透過大規模預訓練和指令調整實現了領域通用性、影片一致性和可控性。通用世界模型問世:不學習就能生成新領域影片,可實時控制更加重要的是,Pandora 透過整合預訓練的 LLM(7B)和預訓練的影片模型,繞過了從頭開始訓練的成本,只需要額外的輕量級微調。作者展示了 Pandora 在不同領域(室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 等)的廣泛輸出能力。結果表明,透過更大規模的訓練,我們能夠構建更強大的通用世界模型。

圖片
  • 論文:Pandora : Towards General World Model with Natural Language Actions and Video States

  • 論文地址:https://world-model.maitrix.org/assets/pandora.pdf

  • 專案地址:https://github.com/maitrix-org/Pandora

  • 專案展示頁面:https://world-model.maitrix.org/

該研究展示了一系列先前模型不具有的特性:

  • 能模擬廣泛領域的影片狀態:Pandora 能夠生成廣泛領域的影片,例如室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 和其他場景。這種領域的通用性主要歸功於大規模影片預訓練(繼承自預訓練影片模型)。

  • 該模型允許透過自由文字動作進行動態控制:Pandora 接受自然語言動作描述作為影片生成期間的輸入,以指導未來的世界狀態。這與以前的文字到影片模型有很大不同,以前的文字到影片模型僅允許在影片開頭出現文字提示。動態控制實現了世界模型的承諾,支援互動式內容生成並增強穩健的推理和規劃。該功能是透過模型的自迴歸架構(允許隨時輸入文字)、預訓練的 LLM 主幹(可以理解任何文字表示式)和指令調整(可以大大增強控制的有效性)來實現的。

  • 動作可控性跨域遷移:如前所述,使用高質量資料進行指令調整使模型能夠學習有效的動作控制,並遷移到不同的新領域。新模型從特定領域學到的動作可以無縫地應用於不同新領域。

  • 自迴歸模型主幹支援更長的影片:基於擴散架構的現有影片生成模型通常會生成固定長度(例如 2 秒)的影片。透過將預訓練影片模型與 LLM 自迴歸主幹整合,Pandora 能夠以自迴歸方式無限延長影片持續時間。結合額外的訓練(例如指令調整),作者證明 Pandora 可以生成更高質量的更長影片(可長達 8 秒)。

方法

模型架構

Pandora 是一個自迴歸世界模型。給定世界先前的狀態(例如影像或影片剪輯)和自然語言動作描述,它可以預測世界的下一個狀態(以影片剪輯的形式)。

如下圖 2 所示,Pandora 的兩個核心元件包括自迴歸主幹網路(源自預訓練 LLM)和影片生成器(使用預訓練影片模型進行初始化)。為了將這兩個元件拼接在一起,Pandora 還新增了其他必要的元件,包括視覺編碼器,以及分別將視覺編碼器連線到 LLM 主幹和將 LLM 主幹連線到影片生成器的兩個介面卡。

圖片

階段性訓練

通用世界模型需要實現一致性、可控性和通用性,即它需要生成一致的影片來準確描述世界狀態,允許在影片生成過程中隨時接受自然語言動作描述來進行動態控制,並跨越所有不同的領域執行上述操作(具有不同的場景和動作)。

直接訓練世界模型需要大量高質量序列(影片 S1、文字 A1、影片 S2……)作為訓練資料,而這在實踐中很難獲得。

因此,該研究設計了一個兩階段的訓練策略,包括預訓練和指令調整。

預訓練階段旨在讓模型獲得一些關鍵能力,包括:

  • 影片生成器的一致、通用影片生成能力;

  • 自迴歸主幹網路的通用文字理解能力,以處理動作;

  • 兩個元件之間的表徵空間對齊能力。

表 1 總結了該研究收集到的資料,主要來自公共語料庫和資料處理模擬器。

圖片

定性結果

研究論文展示了一些定性結果,表明 Pandora 作為世界模擬器的核心功能,未來該研究將提供更多定量結果。

跨域的即時控制

Pandora 是一個通用世界模型,能夠生成跨廣泛領域的影片。它允許透過自由文字動作進行動態控制,即它可以在影片生成期間隨時接受文字動作控制並相應地預測未來的世界狀態。

圖片

圖片

Pandora 模型能夠理解現實世界的物理概念,可以生成演示基本物理現象的影片:

圖片

動作可控性遷移

雖然一些動作及其相應的運動模式只出現在一些模擬資料中,但 Pandora 可以將動作可控性遷移到不同的未見領域。如下圖所示圖,Pandora 分別將 Coinrun 的 2D 遊戲能力和 HM3D 的 3D 模擬器能力遷移到其他未見領域。

圖片

自迴歸生成更長的影片

藉助自迴歸主幹網路,Pandora 能夠以自迴歸方式生成更高質量的更長影片。Pandora 接受最長 5 秒(40 幀)的影片訓練,但它能夠生成更長的影片。下圖顯示了生成 8 秒(64 幀)影片的結果。

圖片

儘管如此,作者表示 Pandora 很難生成高質量和良好可控的影片。在論文中,作者展示了一些語義理解、運動控制和影片一致性方面的失敗案例。

圖片

在進行小規模探索實驗時,作者發現資料質量,即動力學描述的精度對模型效能有很大影響。在存在高質量模擬資料的領域,模型很容易獲得良好的可控性。但在公共影片資料集領域,GPT-4 Turbo 生成的字幕存在噪聲,導致模型並沒有表現出良好的效能。然而,當增加訓練計算量時,模型上就會湧現出跨通用領域的可控性。

Pandora 的探索表明透過更大規模的訓練,構建更強大的通用世界模型,這一研究方向具有巨大潛力。

相關文章