通用世界模型問世：不學習就能生成新領域影片，可實時控制

机器之心發表於2024-05-24

原文網址 : https://www.jiqizhixin.com/articles/2024-05-24-9

這才是 AI 影片生成的未來？

隨著 OpenAI 今年 2 月釋出 Sora，世界模型（World Model）再次成為了 AI 領域的熱門。

世界模型，即透過預測未來的正規化對數字世界和物理世界進行理解，一直以來被認為是通往通用人工智慧（AGI）的關鍵路徑之一，與當前大模型推崇的智慧體（Agent）方向互相區分。

世界模型的研究促進了互動式內容的建立，併為有根據的、長期的推理提供了基礎。當前的基礎模型並不能完全滿足通用世界模型的功能——大型語言模型（LLM）受到對語言模態的依賴以及對物理世界有限理解的限制，而影片模型（如 Sora）則缺乏對世界模擬的互動式動作控制。

在 UC San Diego、穆罕默德・本・扎耶德人工智慧大學（MBZUAI）等機構的最新研究中，人們透過引入 Pandora 向構建通用世界模型邁出了一步。

^{MBZUAI 校長邢波（Eric Xing）表示，Pandora 是一個可透過語言命令實時操控的世界模型，能夠在視覺空間中實時推理概念層面。是時候超越語言世界中的 LLM，進入物理和感官世界了！}

Pandora 是一種混合自迴歸擴散模型，可透過生成影片來模擬世界狀態，並允許透過自由文字動作（free-text action）進行實時控制。Pandora 透過大規模預訓練和指令調整實現了領域通用性、影片一致性和可控性。通用世界模型問世：不學習就能生成新領域影片，可實時控制更加重要的是，Pandora 透過整合預訓練的 LLM（7B）和預訓練的影片模型，繞過了從頭開始訓練的成本，只需要額外的輕量級微調。作者展示了 Pandora 在不同領域（室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 等）的廣泛輸出能力。結果表明，透過更大規模的訓練，我們能夠構建更強大的通用世界模型。

論文：Pandora : Towards General World Model with Natural Language Actions and Video States
論文地址：https://world-model.maitrix.org/assets/pandora.pdf
專案地址：https://github.com/maitrix-org/Pandora
專案展示頁面：https://world-model.maitrix.org/

該研究展示了一系列先前模型不具有的特性：

能模擬廣泛領域的影片狀態：Pandora 能夠生成廣泛領域的影片，例如室內 / 室外、自然 / 城市、人類 / 機器人、2D/3D 和其他場景。這種領域的通用性主要歸功於大規模影片預訓練（繼承自預訓練影片模型）。
該模型允許透過自由文字動作進行動態控制：Pandora 接受自然語言動作描述作為影片生成期間的輸入，以指導未來的世界狀態。這與以前的文字到影片模型有很大不同，以前的文字到影片模型僅允許在影片開頭出現文字提示。動態控制實現了世界模型的承諾，支援互動式內容生成並增強穩健的推理和規劃。該功能是透過模型的自迴歸架構（允許隨時輸入文字）、預訓練的 LLM 主幹（可以理解任何文字表示式）和指令調整（可以大大增強控制的有效性）來實現的。
動作可控性跨域遷移：如前所述，使用高質量資料進行指令調整使模型能夠學習有效的動作控制，並遷移到不同的新領域。新模型從特定領域學到的動作可以無縫地應用於不同新領域。
自迴歸模型主幹支援更長的影片：基於擴散架構的現有影片生成模型通常會生成固定長度（例如 2 秒）的影片。透過將預訓練影片模型與 LLM 自迴歸主幹整合，Pandora 能夠以自迴歸方式無限延長影片持續時間。結合額外的訓練（例如指令調整），作者證明 Pandora 可以生成更高質量的更長影片（可長達 8 秒）。

方法

模型架構

Pandora 是一個自迴歸世界模型。給定世界先前的狀態（例如影像或影片剪輯）和自然語言動作描述，它可以預測世界的下一個狀態（以影片剪輯的形式）。

如下圖 2 所示，Pandora 的兩個核心元件包括自迴歸主幹網路（源自預訓練 LLM）和影片生成器（使用預訓練影片模型進行初始化）。為了將這兩個元件拼接在一起，Pandora 還新增了其他必要的元件，包括視覺編碼器，以及分別將視覺編碼器連線到 LLM 主幹和將 LLM 主幹連線到影片生成器的兩個介面卡。

階段性訓練

通用世界模型需要實現一致性、可控性和通用性，即它需要生成一致的影片來準確描述世界狀態，允許在影片生成過程中隨時接受自然語言動作描述來進行動態控制，並跨越所有不同的領域執行上述操作（具有不同的場景和動作）。

直接訓練世界模型需要大量高質量序列（影片 S1、文字 A1、影片 S2……）作為訓練資料，而這在實踐中很難獲得。

因此，該研究設計了一個兩階段的訓練策略，包括預訓練和指令調整。

預訓練階段旨在讓模型獲得一些關鍵能力，包括：

影片生成器的一致、通用影片生成能力；
自迴歸主幹網路的通用文字理解能力，以處理動作；
兩個元件之間的表徵空間對齊能力。

表 1 總結了該研究收集到的資料，主要來自公共語料庫和資料處理模擬器。

定性結果

研究論文展示了一些定性結果，表明 Pandora 作為世界模擬器的核心功能，未來該研究將提供更多定量結果。

跨域的即時控制

Pandora 是一個通用世界模型，能夠生成跨廣泛領域的影片。它允許透過自由文字動作進行動態控制，即它可以在影片生成期間隨時接受文字動作控制並相應地預測未來的世界狀態。

Pandora 模型能夠理解現實世界的物理概念，可以生成演示基本物理現象的影片：

動作可控性遷移

雖然一些動作及其相應的運動模式只出現在一些模擬資料中，但 Pandora 可以將動作可控性遷移到不同的未見領域。如下圖所示圖，Pandora 分別將 Coinrun 的 2D 遊戲能力和 HM3D 的 3D 模擬器能力遷移到其他未見領域。

自迴歸生成更長的影片

藉助自迴歸主幹網路，Pandora 能夠以自迴歸方式生成更高質量的更長影片。Pandora 接受最長 5 秒（40 幀）的影片訓練，但它能夠生成更長的影片。下圖顯示了生成 8 秒（64 幀）影片的結果。

儘管如此，作者表示 Pandora 很難生成高質量和良好可控的影片。在論文中，作者展示了一些語義理解、運動控制和影片一致性方面的失敗案例。

在進行小規模探索實驗時，作者發現資料質量，即動力學描述的精度對模型效能有很大影響。在存在高質量模擬資料的領域，模型很容易獲得良好的可控性。但在公共影片資料集領域，GPT-4 Turbo 生成的字幕存在噪聲，導致模型並沒有表現出良好的效能。然而，當增加訓練計算量時，模型上就會湧現出跨通用領域的可控性。

Pandora 的探索表明透過更大規模的訓練，構建更強大的通用世界模型，這一研究方向具有巨大潛力。

RTX 4090可跑、完全開源，最快影片生成模型問世，實測一言難盡
2024-11-24
模型
自動生成特定領域模型和圖表
2024-06-14
模型
B站在實時音影片技術領域的探索與實踐
2022-11-15
CityDreamer4D: 下一個世界模型，何必是影片生成模型？
2025-01-28
世界模型
史上首個實時AI影片生成技術：DiT通用，速度提升10.6倍
2024-06-28
AI
AI浪潮下，大模型如何在音影片領域運用與實踐？
2023-12-14
AI大模型
統計模型機器學習模型領域相關知識，指標概念及問題點積累
2018-08-24
模型機器學習指標
從mimikatz學習Windows安全之訪問控制模型（二）
2021-08-24
Windows模型
從mimikatz學習Windows安全之訪問控制模型（一）
2021-08-24
Windows模型
端側裝置AI代理最佳化框架問世，領域內準確率可達97%
2024-07-15
AI框架
好玩的策略並不貴，《世界啟元》引領SLG進入新時代
2024-06-28
淺談領域模型
2020-10-05
模型
讓機器人擁有人一樣「潛意識」，英偉達1.5M小模型就能實現通用控制了
2024-10-31
機器人模型
領域驅動模型DDD（二）——領域事件的訂閱/釋出實踐
2022-04-07
模型事件
每幀都是AI實時生成的，全球首款AI遊戲問世了！
2024-11-02
AI遊戲
領域模型的雙時態設計Bi-temporal
2019-08-23
模型
運用領域模型——DDD
2022-11-30
模型
為什麼短影片離不開美顏SDK？短影片領域的秘密武器
2023-10-08
一個可一鍵生成短影片的AI大模型，親測可用
2024-03-27
AI大模型
DDD學習（二）—— 領域建模重要概念
2020-11-22
這家世界模型公司釋出中國版Sora級影片生成大模型，走向世界模型打造新一代資料引擎
2024-06-11
世界模型Sora大模型
2018世界盃巴西vs比利時影片錄播 1/4決賽巴西1-2比利時回放影片
2018-07-07
2018世界盃比利時vs英格蘭影片錄播比利時2-0英格蘭回放影片
2018-07-15
2018世界盃英格蘭vs比利時影片錄播英格蘭0-1比利時回放影片
2018-06-29
時至今日，深度學習領域有哪些值得追蹤的前沿研究？
2020-04-20
深度學習
影片通訊近實時生成字幕專案實踐
2023-03-19
在DDD中建立領域模型
2023-02-22
模型
深度學習領域的資料增強
2020-03-13
深度學習
linux目前應用領域如何？學習linux
2020-09-14
Linux
2018世界盃法國vs比利時影片錄播半決賽法國1-0比利時回放影片
2018-07-11
新媒體運營學習有用嗎？新媒體短影片學習
2020-08-06
AIGC體驗文字生成影片-可靈
2024-08-08
AIGC
使用Transformer與無監督學習，OpenAI提出可遷移至多種NLP任務的通用模型
2018-06-13
ORMOpenAI模型
深度學習模型可解釋性初探
2018-10-13
深度學習模型
位元組面試：領域、子域、核心域、通用域和支撐域怎麼劃分？
2024-04-15
面試
不同的領域、框架，這是一份超全的深度學習模型GitHub集合
2019-02-27
框架深度學習模型Github
15大領域、127個任務，這裡有最全的機器學習SOTA模型
2019-09-27
機器學習模型
人工智慧-深度學習-生成模型：GAN經典模型--＞InfoGAN
2021-01-02
人工智慧深度學習模型

通用世界模型問世：不學習就能生成新領域影片，可實時控制

相關文章