Sora是世界模擬器嗎?全球首篇綜述全面解析通用世界模型
机器之心發表於2024-05-13
世界模型,即透過預測未來的正規化對數字世界和物理世界進行理解,是通往實現通用人工智慧(AGI)的關鍵路徑之一。在影片生成領域,OpenAI 釋出的 Sora 引起了廣泛關注,Sora 具有極強的模擬能力,可以展現出對物理世界的初步理解;影片生成領軍企業 Runway 在技術部落格中表示,文生影片系統 Gen-2 的下一代產品將會透過通用世界模型來實現。在自動駕駛領域,Tesla 和 Wayve 均表示在利用世界模型的預測未來特性構建其端到端自動駕駛系統。在更廣泛的通用機器人智慧領域,LeCun 多次在演講中表示對世界模型潛力的極大關注,並預言世界模型將會取代自迴歸模型成為新一代智慧系統的基礎。為了對世界模型的最新進展進行全面探索和總結,近日,北京極佳視界科技有限公司(極佳科技)的研究人員聯合國內外多家單位(中國科學院自動化研究所、新加坡國立大學、中國科學院計算技術研究所、上海人工智慧實驗室、邁馳智行、西北工業大學、清華大學等)推出了全球首篇通用世界模型綜述。該綜述透過 260 餘篇文獻,對世界模型在影片生成、自動駕駛、智慧體、通用機器人等領域的研究和應用進行了詳盡的分析和討論。另外,該綜述還審視了當前世界模型的挑戰和侷限性,並展望了它們未來的發展方向。極佳科技的研究人員表示,會在 GitHub 專案中持續更新關於通用世界模型的更多研究進展,希望該綜述能夠成為通用世界模型的研究參考。- 論文地址:https://arxiv.org/abs/2405.03520
- GitHub專案地址:https://github.com/GigaAI-research/General-World-Models-Survey
世界模型透過對未來的預測來增進對世界的理解。如下圖所示,世界模型的預測能力對於影片生成、自動駕駛以及智慧體的發展至關重要,這三者代表了世界模型研究的主流應用方向。首先,影片生成世界模型是指利用世界模型技術來生成和編輯影片,以便理解和模擬真實世界的情景。透過這種方式,能夠更好地瞭解和表達複雜的視覺資訊,為藝術創作提供了全新的可能性。其次,自動駕駛世界模型是指利用影片生成和預測技術來創造和理解駕駛場景,並從這些場景中學習駕駛行為和策略,這對於實現端到端的自動駕駛系統具有重要意義。最後,智慧體世界模型是指利用影片生成和預測技術在動態環境中建立智慧體與環境的互動,與自動駕駛模型不同,智慧體世界模型構建的是適用於各種環境和情境的智慧策略網路;這些智慧體可能是虛擬的,例如在遊戲中控制角色的行為,也可能是實體的,例如控制機器人在物理世界中執行任務;透過這種方式,智慧體世界模型為實現智慧互動和智慧控制提供了新的解決方案。影片生成領域
如下圖所示,首先,該綜述按照時間順序討論介紹了近年來提出的代表性影片生成模型。在 2021 年之前,以 GAN 為基礎的模型(IRC-GAN、TGANs-C、TFGSN、StoryGAN、TiVGAN 等)主導了影片生成領域。之後,基於自迴歸建模(GODIVA、VideoGPT 等)、擴散建模(Imagen Video、SVD、CogVideo 等)和掩碼建模(MAGVIT、VideoPoet、WorldDreamer 等)的模型開始出現,並取得了更好的生成效果。以 GAN 為基礎的模型(下圖 (a))將生成器和判別器網路進行對抗訓練,使得生成的影片更加真實。擴散建模(下圖 (b))則將影片訊號編碼到隱空間,引入一個降噪過程來生成影片,透過在隱空間多步降噪從純噪聲中解碼恢復出高質量影片。基於自迴歸建模的模型(下圖 (c))使用預測下一個視覺 Token 的方法,逐步生成下一個時間對應的影片內容,這種方法能夠捕捉時間序列中的依賴關係,生成連貫和真實的影片。而掩碼建模(下圖 (d))則透過在訓練過程中對部分視覺資訊進行遮擋,並逐步恢復出掩碼區域,最終得到無掩碼的清晰影片。綜上所述,近年來影片生成模型呈現出了多樣化和創新化的發展趨勢,不同的模型方法相繼湧現並取得了令人矚目的生成效果。Sora 是最近備受矚目的影片生成模型,其技術方案依賴於上圖 (c) 的擴散模型。由於 Sora 是閉源的,本綜述的相關分析主要基於其技術報告(https://openai.com/index/video-generation-models-as-world-simulators)。如下圖所示,Sora 主要包括三個部分:- 壓縮模型:該模型將原始影片在時間和空間上進行壓縮,轉換成隱空間的特徵進行表示,並且有一個解碼器可以將隱空間特徵對映回原始影片。
- 基於 Transformer 的擴散模型:與 DiT(Scalable Diffusion Models with Transformers)方法類似,該模型在隱空間中對含有噪聲的視覺特徵不斷進行降噪處理。
- 語言模型:使用大語言模型將使用者的輸入編碼為詳細的 promts,以此控制影片的生成。
自動駕駛領域
除了影片生成方向,世界模型在自動駕駛場景下也存在巨大的應用價值,近些年來被研究者們不斷探索。下圖展示了自 2023 年以來,世界模型在自動駕駛場景場景下的研究發展,其中包括三種型別:端到端自動駕駛、駕駛場景 2D 模擬器和駕駛場景 3D 模擬器。在自動駕駛領域,世界模型可以用來構建環境的動態表示。對未來的準確預測對於確保在各種工況下進行安全駕駛至關重要。因此,端到端自動駕駛方法(Iso-Dream、MILE、SEM2 等)透過最小化搜尋空間並在 CARLA v1 模擬器上整合視覺動態的明確解耦來應對這些挑戰。TrafficBots 則是另一種基於世界模型的端到端駕駛方法,其側重於預測給定情景中各個智慧體的行為。透過考慮每個智慧體的目的地,TrafficBots 利用條件變分自動編碼器賦予各個智慧體獨特的特徵,從 BEV(鳥瞰圖)視角實現動作預測。上述方法在 CARLA v1 上進行了實驗,但面臨 CARLA v2 中資料低效性的挑戰。為了解決 CARLA v2 場景的複雜性。Think2Drive 提出一種基於模型的強化學習方法用於自動駕駛,鼓勵規劃器在學習的潛在空間中進行 “思考”。該方法透過利用低維狀態空間和張量的平行計算顯著提高了訓練效率。高質量的資料是訓練深度學習模型的基石。雖然網際網路文字和影像資料成本較低且易於獲取,但在自動駕駛領域獲取資料存在著諸多挑戰,原因包括感測器複雜性和隱私問題等因素。特別是在獲取直接影響實際駕駛安全的長尾目標時更是如此。世界模型對於理解和模擬複雜的物理世界至關重要。一些最近的研究已經將擴散模型引入到自動駕駛領域,以構建世界模型作為神經模擬器,生成所需的自主 2D 駕駛影片。此外,一些方法利用世界模型生成未來場景的 3D 佔用網格或 LiDAR 點雲。下表提供了基於世界模型的駕駛場景資料生成方法的總結。智慧體、機器人領域
除了自動駕駛領域,世界模型在智慧體、機器人領域也有廣泛的應用。給定一個目標,智慧體需要規劃一系列動作完成指定任務。已經有許多成功的演算法用於在已知環境中進行動態規劃,然而在大多數情況下,環境是複雜和隨機的,難以透過人類經驗明確建模。因此,該領域的核心主題是智慧體如何在未知和複雜的環境中學習規劃。解決這個問題的一種方法是讓智慧體從與環境的互動中積累經驗,並直接從中學習行為,而不對環境的狀態變化建模(即無模型強化學習)。雖然這種解決方案簡單靈活,但學習過程依賴於與環境的許多互動,成本非常高昂。World Models 是第一篇在強化學習領域引入世界模型概念的研究,其從智慧體的經驗中對世界的知識進行建模,並獲得預測未來的能力。這項工作表明,即使是一個簡單的迴圈神經網路模型也能夠捕捉環境的動態資訊,並支援智慧體在該模型中學習和演化策略。這種學習正規化被稱為 “在想象中學習”。藉助世界模型,試驗和失敗的成本可以大大降低。下圖展示了智慧體和機器人領域的世界模型發展視概覽,不同顏色顯示了不同結構的世界模型。其中 RSSM(PlatNet、DreamerV1、DreamerV2、DreamerV3 等)佔據主導地位,而 Transformer(TransDreamer、IRIS、Genie 等)、JEPA(JEPA、MC-JEPA、A-JEPA、V-JEPA 等)和擴散模型(RoboDreamer、UniSim)從 2022 年開始越來越受到關注。Recurrent State Space Model (RSSM) 是 Dreamer 系列的核心結構,旨在促進潛空間中的預測。它從畫素觀察中學習環境的動態模型,並透過在編碼的潛在空間中規劃選擇動作。透過將潛在狀態分解為隨機和確定性部分,該模型考慮了環境的確定性和隨機因素。由於在機器人的連續控制任務中表現出色,許多後續的工作都在其基礎上進行了擴充。Joint-Embedding Predictive Architecture (JEPA) 是由 LeCun 等人提出的,它學習從輸入資料到預測輸出的對映關係。與傳統的生成模型不同,該模型不直接生成畫素級輸出,而是在更高階別的表示空間中進行預測,從而使模型能夠專注於學習更語義化的特徵。JEPA 的另一個核心思想是透過自監督學習來訓練網路,以便它可以預測輸入資料中缺失或隱藏的部分。透過自監督學習,模型可以在大量未標記的資料上進行預訓練,然後在下游任務上進行微調,從而提高其在各種視覺和通用任務上的效能。Transformer 源自自然語言處理任務。它基於注意力機制的原理,使模型能夠同時關注輸入資料的不同部分。在許多需要長期依賴和基於記憶推理的領域中,Transformer 已被證明比迴圈神經網路更有效,因此近年來在強化學習領域受到越來越多的關注。自 2022 年以來,已有多項工作嘗試基於 Transformer 及其變種構建世界模型,在某些複雜的記憶互動任務上實現了比 RSSM 模型更好的效能。其中,Google 的 Genie 引起了相當大的關注。這項工作基於 ST-Transformer 構建了一個生成互動環境,透過對大量未標記的網際網路影片資料進行自監督學習進行訓練。Genie 展示了一種可定製化操控的世界模型新正規化,為未來世界模型的發展提供了巨大潛力。近來,也有方法基於擴散模型進行智慧體世界模型的構建,RoboDreamer 學習構成式世界模型以增強機器人的想象力。它將影片生成過程進行分解,並利用自然語言的固有組合性。透過這種方式,它可以合成未見過的物件和動作組合的影片。RoboDreamer 將語言指令分解為一組基本元素,然後作為一組模型生成影片的不同條件。這種方法不僅展示了強大的零樣本泛化能力,還在多模態指令影片生成和機器人操作任務部署上取得了不俗的結果。UniSim 則是一個用於真實物理世界互動的生成式模擬器。UniSim 包含一個統一的生成框架,將動作作為輸入,整合了多樣的資料集。透過這種方法,UniSim 能夠模擬高階指令和低階控制的視覺結果,可以進行可控遊戲內容的建立以及在模擬環境中訓練具身智慧物件。儘管近年來在通用世界模型以及特定領域應用如自動駕駛和機器人的研究急劇增加,但仍有許多挑戰和機遇等待進一步探索。本綜述也深入探討了當前通用世界模型面臨的複雜挑戰,同時設想了其未來發展的潛在方向。作為一種預測模型,世界建模的本質在於其推理未來的能力。該模型應能夠推斷以前從未遇到過的決策的結果,而不僅僅是在已知資料分佈內進行預測。正如下圖所示,我們期望世界模型具有反事實推理的能力,透過理性的想象推斷結果。這種能力在人類中本能存在,但對於當前的 AI 系統來說仍然是一個具有挑戰性的任務。例如,想象一輛面臨突發交通事故的自動駕駛車輛或者一個處於新環境的機器人。具備反事實推理能力的世界模型可以模擬它們可能採取的不同行動,預測結果,並選擇最安全的響應。這將明顯改善自主智慧體系統的決策能力,幫助它們處理新的和複雜的情景。雖然 Sora 的影片生成能力令人印象深刻,但有許多研究者認為將其視為世界模型為時尚早,因為它並不完全遵守物理定律。現實世界要求嚴格遵守物理定律,如重力、光相互作用和流體動力學。雖然 Sora 在建模運動方面有所改進,包括行人和剛體運動,但它仍然在準確模擬流體和複雜的物理現象方面表現不佳。僅透過影片 - 文字對訓練是不足以理解這些複雜性的,與物理渲染器產生的資料聯合訓練可能是一條潛在的解決路徑。泛化能力是評估世界模型效能的關鍵之一,其強調的不僅是資料內插,更重要的是資料外推。例如,在自動駕駛中,真實的交通事故或異常的駕駛行為是罕見的事件。那麼,學習得到的世界模型能否想象這些罕見的駕駛事件呢?這要求模型不僅要超越簡單地記憶訓練資料,而且要發展出對駕駛原理的深刻理解。透過從已知資料進行外推,並模擬各種潛在情況,世界模型可以更好地在現實世界中進行安全的導航。影片生成的效率是限制其大規模應用的關鍵因素。為了保持影片生成的一致性,通常採用的時序一致性模組會導致生成時間大大增加。根據網際網路上的新聞和分析,Sora 可能需要大約一個小時來生成一分鐘的影片。儘管在影像生成領域出現了一系列基於蒸餾的方法,顯著加速了生成速度,但在影片生成領域的相關研究仍然非常有限。當前的世界模型的研究熱點主要集中在生成式模型上,評估指標主要是生成質量,如 FID 和 FVD 等。此外,還有一些工作提出了更全面的評估基準,如 CLIPScore、T2VScore、VBench、EvalCrafter、PEEKABOO 等。然而,單獨的度量數字不能全面反映世界模型的預測合理性。結合人類反饋可以使得評估變得更全面,但如何提升其效率和一致性是一個值得深入研究的方向。本綜述的牽頭單位北京極佳視界科技有限公司是國內通用視覺智慧方向最領先的團隊之一,核心團隊發表視覺和人工智慧方向頂級論文 200 餘篇,多次獲得全球最具影響力的人工智慧比賽冠軍,發表多個具有世界影響力的人工智慧技術成果,並擁有豐富的人工智慧大規模產業落地經驗。極佳科技目前已經打造百億引數級別通用視覺生成大模型,其研發的世界模型 DriveDreamer、WorldDreamer、HumanDreamer系列,已經在自動駕駛資料生成、具身智慧、通用影片生成等應用場景實現落地和產生規模化營收,同時相關技術和成果得到國家專項課題認可和重點支援。