CityDreamer4D: 下一個世界模型,何必是影片生成模型?

机器之心發表於2025-01-28

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com。

在過去的兩年裡,城市場景生成技術迎來了飛速發展,一個全新的概念 ——世界模型(World Model)也隨之崛起。當前的世界模型大多依賴 Video Diffusion Models(影片擴散模型)強大的生成能力,在城市場景合成方面取得了令人矚目的突破。然而,這些方法始終面臨一個關鍵挑戰:如何在影片生成過程中保持多視角一致性?

而在 3D 生成模型的世界裡,這一問題根本不是問題 —— 它天然支援多視角一致性。基於這一洞察,南洋理工大學 S-Lab 的研究者們提出了一種全新的框架:CityDreamer4D。它突破了現有影片生成的侷限,不再簡單地「合成畫面」,而是直接建模城市場景背後的執行規律,從而創造出一個真正無邊界的 4D 世界

如果世界模型的終極目標是打造一個真實、可互動的虛擬城市,那麼我們真的還需要依賴影片生成模型嗎?不妨直接看看 CityDreamer4D 如何突破現有方案,構建出一個真正無邊界、自由探索的 4D 城市世界——請欣賞它的生成效果!

CityDreamer4D: 下一個世界模型,何必是影片生成模型?

想深入瞭解 CityDreamer4D 的技術細節?我們已經為你準備好了完整的論文、專案主頁和程式碼倉庫!

圖片

  • 論文連結:https://arxiv.org/abs/2501.08983
  • 專案連結:https://haozhexie.com/project/city-dreamer-4d/
  • GitHub連結:https://github.com/hzxie/CityDreamer4D

引言

過去兩年,城市場景生成技術取得了突破性進展,生成質量達到了前所未有的高度。這一進步伴隨著 “元宇宙” 和 “世界模型” 等概念的興起,推動了對更真實、更連貫虛擬世界的探索。其中,“世界模型” 致力於在生成的場景中融入物理世界的執行規律,為更具沉浸感的虛擬環境奠定基礎。當前主流的世界模型可大致分為四類:

  • 基於影片生成的方法(如 StreetScapes [1] 和 DimensionX [2]):依託 Video Diffusion Models(影片擴散模型),這些方法能夠直接生成高質量的影片場景。然而,儘管擴散模型的能力驚人,幀間一致性仍然是一個長期未解的挑戰,使得多視角的連貫性難以保證。
  • 基於影像生成的方法 (如 WonderJourney [3] 和 WonderWorld [4]):利用 Image Outpainting 和 Depth 估計,這些方法可以擴充套件場景,但受限於僅能生成小範圍區域,缺乏全域性一致性。例如,在面對一條河流時,轉身 180 度可能會看到毫不相關的景象,影響場景的連貫性。
  • 基於程式化生成的方法(如 SceneX [5] 和 CityX [6]):透過結合語言模型與程式化建模,這些方法能夠生成結構化的城市場景。然而,場景的多樣性受限於現有素材庫,使得生成結果的豐富度有所侷限。
  • 基於 3D 建模的方法(如 CityDreamer [7] 和 GaussianCity [8]):這些方法採用顯式 3D 建模,直接從資料中學習 3D 表徵,從而生成空間一致的城市場景。儘管它們已解決了多視角一致性問題,但仍未突破時間維度,無法生成 4D 場景,即缺乏動態演化能力。

CityDreamer4D 正是為了解決這一難題而生。它打破了影片擴散模型的固有瓶頸,不僅僅是 “合成” 城市影像,而是直接建模城市場景背後的執行規律,打造一個真正無邊界、可自由探索的 4D 世界。我們的核心洞見如下:(1)4D 城市生成應當將動態物體(如車輛)與靜態場景(如建築和道路)解耦;(2)4D 場景中的所有物體應由不同型別的神經場組成,包括建築、車輛和背景環境。

具體而言,我們提出了交通場景生成器(Traffic Scenario Generator)無邊界佈局生成器(Unbounded Layout Generator),分別用於生成動態交通場景和靜態城市佈局。它們基於高度緊湊的鳥瞰視角(BEV)表示進行建模,使得場景生成更加高效。在 4D 城市中,所有物體的生成依賴於背景環境、建築物和車輛的神經場表示,其中結合了基於事物(Stuff-oriented)和基於例項(Instance-oriented)的神經場。為了適配背景環境與例項物體的不同特性,我們採用了自適應生成雜湊網格(Generative Hash Grids)週期位置編碼(Periodic Positional Embeddings)進行場景引數化,確保生成的城市既具備豐富的細節,又能保持時空一致性。

CityDreamer4D: 基於 4D 生成的城市建模框架

圖片

CityDreamer 透過無邊界佈局生成器(Unbounded Layout Generator)生成靜態場景的城市佈局,並利用城市背景生成器(City Background Generator建築例項生成器(Building Instance Generator)對城市中的背景環境和建築進行建模。相比之下,CityDreamer4D在此基礎上進一步引入交通場景生成器(Traffic Scenario Generator)車輛例項生成器(Vehicle Instance Generator),專門用於建模 4D 場景中的動態物體,使生成的城市更加生動且符合物理規律。

城市佈局生成

CityDreamer4D將無限擴充套件的城市佈局生成問題轉化為可擴充套件的語義地圖和高度場建模,從而實現更靈活的城市生成。為此,它採用了基於 MaskGIT 的無邊界佈局生成器(Unbounded Layout Generator, ULG),這一方法天然支援Inpainting Outpainting ,使得場景可在任意方向擴充。

具體而言,ULG 先透過 VQVAE 對語義圖和高度場的影像切片進行編碼,將其對映到離散潛在空間,並構建 Codebook 。在推理過程中,ULG 以自迴歸方式生成 Codebook 索引,並利用 VQVAE 解碼器生成一對語義圖和高度場。值得一提的是,高度場由俯視高度圖仰視高度圖組成,這一設計使得 ULG 能夠精準建模場景中的鏤空結構(如橋樑等)。

由於 VQVAE 生成的語義圖和高度場尺寸固定,ULG 透過影像 Outpainting 進行擴充套件,以支援任意規模的城市佈局。在此過程中,它採用滑動視窗策略逐步預測區域性 Codebook 索引,每次滑動時視窗之間保持25% 的重疊,確保生成區域的平滑銜接和連貫性。

交通場景生成

CityDreamer4D 中, 交通場景生成器(Traffic Scenario Generator)負責在靜態城市佈局上生成合理的動態交通流,以建模真實的城市動態。

交通場景被表示為 圖片,其中 圖片語義圖(Semantic Map)高度場(Height Field)共同描述:語義圖圖片標記動態物體的位置,高度場 圖片定義它們的高度範圍。這種表示方式確保了動態物體能在 3D 體素空間中準確渲染,並與靜態場景保持一致。

為了使交通流合理且符合物理規律,我們引入高畫質交通地圖(HD Map)作為約束。HD Map 在城市佈局(City Layout)的基礎上,額外提供車道中心線、交叉口、道路標誌、交通訊號燈等關鍵資訊。具體而言,我們將 City Layout 轉換為圖結構(Graph Representation),透過邊緣檢測和向量化技術提取道路邊界,並進一步解析車道中心線及其拓撲關係。結合 Bézier 曲線,我們推導車道的數量、寬度及其交叉口連線方式,以生成完整的 HD Map。

基於 HD Map,我們採用現有的交通模擬模型逐幀生成動態物體的邊界框(Bounding Boxes),然後將其轉換為語義圖和高度場,確保車輛始終出現在合適的位置,並遵循合理的行駛路徑。最終,所有動態物體的軌跡被合成為 4D 交通流 ,使得 CityDreamer4D 能夠高效建模複雜的城市交通動態。

城市背景生成

城市背景生成器(City Background Generator, CBG)負責生成城市的背景元素,包括道路、綠化和水域。為了高效表示大規模三維場景,CBG 採用鳥瞰視角(BEV)作為場景的基本表徵,該表徵由語義圖高度圖共同構成,使得背景結構清晰、層次分明。

鑑於城市背景通常具有類別相似、外觀一致的特性,CBG 透過生成雜湊網格(Generative Hash Grid)進行場景引數化,不僅增強了生成結果的自然性,還確保了 3D 結構的一致性。具體而言,CBG 採用雜湊函式圖片,將場景特徵 圖片

和空間點座標 p 對映至可學習的多尺度引數空間,生成方式如下:

圖片

為了保證背景渲染的 3D 一致性,CBG 採用基於體積渲染的神經網路,將三維特徵對映到二維影像。具體而言,對於相機光線上的任意取樣點,系統首先查詢生成式雜湊網格以獲取對應的特徵表示,隨後使用風格噪聲調製的多層感知機(MLP)計算其顏色和體密度,並透過體渲染(Volumetric Rendering)積分得到最終畫素的顏色值。

建築例項生成

建築例項生成器(Building Instance Generator, BIG) 專門用於生成城市中的建築結構。與城市背景生成類似,BIG 採用鳥瞰視角(BEV)作為場景的基本表徵,並利用基於體積渲染的神經網路將三維特徵對映到二維影像,從而確保建築在不同視角下的穩定呈現。考慮到建築立面與屋頂在外觀和分佈上的顯著差異,BIG 採用獨立的類別標籤對兩者進行建模,使生成結果更加精準且符合現實規律。

針對建築立面常見的週期性結構(如窗戶、立柱的重複排列),我們設計了一種更加輕量化引數化方法 ——基於週期性函式的場景引數。具體而言,BIG 透過週期性函式將建築特徵 圖片空間座標 p 對映到一個高維空間,以增強建築立面的結構一致性:

圖片

其中,Concat 代表連線(Concatenation)操作, 圖片被定義為

圖片

這一策略不僅最佳化了建築立面的建模效率,還確保了生成結果在大尺度城市環境中的結構合理性,使得建築在不同高度、角度下都能保持穩定的視覺表現。

車輛例項生成

車輛例項生成器(Vehicle Instance Generator, VIG)負責生成交通場景中的車輛,並確保其外觀與運動符合物理規律。與建築例項生成類似,VIG 採用鳥瞰視角進行場景表示,並在交通場景中提取區域性視窗圖片進行例項建模。該視窗包含 語義圖 圖片和 高度場 圖片,用於描述車輛的位置與三維形態,同時移除其他動態物體,以確保生成過程專注於單個例項。

由於車輛在結構上具有更強的規則性,VIG 採用標準化特徵空間(Canonical Feature Space)進行場景引數化。具體而言,車輛的區域性座標系由其中心位置圖片旋轉矩陣R 共同定義,使得相同型別的車輛能夠共享結構特徵。對於給定的空間點 p ,其標準化表示為:

圖片

這一引數化方式能夠捕捉車輛前後、側面的結構差異,同時提升不同車輛例項間的特徵一致性。

在渲染過程中,VIG 採用體渲染進行 3D 生成,並使用風格編碼(Style Code)控制車輛外觀的變化,以增強生成結果的多樣性和真實感。最終,VIG 透過全域性編碼器提取車輛例項的區域性特徵,並利用標準化特徵空間進行 4D 場景建模,使得 CityDreamer4D 能夠高效生成時空一致的動態交通環境。

影像融合

給定城市背景的影像和掩膜(分別用 圖片圖片表示) 、建築例項的影像和掩膜的集合( 分別用 圖片圖片 表示)以及車輛例項的影像和掩膜的集合(分別用圖片圖片,CityDreamer4D 使用如下方式得到第 t 時刻融合後的影像圖片.

圖片

其中 圖片圖片分別表示建築和車輛例項的數量。

CityTopia:高精度 3D 城市資料集

圖片

圖片

CityDreamer [7] 中所提出的 GoogleEarth 資料集儘管提供了密集的 3D 語義和例項標註,但仍存在諸多侷限:缺乏街景視角、標註精度受限、以及高架道路等複雜結構未被完整標註。為解決這些問題,我們構建了 CityTopia—— 一個擁有高保真渲染、多視角覆蓋、精準 3D 標註的資料集,專為城市生成與交通建模而設計。

虛擬城市構建:CityTopia 的城市場景基於 Houdini 和 Unreal Engine 構建,我們精心設計了 11 座虛擬城市,並利用 CitySample 專案的約 5000 個高質量 3D 資產生成完整的城市結構。城市的每個元素都儲存了 6D 位姿資訊,並透過表面取樣(Surface Sampling)自動賦予語義與例項標籤。這些城市在 Unreal Engine 中例項化後,可在不同光照條件下渲染出高質量的影像,為城市建模提供了更加靈活的實驗環境。

資料採集:CityTopia 採用預設的相機軌跡進行資料採集,每座城市包含 3000-7500 張影像,涵蓋白天與夜晚兩種光照條件。相比 GoogleEarth,CityTopia 提供了更多的街景視角,並在低仰角航拍資料上有更廣的覆蓋。為保證影像質量,我們在渲染過程中採用 8× 空間超取樣與 32× 時間超取樣,有效減少渲染偽影,使得資料更加穩定。

2D + 3D 標註:CityTopia 的 3D 標註來自虛擬城市生成過程,所有 3D 物體的語義和例項資訊均在資料構建時直接獲得,無需額外的手工標註調整。2D 標註則透過相機投影從 3D 標註自動生成,並與街景影像、航拍影像 完美對齊。在車輛場景中,CityTopia 的例項標註與 3D 結構高度一致,使其在車輛生成、交通建模等任務上具備較高的參考價值。此外,由於資料生成流程完全可控,只需增加新的 3D 資產,即可進一步擴充套件資料集規模。

實驗

與其他世界模型方案的對比:下方影片對比了 CityDreamer4D 與 DimensionX [2](影片生成)、WonderJourney [3](影像生成) 和 CityX [6](程式化生成)。結果表明,CityDreamer4D 在多視角一致性上明顯優於 DimensionX 和 WonderJourney,在場景多樣性上顯著優於 CityX。

CityDreamer4D: 下一個世界模型,何必是影片生成模型?

與原生 3D 場景生成方法的對比:下方影片展示了 CityDreamer4D 與現有原生 3D 場景生成方法(包括 InfiniCity [9]、PersistentNature [10] 和 SceneDreamer [11])的對比。結果表明,CityDreamer4D 在生成質量上實現了顯著提升。

CityDreamer4D: 下一個世界模型,何必是影片生成模型?

城市風格化:CityDreamer4D 能夠輕鬆擴充套件城市風格。透過引入 ControlNet 的先驗,我們可以將 Minecraft、Cyberpunk 等不同風格無縫應用於整個城市,只需在 ControlNet 生成的影像上微調預訓練模型,即可獲得風格一致的 3D 城市場景。雖然 ControlNet 生成的影像缺乏 3D 一致性,但 CityDreamer4D 依託其高效的場景表示與引數化,能夠確保風格化後的城市在不同視角下保持一致。

圖片

總結

我們提出了 CityDreamer4D ,一個基於 3D 表徵的 4D 城市生成框架,突破了現有 Video Diffusion 方法的多視角不一致問題 。相比傳統影片生成,CityDreamer4D 直接在 3D 空間建模城市的動態變化,從而生成 空間和時間維度一致的 4D 場景。此外,我們構建了 CityTopia ,一個高精度 3D 城市資料集,涵蓋多視角、多光照條件,並提供精確的 2D-3D 對齊標註。CityDreamer4D 提供了一種原生 3D 的世界模型,為 4D 城市生成提供了全新的解決方案。

參考文獻:

[1] Streetscapes: Large-scale Consistent Street View Generation Using Autoregressive Video Diffusion. SIGGRAPH 2024.

[2] DimensionX: Create Any 3D and 4D Scenes from a Single Image with Controllable Video Diffusion. arXiv 2411.04928.

[3] WonderJourney: Going from Anywhere to Everywhere. CVPR 2024.

[4] WonderWorld: Interactive 3D Scene Generation from a Single Image. arXiv 2406.09394.

[5] SceneX: SceneX: Procedural Controllable Large-scale Scene Generation. arXiv 2403.15698.

[6] CityX: Controllable Procedural Content Generation for Unbounded 3D Cities. arXiv 2407.17572.

[7] CityDreamer: Compositional Generative Model of Unbounded 3D Cities. CVPR 2024.

[8] GaussianCity: Generative Gaussian Splatting for Unbounded 3D City Generation. arXiv 2406.06526.

[9] InfiniCity: Infinite-Scale City Synthesis. ICCV 2023.

[10] Persistent Nature: A Generative Model of Unbounded 3D Worlds. CVPR 2023.

[11] SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections. TPAMI 2023.

相關文章