ICLR 2025 Spotlight | 讓城市「動」起來!DynamicCity突破4D大場景生成技術邊界

机器之心發表於2025-02-19

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


過去一年,3D 生成技術迎來爆發式增長。在大場景生成領域,湧現出一批 “靜態大場景生成” 工作,如 SemCity [1]、PDD [2]、XCube [3] 等。這些研究推動了 AI 利用擴散模型的強大學習能力來解構和創造物理世界的趨勢。

儘管這些方法在生成複雜且稀疏的三維環境方面表現出色,現有技術仍面臨一個核心挑戰:在生成大型 3D 場景時,它們將環境視為靜止的 “快照”—— 道路凝固、行人懸停、車輛靜止不動。這種靜態生成方式缺乏真實世界瞬息萬變的交通流,難以反映複雜多變的交通場景,限制了實際應用。

那麼,如何讓生成的 3D 場景突破靜態單幀的限制,真正捕捉動態世界的時空演化規律?

對此,上海人工智慧實驗室、卡耐基梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊提出DynamicCity,給出了突破性的解答。這項創新性工作以4D 到 2D 的特徵降維為核心突破點,首次實現了高質量、高效的 4D 場景建模,並在生成質量、訓練速度和記憶體消耗三大關鍵維度上取得跨越式進展。
圖片
DynamicCity已被 ICLR 2025 接收為Spotlight論文,專案主頁和程式碼均已公開。
圖片
  • 論文:https://arxiv.org/abs/2410.18084

  • 主頁:https://dynamic-city.github.io

  • 程式碼:https://github.com/3DTopia/DynamicCity

引言

3D 大型場景生成技術旨在利用深度學習模型,如擴散模型,構建高保真、可擴充套件的場景。該技術有望為智慧系統的訓練與驗證提供近乎無限的虛擬試驗場。然而,現有方法大多還在探索靜態場景的單幀生成(如 XCube [1]、PDD [2]、SemCity [3] 等),難以捕捉真實駕駛環境中交通流、行人運動等動態要素的時空演化規律。這種靜態與動態的割裂,嚴重製約了生成場景在複雜任務中的應用價值。

主流的靜態場景生成方法 [1, 2, 3] 主要依賴體素超分或 TriPlane 壓縮,以實現大規模靜態場景的高效生成,其本質仍是對單幀 3D 場景的 “快照式” 建模。儘管近期研究嘗試將生成範圍擴充套件至動態(如 OccSora [4], DOME [5]),4D 場景的複雜性 —— 包含數十個移動物體、百米級空間跨度及時序關聯 —— 仍導致生成質量與效率的嚴重失衡。例如 OccSora 無法在大壓縮率的情況保證較好的重建效果,以及擴散模型生成的結果也較為粗糙。

針對這一難題,上海人工智慧實驗室等提出DynamicCity—— 面向 4D 場景的生成框架。核心思想是,透過在潛空間顯式建模場景的空間佈局與動態變化,並藉助擴散模型,直接生成高質量的動態場景。具體而言,DynamicCity 採用以下兩步方法:1) 透過變分自編碼器(Variational Autoencoder, VAE)將複雜的 4D 場景壓縮為緊湊的 2D HexPlane [5][6] 特徵表示,避免高維潛空間過於複雜導致生成模型難以學習;2) 採用 Padded Rollout Operation (PRO) 使潛空間捕捉到更多時空結構,幫助擴散模型(Diffusion Transformer, DiT [7])更好生成場景的空間結構與動態演化。

DynamicCity 的主要貢獻如下:

1. 時空特徵壓縮:提出基於 Transformer 的投影模組(Projection Module),將 4D 點雲序列壓縮為六個 2D 特徵平面(HexPlane),相較於傳統平均池化方法,mIoU 提升 12.56%。結合 Expansion and Squeeze Strategy (ESS),在提升 7.05% 重建精度的同時,將記憶體消耗降低 70.84%。
2. 特徵重組:提出 Padded Rollout 操作,將 HexPlane 特徵重組為適配 DiT 框架的特徵圖,最大程度保留 HexPlane 結構化資訊,幫助生成 DiT 更好的學習潛空間。
3. 可控生成:支援軌跡引導生成、指令驅動生成、4D 場景修改、佈局條件生成等功能,並可輕鬆擴充套件至更多應用,實現更可控的生成。

DynamicCity:基於 HexPlane 的動態場景擴散模型
圖片
DynamicCity 採用HexPlane 表徵DiT構建了一個高效的4D 場景生成框架 。核心思想透過特徵降維的方式,將 4D 場景對映到緊湊的 2D HexPlane,並在此基礎上訓練 DiT 進行場景生成。如圖所示,DynamicCity 主要由以下兩個核心模組構成:

1. 基於 HexPlane 表徵的 VAE:利用投影模組 (HexPlane Projection Module),將 4D 場景壓縮到六個互相正交的2D 特徵平面,並透過 Expansion & Squeeze Strategy (ESS) 進行解碼,以高效恢復原始時空資訊。
2. 在重組 HexPlane 上訓練的擴散模型:基於Padded Rollout Operation (PRO),對 HexPlane 進行結構化展開,並在此潛空間訓練DiT進行取樣,以生成新的 4D 動態場景。

DynamicCity 透過這兩個核心模組,解決了現有 4D 生成模型重建效果和生成結果差的問題,提供了更緊湊的表徵、更高效的訓練、更高質量的動態場景合成。

基於 HexPlane 表徵的 VAE
圖片
DynamicCity 使用 VAE 將 4D 點雲轉換為緊湊的 HexPlane 表徵。一個 4D 場景被表示為時空體素資料圖片,其中圖片分別表示時間、空間維度,而圖片代表特徵通道數。VAE 將 4D 資料進行降維成 HexPlane:
圖片
其中,下標表示每個平面保留的維度。圖片負責建模空間維度資訊圖片負責建模時空關聯。這一對映成功將 4D 表達壓縮至 2D 空間,使得後續的生成任務更高效。

投影模組(Projection Module)

為了高效獲取 HexPlane,作者設計了投影模組 (Projection Module),用於將高維特徵對映至 HexPlane。在透過共享 3D 卷積特徵提取器提取初步的時空 4D 特徵後,作者使用多個投影網路 圖片,將 4D 特徵投影到 2D 平面,每一個投影網路會壓縮一個或兩個維度。

投影模組由 7 個小型的投影網路組成,其中 圖片首先進行時間維度壓縮,而後三個小型網路分別提取空間特徵平面圖片。而時空特徵平面 圖片則是透過三個小型網路直接從 4D 特徵中提取得到。

Expansion & Squeeze Strategy (ESS) 解碼

在動態 NeRF 等領域中,HexPlane 常用一個多層感知機(MLP)進行逐點解碼。然而在 4D 場景中,點的數量非常多,導致模型速度慢,視訊記憶體佔用大。DynamicCity 提出 ESS 解碼策略,用卷積神經網路代 MLP,減少視訊記憶體佔用,加速訓練,同時顯著提升重建效果。

首先,對每個 2D 特徵平面進行擴充套件和重複,使其匹配 4D 體素特徵;然後,利用 Hadamard 乘積進行資訊融合:
圖片
最終,透過卷積解碼器圖片生成完整 4D 語義場景。

在重組 HexPlane 上訓練的擴散模型

在 VAE 編碼器學習到 4D 場景的 HexPlane 表徵之後,DynamicCity 使用 DiT在學習 HexPlane 空間的分佈,並生成時空一致的動態場景
圖片
HexPlane 的六個特徵平面共享部分空間維度或時間維度。作者希望能夠用一種簡單有效的方式,在訓練擴散模型時,六個平面並非互相獨立,而是共享部分時空資訊。Padded Rollout Operation (PRO)將六個特徵平面排列成單個統一的 2D 矩陣,並在未對齊的區域填充零值,以最大程度地保留 HexPlane 的結構化資訊

具體而言,PRO 將六個 2D 特徵平面轉換為一個方形特徵矩陣,透過將空間維度和時間維度儘可能的對齊,PRO 能夠最小化填充區域的大小,並確保空間與時間維度之間的資訊一致性。

隨後,Patch Embedding將該 2D 特徵矩陣劃分為小塊,並將其轉換為 token 序列。在訓練過程中,作者為所有 token 新增位置嵌入,並將填充區域對應的 token排除在擴散過程之外,從而保證生成過程中時空資訊的完整性。

可控生成與應用
圖片
為了讓 HexPlane 生成過程具備可控性,作者引入 Classifier-Free Guidance (CFG)[8]機制,以支援不同條件約束下的場景生成

對於任意輸入條件,作者採用AdaLN-Zero技術來調整 DiT 模型內部的歸一化引數,從而引導模型生成符合特定約束的場景。此外,對於影像條件 (Image-based Condition),作者額外新增跨模態注意力模組 (Cross-Attention Block),以增強 HexPlane 與外部視覺資訊的互動能力。

透過 CFG 和 HexPlane Manipulation,DynamicCity 支援以下的應用,且可以輕鬆擴充到其他的條件

1. HexPlane 續生成 (Long-term Prediction):透過自迴歸方擴充套件 HexPlane,實現 4D 場景未來預測,長序列 4D 場景生成等任務。
2. 佈局控制 (Layout-conditioned Generation):根據鳥瞰 (BEV) 視角語義圖,生成符合交通佈局的動態場景。
3. 車輛軌跡控制 (Trajectory-conditioned Generation):透過輸入目標軌跡,引導場景中車輛的運動。
4. 自車運動控制 (Ego-motion Conditioned Generation):允許使用者輸入特定指令,引導自車在合成場景中的運動路徑。
5. 4D 場景修改 (4D Scene Inpainting):透過掩膜 HexPlane 中的區域性區域,並利用 DiT 進行區域性補全,實現 4D 動態場景的高質量修復。

結果

下面展示了一些 DynamicCity 的結果,包括無條件生成的結果,佈局控制生成結果等。

無條件生成(左:OccSora [4]; 右:DynamicCity)
圖片
圖片
長序列生成
圖片
佈局控制生成
圖片
圖片
車輛軌跡 / 自車運動生成
圖片
4D 場景編輯
圖片
圖片
總結

DynamicCity 提出了基於 HexPlane 的 4D 場景擴散生成模型,透過 HexPlane 表徵、Projection Module、Expansion & Squeeze Strategy、Padded Rollout Operation (PRO),以及Diffusion Transformer 擴散取樣,實現了高效、可控且高質量的 4D 場景生成。此外,DynamicCity 還支援多種可控生成方式,並可應用於軌跡預測、佈局控制、自車運動控制及場景修改等多個自動駕駛任務。

作者介紹

DynamicCity是上海人工智慧實驗室、卡耐基梅隆大學、新加坡國立大學和新加坡南洋理工大學團隊的合作專案。

本文第一作者卞恆瑋,系卡耐基梅隆大學碩士研究生,工作完成於其在上海人工智慧實驗室實習期間,通訊作者為上海人工智慧實驗室青年科學家潘亮博士。

其餘作者分別為新加坡國立大學計算機系博士生孔令東,新加坡南洋理工大學謝浩哲博士、劉子緯教授,以及上海人工智慧實驗室喬宇教授。

References
[1] Lee, J., et al. (2024). SemCity: Semantic Scene Generation with Triplane Diffusion. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 28337-28347).
[2] Liu, Y, et al. "Pyramid Diffusion for Fine 3D Large Scene Generation". ECCV, 2024.
[3] Ren, X, et al. "XCube: Large-Scale 3D Generative Modeling using Sparse Voxel Hierarchies". CVPR, 2024.
[4] Wang, L., et al. (2024). OccSora: 4D Occupancy Generation Models as World Simulators for Autonomous Driving. arXiv preprint arXiv:2405.20337.
[5] Gu, S, et al. "DOME: Taming Diffusion Model into High-Fidelity Controllable Occupancy World Model". arXiv, 2024.
[6] Fridovich-Keil, S., et al. (2023). K-planes: Explicit radiance fields in space, time, and appearance. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12479-12488).
[7] Cao, A., & Johnson, J. (2023). Hexplane: A fast representation for dynamic scenes. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 130-141).
[8] Peebles, W., & Xie, S. (2023). Scalable diffusion models with transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 4195-4205).
[9] Ho, J., & Salimans, T. (2022). Classifier-free diffusion guidance. arXiv preprint arXiv:2207.12598.

相關文章