世界模型進入4D時代!單視角影片構建的自由視角4D世界來了

机器之心發表於2024-12-16

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com


人工智慧技術正以前所未有的速度改變著我們對世界的認知與構建方式。近期,李飛飛教授團隊透過單張圖片生成三維物理世界的研究,再次向世界展示了空間智慧技術的巨大潛力。

單圖生成三維世界,不僅讓人們能以互動方式探索靜態影像,更標誌著 AI 在重建與理解物理場景方面邁入全新階段。

近日,極佳科技、北京大學、理想汽車及中國科學院自動化研究所聯合推出 ReconDreamer,實現了自動駕駛場景自由視角重建+生成。正如同李飛飛及其團隊在「空間智慧」模型中展現的革新一樣,ReconDreamer 僅需要單視角輸入影片,即可透過同時重建+生成構建逼真的 4D 世界,第一次實現了平移 6 米範圍的高精度渲染,推動這一領域從靜態跨越至動態,從單點擴充套件到全域通用。
圖片
  • 論文連結:https://www.arxiv.org/abs/2411.19548

  • 專案主頁:https://recondreamer.github.io/

  • 程式碼地址:https://github.com/GigaAI-research/ReconDreamer

  • 論文標題:ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

引言&方法概覽

閉環模擬是實現大規模端到端自動駕駛落地的關鍵步驟,而場景重建是閉環模擬中的重要一步。現有的駕駛場景重建技術,如 NeRF 和 3DGS,受限於訓練資料的分佈,僅能有效重建與之相似的駕駛環境。這些方法在處理複雜駕駛操作(如變道、加速或減速)時,其重建效果往往不盡人意,尤其是在面對大幅變化的相機視角時表現欠佳。

由極佳科技領銜的 DriveDreamer4D 工作,透過利用預訓練的世界模型擴充套件相機視角,一定程度上緩解了這些問題,但在大範圍視野變化的渲染下仍有侷限性。相比之下,ReconDreamer 則透過訓練世界模型來減少傳統三維重建演算法中的偽影,並引入了一種漸進式的修復策略,確保在大幅度相機運動下的高質量渲染

如下圖所示,ReconDreamer 相較於 DriveDreamer4D 和 Street Gaussians,在大範圍相機運動下展現了顯著更優的渲染質量,不僅提升了駕駛前景(如車輛)和背景(如車道線)的時空一致性,還大大增強了動態駕駛場景中閉環模擬的精度和可靠性,為端到端自動駕駛系統的開發和測試提供了更為逼真和可靠的環境。
圖片
ReconDreamer 的整體框架如下圖所示,首先用傳統方法如 Street Gaussians 進行場景重建,然後取樣新軌跡並進行渲染,為了消除渲染影片中的偽影和缺陷,創新性地利用影片生成世界模型 DriveRestorer 進行影片修復,然後將這些恢復的影片與原始影片一起用於最佳化重建模型。ReconDreamer 還提出了漸進式資料更新策略,從小位移渲染開始修復,逐步擴充套件到大範圍渲染的修復,這個迭代過程會持續進行直到重建模型收斂為止。
圖片
為了訓練 DriveRestorer,需要構建駕駛影片修復資料集。其構建過程如左下圖所示,本文使用原始軌跡的 GT 影片來訓練一個欠擬合的 3DGS 模型,並在 3DGS 訓練過程中渲染低質量影片。這些低質量影片與它們對應的 GT 影片配對,形成了修復資料集。在訓練過程中還利用 mask 讓網路加強對天空、遠處區域的關注。如右下圖所示為修復資料集 pair 的視覺化。
圖片
經過訓練後,DriveRestorer 可以修復低質量影片,如下影片所示,左下角為修復前影片,右下角為修復後影片。世界模型進入4D時代!單視角影片構建的自由視角4D世界來了
此外,ReconDreamer 還提出了一種漸進式修復策略,其演算法流程圖如下所示,透過逐漸擴大渲染視角範圍來逐步更新訓練資料,以提升大範圍相機運動時的渲染質量。
圖片
實驗結果

在實驗中,如下影片所示,可以看出當前最先進的三維重建演算法 Street Gaussians 在大範圍相機變換視角時(例如平移 6 米)渲染質量不佳,其車道線、天空、車輛都會模糊,甚至出現 “鬼影” 現象。而 ReconDreamer 可以提升複雜變道場景下的影片渲染效果,不僅消除了 “鬼影”,而且提升了交通元素的渲染質量,車輛和車道線都更加清晰。世界模型進入4D時代!單視角影片構建的自由視角4D世界來了世界模型進入4D時代!單視角影片構建的自由視角4D世界來了世界模型進入4D時代!單視角影片構建的自由視角4D世界來了此外,ReconDreamer 可以實現大範圍自由視角的變化渲染,例如 z 字漂移,橫跨運鏡等渲染操作。 世界模型進入4D時代!單視角影片構建的自由視角4D世界來了世界模型進入4D時代!單視角影片構建的自由視角4D世界來了
在定量實驗中,本文證明了 ReconDreamer 在大範圍的相機運鏡渲染(例如橫跨 3 米,橫跨 6 米,變道)等場景下,可以顯著超越傳統三維重建演算法的效能,尤其是提升車輛和車道線渲染的時空一致性。
圖片
不僅如此,與最近的 DriveDreamer4D 相比,ReconDreamer 所提出的漸進式修復方案可以在大範圍相機運鏡下顯著提升渲染效能,其對比結果如下所示。
圖片
此外,本文還透過 user study 證明使用者更加偏好 ReconDreamer 的渲染效果,獲得了超過 95% 的投票率。
圖片
總結

本項 ReconDreamer 工作是極佳科技研究團隊之前 DriveDreamer、DriveDreamer-2 和 DriveDreamer4D 工作的延續。

DriveDreamer 是首個面向真實駕駛場景的世界模型,可以根據不同的控制條件生成自動駕駛周視影片,有效提升了 BEV 感知的效能;DriveDreamer-2 在此基礎上,引入大語言模型,可以生成使用者自定義的駕駛資料,進一步提升了長尾和 corner case 場景下的資料生成能力。針對端到端自動駕駛和閉環模擬對於場景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新軌跡影片(例如變道、加減速),從而大幅提升了多種 4DGS 演算法的重建效果。

ReconDreamer 則是透過訓練世界模型 DriveDreamer-2 讓其具備影片修復能力,再透過漸進式修復方案進一步提升了大範圍視角變化時的渲染效果。

團隊介紹

本篇論文的牽頭完成單位為極佳科技,是一家空間智慧公司,致力於將影片生成提升到 4D 世界模型,賦予 AI 大模型對於 4D 空間的理解、生成、常識和推理的能力,實現 4D 空間中的互動和行動,走向通用空間智慧。通用空間智慧對於影視遊戲、元宇宙等虛擬空間的內容創作,以及自動駕駛、具身智慧等物理空間的資料生成和認知推理能力,都有巨大的價值和作用。極佳科技是國內最早開始探索和佈局世界模型和空間智慧方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術和商業進展,獲得了行業廣泛的認可。

相關文章