世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果

机器之心發表於2024-10-28
近日,極佳科技聯合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業大學等單位提出DriveDreamer4D,是首個利用世界模型增強 4D 駕駛場景重建效果的工作。DriveDreamer4D 可以大幅提升多種自動駕駛 4D 重建演算法的效果,在 user study 實驗中獲得了超過 80% 的偏好投票,為走向空間智慧和 4D 世界模型邁出了堅實的一步。

圖片

  • 論文連結:https://arxiv.org/abs/2410.13571
  • 專案主頁:https://drivedreamer4d.github.io/
  • 程式碼地址:https://github.com/GigaAI-research/DriveDreamer4D

閉環模擬技術是推動端到端自動駕駛系統發展的關鍵。目前的感測器模擬方法,如 NeRF 與 3DGS,主要依賴於訓練資料分佈,若訓練資料不足,則這些方法在複雜駕駛操作(例如變道、加速或減速)的重建效果不佳。近來,自動駕駛世界模型(World Model)證明其可以生成豐富駕駛資料。在此背景下,本文提出了 DriveDreamer4D,是首個利用世界模型來提升自動駕駛場景 4D 重建質量的演算法。

DriveDreamer4D 可以為駕駛場景提供豐富多樣的視角(包括變道、加速和減速等)資料,以增加動態駕駛場景下的閉環模擬能力。

DriveDreamer4D 利用世界模型作為資料引擎,基於真實世界的駕駛資料合成新軌跡影片(例如變道場景)。如下圖所示,DriveDreamer4D 不僅可以提升多種重建演算法(PVG,S3Gaussian,Deformable-GS)的影像渲染質量,還可以提升駕駛前景(車輛)和背景(車道線)的時空一致性。

圖片

DriveDreamer4D 的總體結構框圖如下所示,軌跡生成模組(NTGM)用於調整原始軌跡動作,如轉向角度和速度,以生成新的軌跡。這些新軌跡為提取結構化資訊(如車輛 3D 框和背景車道線細節)提供了全新的視角。隨後,基於世界模型的影片生成能力,並利用更新軌跡後得到的結構化資訊作為控制條件,可以合成新軌跡的影片。最後,原始軌跡影片與新軌跡影片相結合,進行 4DGS 模型的最佳化。

圖片

在實驗中,如下第一列影片所示,可以看出多種傳統演算法(PVG, S3Gaussian,Deformable-GS )在變道場景下的車道線、天空、車輛都會模糊,甚至出現 “鬼影” 現象。而 DriveDreamer4D 可以提升多種重建演算法在複雜變道場景下的影片渲染效果,不僅消除了 “鬼影”,而且提升了交通元素的渲染質量,車輛和車道線都更加清晰。世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果除了變道,在車輛變速場景下,傳統演算法(PVG,S3Gaussian,Deformable-GS)的表現能力也受到限制,如下第一列影片所示,這些演算法在自車加速時,前方的車輛都出現了 “拖影” 現象。而經過 DriveDreamer4D 提升後,渲染的車輛的時空一致性更高。 世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果
在定量實驗中,本文證明了 DriveDreamer4D 不僅可以提升多種重建演算法 (PVG, S3Gaussian,Deformable-GS)的影像渲染質量 (如表 2),還可以提升車輛和車道線渲染的時空一致性(如表 1)。此外,本文還透過 user study(表 3)證明使用者更加偏好 DriveDreamer4D 的渲染效果,獲得了超過 80% 的投票率。

圖片

表 1 DriveDreamer4D 提升了車輛和車道線重建渲染的時空一致性

圖片

表 2 DriveDreamer4D 提升了影像重建渲染質量

圖片

表 3 User study 證明使用者更加偏好 DriveDreamer4D 的渲染效果

本項 DriveDreamer4D 工作是極佳科技研究團隊之前 DriveDreamer 和 DriveDreamer-2 工作的延續。

DriveDreamer 是首個面向真實駕駛場景的世界模型,可以根據不同的控制條件生成自動駕駛周視影片,有效提升了 BEV 感知的效能;DriveDreamer-2 在此基礎上,引入大語言模型,可以生成使用者自定義的駕駛資料,進一步提升了長尾和 corner case 場景下的資料生成能力。針對端到端自動駕駛和閉環模擬對於場景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新軌跡影片(例如變道、加減速),從而大幅提升了多種 4DGS 演算法的重建效果。

本篇論文的牽頭完成單位為極佳科技,是一家空間智慧公司,致力於將影片生成提升到 4D 世界模型,賦予 AI 大模型對於 4D 空間的理解、生成、常識和推理的能力,實現 4D 空間中的互動和行動,走向通用空間智慧。通用空間智慧對於影視遊戲、元宇宙等虛擬空間的內容創作,以及自動駕駛、具身智慧等物理空間的資料生成和認知推理能力,都有巨大的價值和作用。極佳科技是國內最早開始探索和佈局世界模型和空間智慧方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術和商業進展,獲得了行業廣泛的認可。

相關文章