Open main menu
IT人
世界模型新突破!極佳科技提出DriveDreamer4D,首次利用世界模型增強4D駕駛場景重建效果
机器之心
發表於
2024-10-28
原文網址 :
https://www.jiqizhixin.com/articles/2024-10-28-4
世界模型
近日,極佳科技聯合中國科學院自動化研究所、理想汽車、北京大學、慕尼黑工業大學等單位提出DriveDreamer4D,是首個利用世界模型增強 4D 駕駛場景重建效果的工作。DriveDreamer4D 可以大幅提升多種自動駕駛 4D 重建演算法的效果,在 user study 實驗中獲得了超過 80% 的偏好投票,為走向空間智慧和 4D 世界模型邁出了堅實的一步。
論文連結:https://arxiv.org/abs/2410.13571
專案主頁:https://drivedreamer4d.github.io/
程式碼地址:https://github.com/GigaAI-research/DriveDreamer4D
閉環模擬技術是推動端到端自動駕駛系統發展的關鍵。目前的感測器模擬方法,如 NeRF 與 3DGS,主要依賴於訓練資料分佈,若訓練資料不足,則這些方法在複雜駕駛操作(例如變道、加速或減速)的重建效果不佳。近來,自動駕駛世界模型(World Model)證明其可以生成豐富駕駛資料。在此背景下,本文提出了 DriveDreamer4D,是首個利用世界模型來提升自動駕駛場景 4D 重建質量的演算法。
DriveDreamer4D 可以為駕駛場景提供豐富多樣的視角(包括變道、加速和減速等)資料,以增加動態駕駛場景下的閉環模擬能力。
DriveDreamer4D 利用世界模型作為資料引擎,基於真實世界的駕駛資料合成新軌跡影片(例如變道場景)。如下圖所示,DriveDreamer4D 不僅可以提升多種重建演算法(PVG,S
3
Gaussian,Deformable-GS)的影像渲染質量,還可以提升駕駛前景(車輛)和背景(車道線)的時空一致性。
DriveDreamer4D 的總體結構框圖如下所示,軌跡生成模組(NTGM)用於調整原始軌跡動作,如轉向角度和速度,以生成新的軌跡。這些新軌跡為提取結構化資訊(如車輛 3D 框和背景車道線細節)提供了全新的視角。隨後,基於世界模型的影片生成能力,並利用更新軌跡後得到的結構化資訊作為控制條件,可以合成新軌跡的影片。最後,原始軌跡影片與新軌跡影片相結合,進行 4DGS 模型的最佳化。
在實驗中,如下第一列影片所示,可以看出多種傳統演算法(PVG, S
3
Gaussian,Deformable-GS )在變道場景下的車道線、天空、車輛都會模糊,甚至出現 “鬼影” 現象。而 DriveDreamer4D 可以提升多種重建演算法在複雜變道場景下的影片渲染效果,不僅消除了 “鬼影”,而且提升了交通元素的渲染質量,車輛和車道線都更加清晰。
除了變道,在車輛變速場景下,傳統演算法(PVG,S
3
Gaussian,Deformable-GS)的表現能力也受到限制,如下第一列影片所示,這些演算法在自車加速時,前方的車輛都出現了 “拖影” 現象。而經過 DriveDreamer4D 提升後,渲染的車輛的時空一致性更高。
在定量實驗中,本文證明了 DriveDreamer4D 不僅可以提升多種重建演算法 (PVG, S
3
Gaussian,Deformable-GS)的影像渲染質量 (如表 2),還可以提升車輛和車道線渲染的時空一致性(如表 1)。此外,本文還透過 user study(表 3)證明使用者更加偏好 DriveDreamer4D 的渲染效果,獲得了超過 80% 的投票率。
表 1 DriveDreamer4D 提升了車輛和車道線重建渲染的時空一致性
表 2 DriveDreamer4D 提升了影像重建渲染質量
表 3 User study 證明使用者更加偏好 DriveDreamer4D 的渲染效果
本項 DriveDreamer4D 工作是極佳科技研究團隊之前 DriveDreamer 和 DriveDreamer-2 工作的延續。
DriveDreamer 是首個面向真實駕駛場景的世界模型,可以根據不同的控制條件生成自動駕駛周視影片,有效提升了 BEV 感知的效能;DriveDreamer-2 在此基礎上,引入大語言模型,可以生成使用者自定義的駕駛資料,進一步提升了長尾和 corner case 場景下的資料生成能力。針對端到端自動駕駛和閉環模擬對於場景重建的迫切需求,DriveDreamer4D 利用 DriveDreamer 系列工作的能力,用以生成新軌跡影片(例如變道、加減速),從而大幅提升了多種 4DGS 演算法的重建效果。
本篇論文的牽頭完成單位為極佳科技,是一家空間智慧公司,致力於將影片生成提升到 4D 世界模型,賦予 AI 大模型對於 4D 空間的理解、生成、常識和推理的能力,實現 4D 空間中的互動和行動,走向通用空間智慧。通用空間智慧對於影視遊戲、元宇宙等虛擬空間的內容創作,以及自動駕駛、具身智慧等物理空間的資料生成和認知推理能力,都有巨大的價值和作用。極佳科技是國內最早開始探索和佈局世界模型和空間智慧方向的公司,在物理空間和虛擬空間兩方面都已取得顯著的技術和商業進展,獲得了行業廣泛的認可。
相關文章
空間智慧公司「極佳視界」完成連續三輪融資,致力從影片生成走向4D世界模型
2024-09-26
世界模型
CVPR 2024 | 自動駕駛世界模型四維時空預訓練
2024-06-03
自動駕駛
世界模型
提高光學資料集利用率,天大團隊提出增強光譜預測效果 AI 模型
2024-05-22
AI
模型
世界模型進入4D時代!單視角影片構建的自由視角4D世界來了
2024-12-16
世界模型
GR-2登場!ByteDance Research提出機器人大模型,具備世界建模和強大泛化能力
2024-10-09
機器人
大模型
18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了
2024-12-09
自動駕駛
世界模型
清華、華為等提出iVideoGPT:專攻互動式世界模型
2024-05-28
IDE
GPT
世界模型
小微融資服務的進階模型:深入場景,做強科技
2022-05-11
模型
幹線物流:自動駕駛商業化場景的新風口丨曼孚科技
2023-02-02
自動駕駛
具身智慧新高度!智元機器人推出全球首個4D世界模型EnerVerse
2025-01-09
機器人
世界模型
GraphRAG 檢索增強+圖模型
2024-09-02
模型
Java反射增強:程式碼模型
2024-06-22
Java
反射
模型
CityDreamer4D: 下一個世界模型,何必是影片生成模型?
2025-01-28
世界模型
這家世界模型公司釋出中國版Sora級影片生成大模型,走向世界模型打造新一代資料引擎
2024-06-11
世界模型
Sora
大模型
影像AIGC能成為好的世界模型嗎
2024-06-21
AI
GC
世界模型
網路世界的脊柱——OSI七層模型
2024-06-13
模型
ReplitLM: 開原始碼生成模型的新突破
2024-10-12
原始碼
模型
無人駕駛落地的新場景,藏在社群通勤的最後一公里
2019-12-01
大模型時代進入尾聲:場景式模型接棒
2023-04-20
大模型
Maya模型製作與場景建模
2018-06-14
模型
LeCun團隊新作:在世界模型中導航
2024-12-07
LeCun
世界模型
價值萬億的具身智慧市場,大佬們如何從世界模型下刀?
2024-11-07
世界模型
提升90%!利用結構線索增強視覺場景識別(VPR)能力
2020-11-15
視覺
剛剛,OpenAI震撼釋出o1大模型!強化學習突破LLM推理極限
2024-09-13
OpenAI
大模型
強化學習
WHALE來了,南大周志華團隊做出更強泛化的世界模型
2024-11-13
世界模型
大語言模型能用作世界模擬器嗎?
2024-06-16
模型
DAAM:首次利用視覺語言學解釋大型擴散模型
2023-02-14
視覺
模型
大模型強化學習新發現:刪減84%資料反提升效果
2025-02-19
大模型
強化學習
AGI來了?特拉斯用大模型幫助自動駕駛
2024-04-16
大模型
自動駕駛
Sora是世界模擬器嗎?全球首篇綜述全面解析通用世界模型
2024-05-13
Sora
世界模型
曼孚科技榮登自動駕駛百強企業榜單
2022-06-09
自動駕駛
“農民世界”鏈遊系統開發應用場景講解丨FarmersWorld(農民世界)DAPP遊戲場景程式碼
2022-07-21
APP
遊戲
小程式首次獲選世界網際網路領先科技成果
2018-11-09
ICLR 2019 | 騎驢找馬:利用深度強化學習模型定位新物體
2019-05-14
ICLR
強化學習
模型
智慧駕駛DMS系統訓練資料解決方案 | 景聯文科技
2023-01-06
利用魯棒控制實現深度強化學習駕駛策略的遷移
2018-12-19
強化學習
【自動駕駛】運動控制自行車模型運動規律圖解
2019-01-16
自動駕駛
模型
圖解
關於3d場景重建
2024-09-13
3D