CVPR 2024 | 自動駕駛世界模型四維時空預訓練

新闻助手發表於2024-06-03

北京大學與EVLO創新團隊共同提出面向自動駕駛的四維時空預訓練演算法DriveWorld。該方法採用世界模型進行預訓練,設計記憶狀態空間模型進行四維時空建模,透過預測場景的佔據柵格,降低自動駕駛面臨的隨機不確定性和知識不確定性。該論文已被CVPR 2024接收。

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

論文題目:DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving

論文連結:https://arxiv.org/abs/2405.04390

一、動機

自動駕駛的場景理解任務涉及到對場景的感知和預測未來變化等多個層面,這些層面不僅包括空間上的三維結構,還包含時間維度上的動態變化。這種複雜的場景理解要求模型能夠捕捉和理解四維時空的內在關聯,從而做出準確的決策。由於自然場景的隨機性、環境的區域性可觀測性以及各種下游任務的多樣性,學習四維時空表示是極具挑戰性的。預訓練在從大量資料中獲取通用表示方面發揮著關鍵作用,能夠構建一個具備通用知識的基礎模型。然而,有關自動駕駛中四維時空的預訓練研究仍然相對較少。

自動駕駛系統的設計和實現需要面對和處理各種不確定性,這些不確定性主要分為兩類:Aleatoric不確定性和Epistemic不確定性。Aleatoric不確定性源自於世界的固有隨機性,例如行人的突然移動或車輛的意外行為。Epistemic不確定性則源於對環境不完全的認知,例如由於遮擋或感測器限制導致的資訊缺失。為了有效應對這些不確定性,自動駕駛系統必須能夠利用過去的經驗來預測未來可能的狀態,並對不可見的區域進行推測。本工作透過四維時空預訓練的世界模型來解決這一挑戰,旨在提升自動駕駛系統在感知、預測和規劃任務中的效能。

二、方法

對於由自動駕駛環視相機系統觀察到的T個影片幀的序列o1:T,以及它們對應的專家行為a1:T和三維佔據柵格標籤y1:T,其中三維佔據柵格標籤可以利用三維鐳射雷達點雲和姿態資料獲得。我們的目標是透過世界模型學習一個緊湊的BEV表示,該表示透過過去多視角影像和動作預測的當前和未來的三維佔據柵格。

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

2.1時序機率模型

為了賦予模型四維時空建模的能力,我們首先引入兩個潛在變數(h1:T,s1:T),其中ht表示歷史資訊變數,包含了到時間步t的所有歷史資訊,st表示隨機狀態變數,是模型預測未來狀態的關鍵。ht透過歷史資訊h1:t−1和隨機狀態s1:t−1進行更新。為了預測未來狀態,我們遵循迴圈狀態空間模型(Recurrent State-Space Model,RSSM),構建後驗狀態分佈q(st∣o≤t,a<t)和先驗狀態分佈p(st∣ht−1,st−1)。目標是匹配先驗分佈(基於歷史資訊和隨機狀態的預期結果)與後驗分佈(從觀察到的多視角影像和動作中匯出的結果)。

考慮到BEV特徵的維度很高,我們將其轉換為一維向量xt,然後從(ht,at−1,xt)中抽樣高斯分佈以生成後驗狀態分佈:
p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
其中st被引數化為帶有對角協方差的正態分佈,初始分佈設定為s1∽N(0,I)。(μϕ,σϕ)是引數化後驗狀態分佈的多層感知機。

在沒有觀察到影像的情況下,模型根據歷史資訊和預測的動作得出先驗狀態分佈:
p(st∣ht−1,st−1)∽N(μθ(ht,a^t−1),σθ(ht,a^t−1)I),
其中(μθ,σθ)引數化先驗狀態分佈。𝜋𝜃是用於預測動作 a^t−1的策略網路,基於歷史資訊ht−1和隨機狀態st−1。

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

2.1.1 動態資訊傳遞

在自動駕駛的場景理解中,考慮物體的運動對於準確預測未來狀態至關重要。為了捕捉這種動態資訊,我們提出透過引入運動引數來建模物體的運動,從而在動態資訊傳播過程中實現運動感知。我們引入了運動感知層歸一化(MLN)。運動屬性包括速度v和相對時間間隔Δt。(v,Δt)被展平並透過兩個線性層(ξ1,ξ2)轉換為仿射向量γ和β:γ=ξ1(v,Δt),β=ξ2(v,Δt)。 然後執行仿射變換以得到運動感知的潛在隨機狀態,表示為st=γ⋅LN(st)+β。隨著車輛的運動,確定性歷史狀態ht可以建立動態記憶庫h1:t。透過與動態記憶庫進行交叉注意機制計算,可以得到確定性歷史狀態ht。
確定性歷史狀態為ht+1=fθ(ht,st)。

2.1.2 空間資訊傳遞

在自動駕駛的場景理解中,除了動態變化資訊,空間結構資訊同樣重要。由於連續的場景幀通常只包含微小的變化,而場景的主要內容往往是由靜態物體組成的,如道路、樹木和交通標誌,因此在處理這些資訊時,直接將輸入影像轉換為一維向量可能會導致關鍵空間結構資訊的丟失。我們從1到T幀中隨機選擇一幀o′,並使用其BEV特徵b′構建一個描述空間感知結構的潛在靜態表示b^=zθ(b′)。我們將空間感知的靜態表示b^與動態變化的運動表示st結合起來,得到了周圍場景的綜合表示。

2.2 預訓練輔助任務

對周圍環境的全面理解對自動駕駛視至關重要的。我們提出將物理世界建模為三維佔據柵格結構來描述車輛周圍的環境。三維佔據柵格解碼器被設定為y^t=lθ(mθ(h~t,st),b^),其中mθ是將一維特徵擴充套件到BEV維度的網路,lθ是用於預測佔據柵格的三維卷積網路。這種四維佔據柵格預訓練不僅能夠捕捉到場景的靜態結構,還能夠理解場景隨時間的動態變化,為自動駕駛系統提供了更加豐富和動態的環境理解。

2.3 任務提示機制

雖然透過世界模型設計的預訓練任務可以學習四維時空表示,但不同的下游任務關注的資訊是不同的。為了緩解這個問題,受少樣本影像識別的語義提示和多工學習中的視覺示例引導提示的啟發,引入了“任務提示”機制,為不同的任務提供特定的提示,以引導它們提取任務相關的特徵。由於不同任務之間存在語義關聯,我們利用大語言模型gφ(⋅)(例如BERT,CLIP)構建這些任務提示。例如,針對三維佔據柵格重建任務的任務提示,其關注更多的是當前場景,設定為“任務是預測當前場景的三維佔據柵格”。我們將提示ptext輸入到gφ(⋅)中以獲取提示編碼gφ(ptext)。隨後將其擴充套件到BEV的維度,表示為qφ(gφ(ptext)),將其與學到的時空特徵整合在一起。

2.4 預訓練目標函式

DriveWorld的預訓練目標包括最小化後驗狀態分佈與先驗狀態分佈之間的差異(即Kullback-Leibler(KL)散度),以及最小化與過去和未來三維佔據柵格(即交叉熵損失(CE))和動作(即L1損失)相關的損失。我們採用模型在T個時間步內觀察輸入,然後預測未來的三維佔據柵格和L個步驟的動作。

三、實驗

3.1 實驗設定

我們在自動駕駛資料集上nuScenes和OpenScenes上進行預訓練,並在nuScenes上進行微調。我們採用多幀鐳射雷達點雲聚合的方式獲得密集的三維佔據柵格標籤。

3.2 實驗結果

這裡展示部分結果,更多結果請參考論文。

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

CVPR 2024 | 自動駕駛世界模型四維時空預訓練

四、總結

DriveWorld透過基於世界模型的四維時空預訓練,提高自動駕駛系統對周圍環境的理解和預測能力,降低自動駕駛面臨的不確定性。DriveWorld提出了記憶狀態空間模型進行時空建模,包含動態記憶儲存模組用於學習時序感知表示,靜態場景傳播模組用於學習空間感知表示。為了進一步提升模型的適應性和靈活性,DriveWorld還引入了任務提示機制,允許模型根據當前的任務需求自適應地調整其表示,從而在不同的自動駕駛任務中實現最佳效能。

參考

[1]Chen Min, et al. Multi-Camera Unified Pre-Training Via 3D Scene Reconstruction[J]. IEEE Robotics and Automation Letters, 2024.

[2]Chen Min, et al. Occupancy-mae: Self-supervised pre-training large-scale lidar point clouds with masked occupancy autoencoders[J]. IEEE Transactions on Intelligent Vehicles, 2023.

EVOL創新團隊介紹

趙健,中國電信人工智慧研究院多媒體認知學習實驗室(EVOL Lab)負責人、青年科學家,西北工業大學光電與智慧研究院研究員、博導,博士畢業於新加坡國立大學,研究興趣包括多媒體分析、臨地安防、具身智慧。

共發表CCF-A類論文60餘篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一發明人授權國家發明專利5項。相關技術成果在百度、螞蟻金服、奇虎360等6個科技行業領軍企業得到應用,產生了顯著效益。曾入選中國科協及北京市科協“青年人才託舉工程”,主持國自然青年科學基金等專案6項。曾獲吳文俊人工智慧優秀青年獎(2023)、吳文俊人工智慧自然科學獎一等獎(2/5,2022)、新加坡模式識別與機器智慧協會(PREMIA)Lee Hwee Kuan獎、ACM Multimedia唯一最佳學生論文獎(一作,1/208,CCF-A類會議,2018),7次在國際重要科技賽事中奪冠。

擔任北京圖象圖形學學會理事,國際知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》編委,《Pattern Recognition Letters》、《Electronics》特刊客座編輯,VALSE資深領域主席,ACM Multimedia 2021分論壇主席,CICAI 2022/2023領域主席,CCBR 2024論壇主席,中國人工智慧學會/中國圖象圖形學學會高階會員,“挑戰杯”大學生科技作品競賽評委,中國人工智慧大賽專家委委員等。

GitHub主頁:https://zhaoj9014.github.io

學院主頁:https://iopen.nwpu.edu.cn/info/1252/4626.htm

金磊,北京郵電大學特聘副研究員,主要研究方向包括計算機視覺、資料探勘、模式識別,其中深入研究人體姿態估計、人體動作識別、人體解析等細分領域,相關成果發表於CVPR, AAAI, NIPS, ACMMM等高水平會議及期刊,共發表SCI/EI索引論文40餘篇,其中高水平論文11篇,包括以第一作者發表中科院JCR一區論文(IEEE Transactions on MultiMedia),CCF-A類會議CVPR, ACMMM論文,中科院JCR二區(Sensors, IEEE Sensor Journal)論文等。主持一項國家自然基金青年基金,參與兩項國家重點研發專案以及四項自然基金面上專案。多次依託頂會組織ICCV2021/CVPR2023 workshop (Anti-UAV Workshop & Challenge)。指導學生獲得全國大學生物聯網技術與應用“三創”大賽一等獎(北郵認定A類競賽)。

閔稱,北京大學計算機學院博士,中科院計算所特別研究助理,主要研究方向包括自動駕駛、具身智慧、三維重建,相關成果發表於CVPR、ICCV、ICRA、RAL等高水平會議與期刊,包括以第一作者發表CCF-A類會議CVPR,機器人頂級會議ICRA,機器人權威期刊RAL等。參與多項國家重點研發專案。

相關文章