18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了

机器之心發表於2024-12-09

圖片

AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了
世界模型被廣泛認為是實現通用人工智慧的關鍵技術,其核心能力在於模擬真實世界的動態變化,併為決策提供精準的未來狀態預測。在自動駕駛領域,世界模型的應用尤為引人注目。然而,現有資料集在影片多樣性和行為複雜性方面的不足,限制了世界模型潛力的全面發揮。為了解決這一瓶頸,中國科學院自動化研究所聯合美團無人車團隊推出了 DrivingDojo 資料集 —— 全球規模最大、專為自動駕駛世界模型研究設計的高質量影片資料集。該資料集已被 NeurIPS 2024 的 Dataset Track 接收。
圖片
  • 網站:https://drivingdojo.github.io/
  • 論文:https://arxiv.org/pdf/2410.10738
  • 程式碼:https://github.com/Robertwyq/Drivingdojo

世界模型的核心在於互動、知識以及泛化

世界模型刻畫了智慧體在當前狀態圖片 下采取特定動作圖片 之後環境狀態所有可能的變化的分佈圖片。相比於單純關注於圖片生成的影像質量,我們認為其他道路參與者的行為(other agents behavior)以及整體的世界動態(general world dynamics)也同樣值得關注,即世界模型的互動、知識以及泛化能力。

互動:世界模型應具備合理預測動態互動行為的能力。例如,在自動駕駛場景中,系統需要準確預測自車與行人或其他道路使用者之間的互動。除了理解靜態環境的變化,更重要的是能夠提供動態反饋,以支援系統在複雜場景中的應對。

知識:世界模型應具備對環境中世界知識的深刻理解。例如,在自動駕駛場景中,系統需要能夠理解紅綠燈、升降杆等關鍵場景元素,以便作出恰當的駕駛決策。然而,僅透過畫素級重建是否能準確建模這些知識仍然存在疑問,因此引入語言模型成為提升系統理解能力的關鍵手段。

泛化:世界模型的預測能力應能夠擴充套件到新的未知場景,尤其是各種長尾場景,如稀有事件或極端環境下的駕駛表現。這種泛化能力是確保模型在真實世界中穩定執行的關鍵。

DrivingDojo 資料集
圖片
DrivingDojo 資料集相較於傳統的感知資料集,經過精心的挖掘與篩選,更加註重影片多樣性的設計。從掉落的水桶、倒下的柵欄,到突然竄出的動物、夜晚的篝火、路上的羊群,包含了海量的長尾駕駛場景,為世界模型的研究提供了堅實的基礎。
圖片
圖片
DrivingDojo 資料集包含大約 18k 個影片,平均時長約為 20 秒。整個資料集可以劃分為三個子集,分別聚焦於駕駛行為、動態互動和世界知識的探索。

駕駛行為:還原真實駕駛操作的多樣性

我們精心構建了一個名為 DrivingDojo-Action 的子集,全面覆蓋駕駛操作的多樣化場景,呈現縱向與橫向行為的均衡分佈:

  • 縱向操作:包含加速、減速、緊急剎車和起停駕駛,精準展現車輛在速度調控中的動態表現。
  • 橫向操作:涵蓋變道和車道保持,細緻描繪車輛在空間選擇和路徑最佳化中的決策能力。

動態互動:捕捉複雜交通中的行為模式

除了在靜態道路網路環境中進行導航外,建模多智慧體之間的動態互動(如併入和讓行)也是世界模型的一個關鍵任務。我們精心挖掘了這一子集,比如併線、會車、被阻擋、超車、被超車。這一子集為世界模型提供了豐富的互動場景,助力其更好地應對複雜的交通環境。

世界知識:賦能開放世界的智慧理解

不同於感知和預測模型透過將高維感測器輸入壓縮為低維向量表示,世界模型在畫素空間中執行,展現出更強的場景建模能力。這種增強的能力使得世界模型能夠有效捕捉開放世界駕駛場景中的複雜動態,例如動物突然橫穿馬路或貨物從車輛後備廂掉落等意外情況。透過在畫素層面上的深度理解,世界模型為處理複雜交通情境提供了更可靠的基礎。

推動智慧互動與知識驅動的自動駕駛世界模型

真實多樣的駕駛場景生成18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了軌跡控制的影片生成
圖片
給定初始幀和軌跡,世界模型預測未來的情景18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了
預測不同的未來情景

我們提出了運動指令跟隨的影片預測任務,這也是世界模型的核心。以往的研究主要依賴於定性觀察,而在實際駕駛中,控制精度需要透過定量指標進行評估。由於生成影片中缺少真實軌跡,我們採用了 COLMAP 重建方法對生成的軌跡進行重建,從而實現粗略的定量評測。18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了
利用 COLMAP 估計生成影片的軌跡

生成能力的泛化

與以往在同一資料集上進行的生成測試相比,我們認為跨資料集的測試更為重要,這更好地體現了模型的泛化生成能力。在測試過程中,我們選擇了 OpenDV 的子集來進行評估。
圖片
我們也期望模型具備良好的泛化能力:如運動行為的泛化,以及跨資料集的運動行為泛化。
圖片
圖片
1. 異常行為生成 2. 在 nuScenes 資料集實現倒車

互動行為的預測

這一部分的核心在於探索世界模型是否能夠根據不同行為的輸入預測智慧體之間的互動動態。以下示例中,當自車選擇停車時,模型預測右前方的車輛會搶佔道路進行超車;而當自車選擇繼續前行時,模型則預測右前方的車輛會等待自車先透過。
圖片
圖片

長時間高質量駕駛影片生成18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了18k個影片、專為自動駕駛世界模型設計,DrivingDojo資料集來了

相關文章