ICRA 2025|清華x光輪:自駕世界模型生成和理解事故場景

机器之心發表於2025-03-03
圖片
AIxiv專欄是機器之心釋出學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報導了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯絡報導。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com

近年來,自動駕駛技術快速發展,蘿蔔快跑已經無縫融入了武漢的交通,不少車企的智駕系統也都上路了。

然而,在複雜交通環境中,如何理解和預防事故仍然是一個巨大挑戰。比如前段時間特斯拉 FSD 終於入華。但中國版 FSD 似乎有些「水土不服」,頻繁闖紅燈、開上人行道、逆行,被網友調侃為「美國司機直接來中國開車」。

同時,現有的方法往往難以準確解釋事故發生的原因,並缺乏有效的預防策略。此外,由於事故資料較為稀缺,自動駕駛系統在面對突發情況時往往難以作出合理決策。

為了解決這一問題,光輪智慧(Lightwheel)和來自來自清華、香港科技大學、吉林大學、南京理工大學、北京理工大學、復旦大學等的研究團隊,提出了AVD2(Accident Video Diffusion for Accident Video Description),提高行業的自動駕駛事故場景的安全能力。

AVD2 是一個創新的事故影片生成與描述框架,旨在提升自動駕駛系統對事故場景的理解。透過生成與自然語言描述和推理高度一致的事故影片,AVD2 增強了對事故場景的建模能力。

同時,該團隊還貢獻了 EMM-AU(Enhanced Multi-Modal Accident Video Understanding)資料集,以推動事故分析和預防的研究。
圖片
  • 專案主頁連結:https://an-answer-tree.github.io/

  • 論文連結:https://arxiv.org/abs/2502.14801

  • EMM-AU 資料集連結:https://huggingface.co/datasets/secsecret/EMM-AU/blob/main/Processed_EMM-AU_Dataset.zip

  • 程式碼連結:https://github.com/An-Answer-tree/AVD2

圖片
模型架構

AVD2 框架包含兩個主要部分:影片生成和事故分析。透過生成與事故描述一致的高質量影片,並結合自然語言解釋,AVD2 能夠更深入地理解事故場景。

影片生成

AVD2 的影片生成部分旨在基於輸入的事故描述生成具有現實感的交通事故影片。該部分使用了 Open-Sora 1.2 模型,並透過兩個階段的微調來最佳化模型:

1. 第一階段 Finetune:基於 MM-AU 資料集 對 Open-Sora 1.2 模型進行預訓練,生成與事故場景相關的影片。

2. 第二階段 Finetune:利用選取的 2,000 個詳細事故場景影片進一步微調模型,以確保生成的影片與真實事故場景高度一致。

透過這一過程,AVD2 能夠根據描述生成多個具有高保真度的事故影片,用於進一步的事故理解和分析。

  • 生成影片的增強

為了提高影片質量,AVD2 框架採用 RRDBNet 模型,在 Real-ESRGAN 框架下進行超解析度處理。每個生成的低解析度影片幀都被提升到更高的解析度,以增強細節並減少偽影,從而為後續的分析提供高質量的影片資料。

事故分析

AVD2 的事故分析部分結合了影片理解與自然語言處理技術,主要包括兩個任務:

  • 車輛行為描述和原因分析(如何規避)

AVD2 生成兩個自然語言描述:

1. 車輛行為描述:基於輸入的影片,生成描述車輛動作的句子(例如:“車輛右轉”)。

2. 原因解釋:解釋為什麼車輛執行這一動作(例如:“因為前方交通訊號燈變綠”)。同時進一步給出如何規避事故的發生(例如:“轉彎前應環顧四周注意直行車輛”)。

這兩個任務共同協作,利用 Vision-Language Transformer(視覺 - 語言 Transformer)來進行多工學習。模型同時學習生成描述與推理任務,增強了兩者之間的關聯性,從而提高了整體效能。

  • 多工學習與文字生成

多工學習方法使得 AVD2 能夠聯合訓練行為描述任務和事故原因理解任務,以及預防措施任務。

透過這種方式,AVD2 在生成的事故影片基礎上,結合視覺特徵與文字特徵進行分析,不僅可以描述事故發生的過程,還能為事故的預防提供有價值的建議。
圖片
AVD2 的整體架構
在圖中,輸入影片透過 SwinBERT 進行處理,生成影片特徵,隨後這些特徵被輸入到不同的任務模組中進行預測和描述生成。同時,SCST(自我批判序列訓練)機制被用來最佳化生成文字的質量。

生成與分析模組的協同工作

AVD2 框架中的生成模組與分析模組緊密配合,生成的事故影片不僅為自動駕駛系統提供了訓練資料,還為系統提供了關於事故行為的詳細解釋和原因分析。兩者結合,大大提升了系統的透明度和可解釋性。

實驗結果

該團隊透過多種機器評測指標(如 BLEU、METEOR、CIDEr 等)對 AVD2 進行了評估,並與現有的先進方法進行了對比。

以下是 AVD2 與 ADAPT 框架 (Jin et al., 2023) 在描述任務與解釋和預防任務上的比較結果:(MM-AU 為原始資料集 (Fang et al., 2024),EMM-AU 為該團隊結合生成的事故資料集新提出的資料集,SR 為經過超分處理後的資料集)
圖片
如上所示,AVD2 在所有評測指標上優於 ADAPT,尤其是在 CIDEr 指標上,AVD2 在動作描述和原因解釋(預防措施)兩個方面都表現出了更好的效能。

視覺化結果

以下是 AVD2 對事故場景的視覺化結果,在此展示兩個不同的事故影片及對影片的分析:
圖片第一張圖示例:車輛變道未打方向燈,未給優先通行車輛讓路,導致了潛在的碰撞風險。
圖片
二張圖示例:由於過快的車速,剎車距離不足,造成了跟車過近的危險情況。

未來,該團隊將計劃進一步最佳化 AVD2 框架,並將此新技術透過光輪智慧的端到端自動駕駛應用於客戶的上車訓練評測中,以促進自動駕駛技術的安全在產業界真正落地。

參考文獻:
[Atakishiyev et al., 2023](https://doi.org/10.1109/IT)
[Jin et al., 2023](https://doi.org/10.1109/ICRA.2023.654567)
[Fang et al., 2024](https://arxiv.org/abs/2403.00436)

相關文章