自動駕駛行業
說了什麼和沒說什麼
基本上絕大多數方案都預設先會把控制排除出去,也就是說只做從感知到規劃這中間的端到端。
主要是因為控制這東西每個車不一樣
感知-->規劃 -->控制
市場-價格-技術
整車方面:
一汽 東風 長安
小米 蔚來 理想 小鵬
上汽 廣汽
比亞迪 奇瑞 長城 吉利
特斯拉 大眾 賓士、奧迪
空間演算法
地平線 黑芝麻 華為
華為 大疆 百度
英偉達 高通 TI
案例
地平線的思路是做一個統一的端到端自動駕駛系統UniAD
地平線的思路--
UniAD的架構來看。
輸入:多攝像頭影像序列
1. 特徵提取:使用特徵提取器提取影像特徵
2. BEV編碼:將影像特徵轉換為統一鳥瞰圖(BEV)特徵
3. 軌跡跟蹤模組 TrackFormer :使用檢測查詢和跟蹤查詢從BEV特徵中檢測和跟蹤目標
4. 地圖分割模組 MapFormer :使用地圖查詢從BEV特徵中分割地圖元素
5. 運動預測模組 MotionFormer:結合軌跡查詢和地圖查詢,預測多模態運動軌跡
6. 佔用預測模組 OccFormer :使用BEV特徵預測多步佔用網格圖
7. 規劃模組 Planner :結合ego vehicle query和佔用預測結果,生成安全規劃
感測器提取了BEV特徵之後,資料進入了 TrackFormer 和 MapFomer
TrackFormer和MapFormer一個負責追蹤多運動目標,另一個負責理解道路,結合起來就是MotionFormer。
華為: 理解每一個追蹤物體的時空關係
0.感測器
0.1. GOD通用障礙物識別網路 --障礙物檢測網路變成了整個感知棧
目標障礙物,道路結構,以及場景理解
目標障礙物是不是可以對應到 TrackFormer ?
道路結構可以對應到 MapFormer ?
場景理解可以對應到 OccFormer
0.2. PCR(道路拓撲推理)網路
0.3. PDP(預測決策規控)網路:
0.4 本能安全網路--?
增加干預層,相當於人工規則和模型共同使用,用於解決一些監管的問題
1.運動控制
多模態時空融合的大模型,都四捨五入叫BEV了。而華為的GOD,在他出現之前都統稱為OCC
一個BEV視角來進行規劃,理解現實世界的時空,
是因為我們還沒辦法完好地理解多感測器下的時空,就必須在BEV裡面統一的時空下進行理解
但現在可以透過獨立負責具體任務的模組來實現
類似BEV的視角去理解時空的方式還是存在的,但是被另一套工作流替代
百度
端到端大模型Apollo ADFM(Autonomous Driving Foundation Model)
小鵬汽車宣佈端到端大模型上車,
神經網路 XNet (側重於感知和語義)
規控大模型 XPlanner
和大語言模型 XBrain (側重於整個大場景的認知)三部分組成
理想汽車- DriveVLM
架構: 端到端模型、VLM視覺語言模型、世界模型三部分共同構成
系統1 由端到端模型 實現快速響應,端到端模型接收感測器輸入,並直接輸出行駛軌跡用於控制車輛
系統2 由VLM視覺語言模型實 現,其接收感測器輸入後,經過邏輯思考,輸出決策資訊給到系統1
雙系統構成的自動駕駛能力還將在雲端利用世界模型進行訓練和驗證
Chain-of-Though (CoT) 思維鏈(CoT)過程:場景描述、場景分析和分層規劃
pipeline --感知-預測-規劃
輸入包括來自周圍攝像機的多視角影片V,輸出可選的3D感知結果:
場景描述E:天氣狀況Eweather、時間Etime、路況road、車道狀況lane
場景分析S:包括物件級分析和場景級總結S
Meta Actions A:代表任務級別機動的一系列動作 動作分為17類,包括但不限於加速、減速、左轉、變道、微小的位置調整和等待
決策描述D:駕駛決策的詳細描述 應該採取的更細粒度的駕駛策略
軌跡航路點W:概述ego車輛規劃軌跡的航路點
參考
網路