能看AI推理過程的端到端自動駕駛,理想在走一條前所未有的路

机器之心發表於2025-01-16

城市、高速一體化,從車位到車位的全程自動。


最近一段時間,隨著新車型和新技術的釋出,智慧駕駛再次成為人們熱議的話題。

有的車企想要做減法,在釋出活動上表示「十個人有沒有一個人用輔助駕駛」,也有車企表示「新能源下半場一定是智慧化與網聯化的,新形態的智慧駕駛將會徹底改變人們出行的體驗。」

問題的核心在於「實用性」:全球範圍內,智慧駕駛的架構和形態經歷了一輪又一輪迭代更新,從最早的高速領航輔助駕駛,到城市 NOA,再到覆蓋全域的智慧駕駛。支撐智慧駕駛的輸入端也經歷了變革,從有圖到無圖,再到是否要做純視覺的方向之爭。新概念層出不窮,然而在很多人看來,智慧駕駛這一路走來,似乎發展的速度在逐漸落後於我們的預期。

2024 年 12 月底,這場大討論進入了高潮。1 月 16 日,理想的 OTA7.0 正式版開啟了全量車主推送。隨著 OTA7.0 的全量推送,理想宣佈,其 OneModel 端到端 + VLM 智駕系統已經實現了「全場景端到端」能力。

與之同時上線的還有行業首創的 AI 推理視覺化能力,它首次將自動駕駛過程中 AI 模型思考推理的過程視覺化展現出來,讓我們第一次看到了 AI 的思考和執行過程,因此也可以更加放心。同時,理想也成為了國內唯一、全球第二家將端到端技術應用到城市、高速及環路 NOA 場景的車企。

理想表示,自 OTA 5.0 採用 BEV 架構並推出城市 NOA 後,理想內部對 AD Max 啟用獨立版本號進行管理。過去的一年裡,其共完成 12 次 AD Max 的重大更新。

為了讓使用者更好地感知智慧駕駛迭代,隨著 OTA7.0 升級,AD Max 的內部智慧駕駛版本號將向使用者展示,智慧駕駛版本升級為 AD Max V13.0。

從車位到車位,覆蓋全場景
AI 推理還能視覺化

理想的 OneModel 端到端智駕號稱擁有極強的覆蓋和適應能力,風格更加擬人化,駕駛習慣也更絲滑,它還支援全國的新開通高速、長隧道、城市 / 高速切換點等道路的行駛,可以在大部分路段無降級不斷點地智駕通行。

我們使用一輛理想 L7 Ultra 對最新的智駕版本進行了測試。

圖片

據更新說明介紹,我們測試的智慧駕駛 OTA 版本是在 800 萬 clips(影片片段)基礎上迭代的,增加了導航變道的資料配比。

首先吸引眼球的是中控屏上,理想在業內首創的「AI 推理視覺化」。它開啟了 AI 模型的黑箱,對端到端 + VLM 模型系統的思考過程進行了直接的展示,包括從物理世界輸入到決策結果輸出的整個過程,並在中控屏或副駕屏上實時顯示出來。

圖片

可以看到,這個視覺化介面分為三個區域:

圖片

  • E2E(端到端模型)—— 其中顯示自車、其他車輛、道路車道線、軌跡線預測等資訊。藍色軌跡線代表模型計算過程中判定的正確軌跡,灰色軌跡線則代表模型計算過程中判定的偏移軌跡。軌跡線計算共展示 10 個視窗,代表一種模型輸出結果,最終 AI 會選擇一條老司機認為最正確的軌跡來執行操作。
  • 第二個部分是 Attention(注意力系統)—— 其中顯示系統對實時影片流中的交通參與者行為和環境路況進行評估,分析其型別、位置、速度、角度等屬性,並輔助端到端模型計算出最佳的行駛軌跡。其中會以熱力圖形式展示注意力系統的工作狀態,其中顏色更暖(偏紅)的區域代表對智慧駕駛決策影響更大的區域。
  • 第三個部分則是 VLM(視覺語言模型)—— 它展示了視覺語言模型的感知、推理和決策過程,像我們常見的大模型應用一樣將車載攝像頭看到的交通情況用文字的形式加以解釋。當識別到有對智慧駕駛決策有影響的環境路況和交通規則變化時,VLM 能夠及時感知資訊,並做出合理的推理決策。

據理想介紹說,對於端到端系統來說過於複雜的場景,會交由 VLM 進行決策,比如丁字路口、公交車道限行、施工路段、避讓旁邊的大車等等。這樣的配置為智慧駕駛加了一道保險。透過 VLM 的識別,理想也實現了行業唯一的全國任意高速收費站 ETC 閘機自主通行,再加上城市與高速一體化的架構,真正做到了全場景 100% 智慧駕駛。

更重要的是,現在你能看到 AI 是如何做出決策的。第一次開啟智慧駕駛還會有些緊張,過不了一會兒懸著的心就放了下來,人與車之間的疏離感也減少了。

在北京城區內行駛了一個上午,我們可以明顯地感受到,端到端智慧駕駛系統與過去的智慧駕駛相比體驗截然不同。它的工作區域覆蓋面更廣,也更聰明。在透過匝道等大麴率彎道時,AI 的操作已經足夠穩定。

圖片

智慧駕駛系統在碰到前方慢車可以更早地變道,遇到大貨車也會向另一側稍微躲避,遇到加塞情況剎車也更加從容。

圖片

此前,理想的城市智慧駕駛(6.0 版本及以前)是基於 BEV+OCC 和 Transformer 的業內主流方案。在這樣的技術體系之上,很多車企開啟了部分城市的無圖 NOA,但這種智慧駕駛的效果仍稱不上完美。

新版本的端到端輔助駕駛則帶來了巨大的提升。它保留了鐳射雷達的資料輸入,保證了安全性的下限。另外,它不僅模型是端到端的,實現的駕駛體驗也是「端到端」的 —— 解決了智慧駕駛的最先和最後 100 米問題,能做到從家中車位到目的地車位的全程智慧駕駛,順利透過停車場閘機、紅綠燈,合理避讓橫穿馬路的行人、電動車,或是與其他車輛併線博弈。

理想表示,未來兩年,當訓練資料量達到 2000 萬 Clips 時,MPI(每次干預行駛的里程數)有望達到 500 公里。

當然,目前的智慧駕駛還是可能會碰到一些無法處理的情況,但在試了試端到端智慧駕駛之後,我們至少可以肯定地說,真的不一樣。隨著這套技術的發展,或許用不了多久它就可以真正做到對老司機的一比一復刻。

端到端 + VLM 大模型
實現降維打擊

為什麼說端到端的智慧駕駛打出了代差?這就要從最近 AI 領域的大模型革命開始說起。

自 2022 年底開始,生成式 AI 席捲了整個科技領域,越來越多的行業開始引入大模型。在自動駕駛領域,人們開始探索視覺語言模型與世界模型等技術,端到端(End-to-End)的智慧駕駛成為了新興的研究方向。

端到端的智慧駕駛是指把車輛從攝像頭、雷達、鐳射雷達等感測器獲得的資料作為輸入,利用單個 AI 模型直接生成控制汽車指令的方法。2023 年 6 月,全球 AI 頂級學術會議 CVPR 2023 的最佳論文頒給了 UniAD 框架,它是業界首個感知決策一體化的自動駕駛通用大模型,開啟了以全域性任務為目標的自動駕駛架構方向。

在端到端的智駕系統中,大模型透過學習人類司機操作的影片片段,根據人類決策理解畫面資訊和決策之間的關係,再不斷進行實踐和調整,比起以往的模組化輔助駕駛,更像人類的學習過程。和 ChatGPT 一樣,智慧駕駛模型可以在面對前所未見的場景時實現「舉一反三」,很大程度上擺脫了對人類編寫規則的依賴。

最近一年多時間以來,國內外一眾新勢力都在頻繁提及端到端的概念,認為這將是智慧駕駛的技術終局。正如機器人公司正在熱捧的「具身智慧」,端到端的智慧駕駛是給高智商 AI 賦予汽車的軀體,讓它在物理世界中行動自如的方法,一旦實用化,顯然會是降維打擊。

2024 年 1 月 ,特斯拉率先在 FSD v12 版本上實現了端到端智慧駕駛的落地,新系統據稱只用了幾個月的訓練時間就擊敗了之前數年時間積累的 v11 版。

理想成為了緊隨其後的第二家,2024 年 7 月,向外界公佈了理想 AD 的全新技術方案,並已於 10 月底全量上線。據介紹,理想的雙系統基於 E2E+VLM 大模型,是從諾貝爾獎得主丹尼爾・卡尼曼《思考,快與慢》中得到的啟示。

基於系統 1 和系統 2 的理論,理想提出了一個全新的自動駕駛架構:使用端到端模型實現類似本能的快思考,保證大多數場景的高效;利用速度偏慢但思考能力上限更高的 AI 模型(DriveVLM)實現少數複雜場景下的處理能力。這樣就可以讓智慧駕駛系統「更像人」。

簡而言之,其中的系統 1 是真正意義上的端到端模型,輸入是感測器收集到的資料,輸出是車的行駛軌跡,全部由一個模型來實現,中間沒有任何手工的規則。端到端大幅度提升了安全、舒適和效率,具備更擬人化的駕駛方式。

圖片

它具有一系列優勢:

  • 首先是高效的資訊傳遞,此前的智慧駕駛架構經常包含很多規則,限制了整體的上限。在一體化的模型中,所有資訊都在模型內部傳遞,具有更高的上限,給人們的感受就是更加擬人了。
  • 第二是高效計算,單一模型在 GPU 內載入可以一次性完成推理,降低了系統的延遲,體感就是「手和眼」更加協調一致了。
  • 第三是技術的迭代速度也變得更快了。由於是一體化的 AI 模型,可以實現完全的資料驅動,可以很輕鬆地做到周級的迭代。

我們可以在實踐中觀察到,端到端的智慧駕駛系統具有不錯的未知物體理解能力,可以識別出倒在地上的樁桶、樹枝等訓練資料中沒有的物體並進行規避。它也具備超越視距的導航與道路結構理解,可以在沒有任何先驗的情況下應對西直門這樣的複雜立交橋。在一些複雜的路況,例如有車輛違停在右側道路上,又有電動車行駛在行車道上的情況下,端到端模型也可以展示擬人的規劃能力,尋找到一條較為高效的路線。

就像 OpenAI 的 o3 大模型一樣,這種智慧不是人工設計出來,而是 AI 自己學會的。

圖片

端到端大模型可以解決智慧駕駛過程中 95% 的場景,剩下 5% 的情況就要交由「系統 2」來進行理解和判斷。在理想的智慧駕駛系統中,系統 2 是由 VLM(視覺語言模型)來實現的。它可以把對於環境的理解、駕駛決策的建議甚至參考軌跡遞交給系統 1 來幫助輔助駕駛策略。

圖片

比如在遇到坑窪的路面,VLM 會指揮車輛降低速度;如果發現實際路線和規劃導航不一致,它可以自己重新規劃路線;此外,它還能準確地識別限時公交車道、潮汐車道是否可以通行。

這就好像是在副駕駛的位置上有一個教練在實時監督駕駛行為,主動提供建議。

有了成套的方法,接下來還需要驗證整個系統的可行性。理想採用了 3D 環境重建加世界模型的方式,結合了多種方法的優點,生成的環境在多個視角上可用,又可以生成更多符合真實世界規律的未見場景,提升了智慧駕駛的泛化性。

圖片

跑通流程以後,理想繼續改進了 AI 的訓練方法。端到端的學習目標是行駛軌跡,並不像感知任務只需要給出是或否的判斷。在日常生活中,即使是同一個司機也可能作出不同的行駛策略,這可能會導致 AI 學習出一些詭異的駕駛行為。因此,理想在訓練過程中加入了強化學習,透過獎勵函式的設定學習出策略正確的模型。

再往下是部署和最佳化。VLM 在端側部署時,工程師們面臨著推理時延的挑戰。透過從量化到張量運算元融合等大量最佳化技術,理想把 VLM 推理時延從 4.1 秒縮減到了 0.3 秒,業界首次在 Orin-X 硬體上部署了大模型,真正實現了視覺模型在智慧駕駛上的實用化。

圖片

正是這樣一套系統,做到了全場景的端到端與視覺化,也成為了國內首個車端部署大模型的自動駕駛系統。

理想表示,基於北美實際對比體驗,理想端到端的 NOA 駕駛體驗,已比肩特斯拉北美 FSD 最新版本 V13.2 水平。

現在的理想
是一家人工智慧企業

端到端智慧駕駛的突破,是一個從量變到質變的過程。

作為銷量靠前的新能源玩家,理想在國內擁有超百萬規模的自動駕駛車隊,在過去幾年積累了超過數百億公里的行駛里程。理想從所有車主資料中篩選出優質資料,建立了一套「老司機」的評價標準。老司機既要具備好的駕駛技能,也要有好的駕駛習慣。只有不到 3% 的車主透過了考核。

理想在 2024 年年初擁有了 5EFLOPS 的算力 ,再加上智慧駕駛團隊此前在端到端模型上的預研成果,做到了天時地利人和。2024 年 1 月 1 日 - 12 月 31 日,理想智慧駕駛累計使用者已超百萬人,智慧駕駛總里程達 17.2 億公里。截至去年年底,算力也已提升至 8.1EFLOPS。

再往高一層看,智慧駕駛水平進入世界第一梯隊的理想,正被全新的使命驅動著。

此前,理想創始人、CEO 兼董事長李想暢談了公司的未來發展方向。他認為電動化是上半場,智慧化是下半場,理想汽車未來一定會持續發力 AI,最終透過理想汽車的載體來實現 AGI(通用人工智慧)。

理想把自己定義為一個人工智慧企業,目標是把人工智慧進行汽車化,並推動 AI 普惠到每一個家庭。最近一年理想的 100 億研發投入,近一半投在了 AI 上,它自研了基座模型、端到端加 VLM 的自動駕駛系統,從最開始的論文、技術研發到產品的交付,不斷引領著業界風向。

圖片

可以說,端到端的智慧駕駛,是理想長期堅持核心技術自研的必然體現。

值得一提的是,李想給 AI 的未來定義了三個階段:

  • 第一階段——成為人類能力的延伸和增強,提升工作效率(L3 階段),有望在 2025 年實現。在此階段我們還需要在行駛過程中對 AI 進行監督。
  • 第二階段——成為人類的助手(L4 階段),能夠 100% 自動駕駛並承擔相應責任,有望在三年內實現。這會推動新技術的大規模應用。
  • 第三階段——矽基家人,AI 智慧體可以自主地工作,幫助人們管理好家庭中的各種事物,人類的記憶也可以在 AI 上得到延續。

為此,理想希望從兩個方向入手,一面是端到端智慧駕駛,另一面是理想同學 App。後者已於 2024 年底全量上線。

在李想看來,理想同學和自動駕駛,將來有一天還會融合在一起:「我們認為,基座模型到一定時刻一定會變成 VLA(Vision Language Action Model),因為語言模型也要透過語言和認知去理解三維世界。而自動駕駛在走向 L4 時必須要有極強的認知能力。當技術形態發生變化,它才能夠有效地理解這個世界。」

通往 AGI 的路,理想已經開了個好頭。

相關文章