最近一段時間,生成式 AI 技術興起,眾多造車新勢力都在探索視覺語言模型與世界模型的新方法,端到端的智慧駕駛新技術似乎成為了共同的研究方向。
上個月,理想汽車釋出了端到端 + VLM 視覺語言模型 + 世界模型的第三代自動駕駛技術架構。此架構已推送千人內測,將智慧駕駛行為擬人化,提高了 AI 的資訊處理效率,增強了對複雜路況的理解和應對能力。
李想曾在公開的分享中表示,面對大部分演算法難以識別和處理的罕見駕駛環境,VLM(Visual Language Model)即視覺語言模型可以系統地提升自動駕駛的能力,這種方法從理論上實現了突破。
新一代的自動駕駛系統大幅提高了能力上限 —— 讓 AI 可以應對很多過去難以解決的情況,也降低了門檻 —— 減少了技術研發團隊規模的需求,有望讓更多人在不久的將來獲得大幅提升的體驗。
這一套自動駕駛技術架構受諾貝爾獎得主丹尼爾・卡尼曼(Daniel Kahneman)快慢系統理論的啟發,在自動駕駛領域模擬人類的思考和決策過程也需要「快系統」與「慢系統」進行協同。其中:
・ 快系統(系統 1)善於處理簡單任務,是人類基於經驗和習慣形成的直覺;在自動駕駛中以端到端大模型構成,包含感知與規劃,足以應對駕駛車輛時 95% 的常規場景。
・ 慢系統(系統 2)是人類透過更深入的理解與學習形成的邏輯推理、複雜分析和計算能力;在自動駕駛系統中主要是 VLM 模型,它在駕駛車輛時用於解決複雜甚至未知的交通場景,佔日常駕駛的約 5% 場景。
上週,在理想汽車北京研發總部舉行的活動中,理想汽車智慧駕駛副總裁郎鹹朋強調,目前理想的智慧駕駛已經全面切入端到端 + 大模型方案,這讓車輛已能夠理解複雜路況和交通規則。
「不論端到端還是傳統感知決策模型,都需要大量資料進行訓練。一個潛在問題是,如果遇到沒見過的場景,系統就不能很好的工作,」郎鹹朋表示。「我們正在探索讓車輛像人一樣思考和決策的能力。」
自去年下半年起,理想開始調整戰略,轉換軌道。今年 2 月,在清華大學交叉資訊研究院、理想汽車提交的 DriveVLM 論文中,研究人員應用最近生成式 AI 領域興起的視覺語言模型(VLM),在視覺理解和推理方面表現出了非凡的能力。
在業界,這是第一個提出自動駕駛快慢系統的工作,其方法充分結合了主流自動駕駛 pipeline 和具備邏輯思考的大模型 pipeline,並第一個完成了端測部署的大模型工作(基於英偉達 Orin 平臺)。
DriveVLM 包含一個 Chain-of-Though (CoT) 流程,具有三個關鍵模組:場景描述、場景分析和分層規劃。場景描述模組用語言描述駕駛環境,並識別場景中的關鍵物件;場景分析模組深入研究關鍵物件的特徵及其對自我車輛的影響;分層規劃模組從元動作和決策描述到路徑點逐步制定計劃。
這些模組分別對應於傳統自動駕駛系統流程的感知 - 預測 - 規劃流程三部分元件,不同之處在於它們處理物件感知、意圖級預測和任務級規劃上的能力 —— 這些在過去是極富挑戰性的。
理想表示,在實踐中這套模型理論上可以識別路面平整度、光線等環境資訊,並且可以像人一樣真正讀懂導航地圖。為驗證上述技術在長尾場景上的有效性,理想將拆解真實環境資料,並利用生成模型補充新的視角,自定義改變天氣、時間、車流等條件,實現場景的延伸泛化。透過這種類似無限的環境生成,理想可以對其自動駕駛系統進行充分的檢驗以及迭代。
在實際工作中,理想汽車的兩套系統一直實時執行。其中端到端的模型較小,幀率較高;VLM 模型規模引數量較大(22 億引數),幀數較低。在一些以往智慧駕駛系統無法進行決策的情況,如高速收費站選擇 ETC / 人工入口時,VLM 發揮作用,把決策結果和參考的軌跡交給端到端模型,在進一步推理後採用資訊。
自動駕駛進入城市場景之後,資訊處理的複雜度瞬間提升了幾個數量級。在理想的工程師們看來,端到端方法一定意義上成為了技術的分水嶺,標誌著真正使用 AI 的開始。
新一代 AI 模型的另一個意義在於,它也可以擔任不斷給出考題的出題人。
截至今年 6 月,理想的整體保有量已經超過 80 萬臺。在可觀的保有量裡,理想篩選出了 3% 達到專車司機標準的使用者,把這些使用者的資料輸入到模型中作為「真題」,再透過這些資料結合世界模型生成「模擬題」。在不斷的訓練、驗證之後,整個系統的能力上限獲得了提高,迭代速度也加快了。
由於是將 VLM 等模型部署在車端,新一代系統面臨著很大的算力挑戰。理想智慧駕駛技術研發負責人賈鵬表示,在實際使用的過程中,AI 模型的引數量被保持在了最優的情況,同時為了將 AI 的決策時延提升到能夠保證安全的水平,工程團隊進行了一系列最佳化。
由於特斯拉 FSD 即將進入國內,智慧駕駛領域預計很快將會進入全新的競爭階段。理想汽車的下一個目標,是最快今年下半年,最晚明天上半年實現端到端 + VLM 的自動駕駛量產交付。