自動駕駛資料閉環:實現高階自動駕駛的必由之路

曼孚科技發表於2022-10-27

自動駕駛量產落地離不開車輛的“感知”、“決策”與“執行”。

隨著感知技術與計算平臺的逐漸成熟與趨同,影響高階自動駕駛落地的關鍵因素不再是解決常見的一般案例(common case),而是解決“路口”問題,也即各類不常見但不斷出現的“長尾問題”。

作為一種模仿人類的科學,AI自動駕駛與人類認知世界的邏輯基本一致,想讓汽車更好地理解世界,就需要構建更精準的模型。但演算法模型的建立並非一勞永逸,自動駕駛車輛在行駛過程中總會遇到各種陌生場景。

因此,如何對新場景資料進行大規模高效處理並快速最佳化演算法模型,即成為自動駕駛技術迭代的關鍵。

換言之,構建基於資料驅動的自動駕駛資料閉環,讓資料實現高效流動,是實現高階自動駕駛的必由之路。

資料閉環不是一個新概念

資料閉環並非新概念,網際網路時代早期即有廣泛應用。

一個比較典型的例子即是各類軟體、APP的“使用者體驗改進計劃”。

使用者在初次開啟一款軟體時,往往會彈出選項——是否加入使用者體驗改進計劃。點選確定後,軟體就會收集使用者的使用資訊。在出現崩潰、Bug等場景下,軟體還會彈出資訊,詢問是否允許上傳本次崩潰資訊以幫助改進,比如Windows出現的各種錯誤報告。

點選提交後,軟體開發商的工程師們會分析錯誤報告,以找出出現崩潰、Bug的原因,進而修改程式碼並在下次更新後予以解決。

使用者在使用過程中遇到的所有問題均可以透過此種方式解決,週而復始,不斷最佳化軟體效能與使用體驗,這就是一種傳統的資料閉環。

這個過程可以用下圖簡單概括:

以上過程中,使用者的使用資料是關鍵因素,它可以幫助工程師快速定位問題,並予以解決。

隨著技術的進步,傳統的資料閉環方式並沒有被時代所淘汰,在自動駕駛技術開發中仍被廣泛應用,但與以往又有些許不同。

自動駕駛時代的資料閉環

自動駕駛系統的研發與最佳化,與傳統軟體開發存在很多不同。

傳統軟體更多是在程式碼端解決各類問題,但自動駕駛系統除程式碼以外,還有更為關鍵的AI模型。程式碼端的問題可以透過傳統的資料閉環方式予以解決,但模型端的調整則需要重新訓練或最佳化AI演算法模型。

因此,自動駕駛資料閉環需要在傳統資料閉環方式上,引入一些新東西:

模型問題的解決流程可以進一步細化為:

而支援自動駕駛資料閉環實現週而復始、不斷向前的關鍵,也是新場景資料的不斷投餵。

資料之於自動駕駛的重要性正被重新審視,各大自動駕駛廠商紛紛推出自己的資料閉環方案。

Tesla:核心為Autopilot資料引擎框架。獲得資料後,先透過單元測試確認模型誤差,然後進行資料清洗與標註,最後完成模型訓練與部署。

目前Tesla已經積累了上百億英里的行駛資料,這些海量的真實路況資料,既是Tesla核心資產,同時也幫助Tesla實現了模型的快速迭代與升級,為率先搶佔高階別的自動駕駛技術高地平添一大助力。

Waymo:相較於Tesla,Waymo引入了資料探勘、主動學習、自動標註等模組,但基本的框架相差無幾。獲得資料來源後,透過資料標註獲得資料真值,其中涉及到資料篩選、挖掘和主動學習,模型最佳化完成測試後,進行釋出或部署。

其他自動駕駛公司還會在資料閉環中引入模擬、計算等功能模組,但自動駕駛資料閉環通用基本框架可簡化為:

資料採集-資料標註-模型訓練-部署,如此周而迴圈往復。

資料高效流轉是關鍵

現實駕駛場景難以窮盡,極其複雜且不可預測,需要AI模型快速迭代升級。實現自動駕駛資料閉環的快速迴圈迭代,以滿足新場景模型適配問題,同時也需要各“長尾場景”資料的高效流轉。

模型訓練方面,目前AI演算法模型已階段性基本成熟。在實際應用時,不同場景需要解決的問題不盡相同。這並非演算法模型的問題,而是場景適配度的問題。自動駕駛AI模型後續調優主要以資料迭代為主,需要投餵海量新場景資料。

資料採集方面,依靠遍佈車身的各類感測器,車輛每小時採集的資料量可達數TB之多。然而採集得到資料為非結構化資料,這些未經處理的資料並不能直接用於模型訓練,標註後才能產生使用價值。

橫亙在資料與模型訓練之間的首要問題是如何高效處理海量資料集,真實資料規模已然成為智慧駕駛行業的“命脈”。

然而與指數型增長的資料服務需求相比,無論資料處理效率亦或是資料產出質量均難以滿足市場需求。

產能方面,大部分資料服務商業務規模、執行效率與專案經理能力高度繫結,產能瓶頸問題凸顯;資料產出質量方面,以點雲資料為代表的資料處理需求佔比逐漸擴大,傳統依靠簡單工具和依賴人力的業務執行方式,也早已無法滿足垂直市場的需求。

自動駕駛實現規模化量產,資料服務領域能否率先實現突破將成為關鍵。

AI驅動的資料閉環

作為行業領先的資料服務廠商,曼孚科技深知自動駕駛資料服務行業痛點。

相較於傳統SLG模式業務增長需要堆積人力的方式,曼孚科技迴歸科技創新本質,以PLG(產品驅動增長)模式代替SLG模式,重視產品力塑造,構建起高效的資料閉環,直擊資料產能與資料產出質量兩大核心痛點。

曼孚科技資料閉環方案以AI為主要驅動力,重視AI對資料標註的反哺作用,實現低成本量產高質量結構化資料;資料處理能力的提升為演算法的訓練與調優提供充足燃料,優質演算法既可再次反哺資料標註,也可在部署應用中源源不斷產出新資料,如此形成正向迴圈往復,實現高效迭代升級。

AI驅動的資料閉環

在自動駕駛資料標註方面,作為行業唯一聚焦自動駕駛賽道的資料智慧平臺,MindFlow SEED平臺既支援2D影像場景下的車道線、車輛行人、泊車、全景語義分割等型別標註,也同步支援3D點雲場景下的車路協同、連續幀、點雲融合、點雲語義分割等標註型別。

在增效降本方面,平臺還創新性地引入自動化生命週期管理、AI增強等模組,AI標註平均準確率可達90%以上,部分場景可實現完全AI標註量產。

(注:根據訓練模型在已標註的測試集上進行預處理後透過IoU演算法進行計算,IoU閾值在0.9以上算正確計算)。

憑藉產品與流程上的創新變革,過往堆積人力的執行方式被平臺產品所取代,業務執行規模不再與專案經理人數繫結,從源頭端解決AI應用場景持續擴充對高質量多源異構資料的海量需求。

未來,曼孚科技將持續聚焦自動駕駛資料閉環構建,專注提升真實資料規模量產能力,為自動駕駛商業落地增添更多助力。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2920765/,如需轉載,請註明出處,否則將追究法律責任。

相關文章