自動駕駛量產落地離不開車輛的“感知”、“決策”與“執行”。

隨著感知技術與計算平臺的逐漸成熟與趨同，影響高階自動駕駛落地的關鍵因素不再是解決常見的一般案例(common case)，而是解決“路口”問題，也即各類不常見但不斷出現的“長尾問題”。

作為一種模仿人類的科學，AI自動駕駛與人類認知世界的邏輯基本一致，想讓汽車更好地理解世界，就需要構建更精準的模型。但演算法模型的建立並非一勞永逸，自動駕駛車輛在行駛過程中總會遇到各種陌生場景。

因此，如何對新場景資料進行大規模高效處理並快速最佳化演算法模型，即成為自動駕駛技術迭代的關鍵。

換言之，構建基於資料驅動的自動駕駛資料閉環，讓資料實現高效流動，是實現高階自動駕駛的必由之路。

資料閉環不是一個新概念

資料閉環並非新概念，網際網路時代早期即有廣泛應用。

一個比較典型的例子即是各類軟體、APP的“使用者體驗改進計劃”。

使用者在初次開啟一款軟體時，往往會彈出選項——是否加入使用者體驗改進計劃。點選確定後，軟體就會收集使用者的使用資訊。在出現崩潰、Bug等場景下，軟體還會彈出資訊，詢問是否允許上傳本次崩潰資訊以幫助改進，比如Windows出現的各種錯誤報告。

點選提交後，軟體開發商的工程師們會分析錯誤報告，以找出出現崩潰、Bug的原因，進而修改程式碼並在下次更新後予以解決。

使用者在使用過程中遇到的所有問題均可以透過此種方式解決，週而復始，不斷最佳化軟體效能與使用體驗，這就是一種傳統的資料閉環。

這個過程可以用下圖簡單概括：

以上過程中，使用者的使用資料是關鍵因素，它可以幫助工程師快速定位問題，並予以解決。

隨著技術的進步，傳統的資料閉環方式並沒有被時代所淘汰，在自動駕駛技術開發中仍被廣泛應用，但與以往又有些許不同。

自動駕駛時代的資料閉環

自動駕駛系統的研發與最佳化，與傳統軟體開發存在很多不同。

傳統軟體更多是在程式碼端解決各類問題，但自動駕駛系統除程式碼以外，還有更為關鍵的AI模型。程式碼端的問題可以透過傳統的資料閉環方式予以解決，但模型端的調整則需要重新訓練或最佳化AI演算法模型。

因此，自動駕駛資料閉環需要在傳統資料閉環方式上，引入一些新東西：

模型問題的解決流程可以進一步細化為：

而支援自動駕駛資料閉環實現週而復始、不斷向前的關鍵，也是新場景資料的不斷投餵。

資料之於自動駕駛的重要性正被重新審視，各大自動駕駛廠商紛紛推出自己的資料閉環方案。

Tesla：核心為Autopilot資料引擎框架。獲得資料後，先透過單元測試確認模型誤差，然後進行資料清洗與標註，最後完成模型訓練與部署。

目前Tesla已經積累了上百億英里的行駛資料，這些海量的真實路況資料，既是Tesla核心資產，同時也幫助Tesla實現了模型的快速迭代與升級，為率先搶佔高階別的自動駕駛技術高地平添一大助力。

Waymo：相較於Tesla，Waymo引入了資料探勘、主動學習、自動標註等模組，但基本的框架相差無幾。獲得資料來源後，透過資料標註獲得資料真值，其中涉及到資料篩選、挖掘和主動學習，模型最佳化完成測試後，進行釋出或部署。

其他自動駕駛公司還會在資料閉環中引入模擬、計算等功能模組，但自動駕駛資料閉環通用基本框架可簡化為：

資料採集-資料標註-模型訓練-部署，如此周而迴圈往復。

資料高效流轉是關鍵

現實駕駛場景難以窮盡，極其複雜且不可預測，需要AI模型快速迭代升級。實現自動駕駛資料閉環的快速迴圈迭代，以滿足新場景模型適配問題，同時也需要各“長尾場景”資料的高效流轉。

模型訓練方面，目前AI演算法模型已階段性基本成熟。在實際應用時，不同場景需要解決的問題不盡相同。這並非演算法模型的問題，而是場景適配度的問題。自動駕駛AI模型後續調優主要以資料迭代為主，需要投餵海量新場景資料。

資料採集方面，依靠遍佈車身的各類感測器，車輛每小時採集的資料量可達數TB之多。然而採集得到資料為非結構化資料，這些未經處理的資料並不能直接用於模型訓練，標註後才能產生使用價值。

橫亙在資料與模型訓練之間的首要問題是如何高效處理海量資料集，真實資料規模已然成為智慧駕駛行業的“命脈”。

然而與指數型增長的資料服務需求相比，無論資料處理效率亦或是資料產出質量均難以滿足市場需求。

產能方面，大部分資料服務商業務規模、執行效率與專案經理能力高度繫結，產能瓶頸問題凸顯;資料產出質量方面，以點雲資料為代表的資料處理需求佔比逐漸擴大，傳統依靠簡單工具和依賴人力的業務執行方式，也早已無法滿足垂直市場的需求。

自動駕駛實現規模化量產，資料服務領域能否率先實現突破將成為關鍵。

AI驅動的資料閉環

作為行業領先的資料服務廠商，曼孚科技深知自動駕駛資料服務行業痛點。

相較於傳統SLG模式業務增長需要堆積人力的方式，曼孚科技迴歸科技創新本質，以PLG(產品驅動增長)模式代替SLG模式，重視產品力塑造，構建起高效的資料閉環，直擊資料產能與資料產出質量兩大核心痛點。

曼孚科技資料閉環方案以AI為主要驅動力，重視AI對資料標註的反哺作用，實現低成本量產高質量結構化資料;資料處理能力的提升為演算法的訓練與調優提供充足燃料，優質演算法既可再次反哺資料標註，也可在部署應用中源源不斷產出新資料，如此形成正向迴圈往復，實現高效迭代升級。

AI驅動的資料閉環

在自動駕駛資料標註方面，作為行業唯一聚焦自動駕駛賽道的資料智慧平臺，MindFlow SEED平臺既支援2D影像場景下的車道線、車輛行人、泊車、全景語義分割等型別標註，也同步支援3D點雲場景下的車路協同、連續幀、點雲融合、點雲語義分割等標註型別。

在增效降本方面，平臺還創新性地引入自動化生命週期管理、AI增強等模組，AI標註平均準確率可達90%以上，部分場景可實現完全AI標註量產。

(注：根據訓練模型在已標註的測試集上進行預處理後透過IoU演算法進行計算，IoU閾值在0.9以上算正確計算)。

憑藉產品與流程上的創新變革，過往堆積人力的執行方式被平臺產品所取代，業務執行規模不再與專案經理人數繫結，從源頭端解決AI應用場景持續擴充對高質量多源異構資料的海量需求。

未來，曼孚科技將持續聚焦自動駕駛資料閉環構建，專注提升真實資料規模量產能力，為自動駕駛商業落地增添更多助力。

自動駕駛資料閉環：實現高階自動駕駛的必由之路

相關文章