澳鵬Appen:自動駕駛浪潮下,如何給技術迭代插上資料的“翅膀”?

全球TMT發表於2021-12-23

上海2021年12月22日 /美通社/ --  微信公眾號“高工智慧汽車”最近對澳鵬Appen進行了報導,下面是報導原文:

在自動駕駛時代,無論是對於汽車製造商、零部件廠商還是自動駕駛服務提供商來說,資料都相當於金錢,身處其中的企業都非常清楚這個公式。

去年,滴滴出行與比亞迪合作,推出全球首款定製網約車。該公司CEO程維表示,滴滴計劃於2025年推出D3,普及100萬輛搭載自動駕駛功能網約車;2030年希望去掉駕駛艙,計劃實現完全自動駕駛。

今年初,百度和吉利宣佈合資成立一家全新的聯網智慧汽車公司,基於後者的開放動力底盤平臺,結合百度的人工智慧、Apollo自動駕駛、小度車載、百度地圖等軟體,目標是讓所有人都能使用自動駕駛汽車。

按照這家合資公司(集度汽車)執行長夏一平的話說,公司打算以合理的成本向千家萬戶提供4級自動駕駛技術,“就像別人希望普及電動汽車一樣,我們也希望普及自動駕駛技術。”

而這些企業,不管以何種方式入局“造車”,目的只有一個,希望打造自己的大規模資料訓練、功能迭代閉環。

正如行業領頭羊特斯拉的玩法一樣,在量產中結合車端的智慧處理能力識別出不智慧的場景,將資料回傳,以此迭代演算法,不斷提高自動駕駛的能力,逐步構建自己的車輛規模和技術壁壘。

另一方面,對於確保自動駕駛行車安全執行方面,高質量的訓練資料極其關鍵。這就要求行業加強稽核,避免“garbage in, garbage out”的情況發生。

這就要求,負責訓練模型的團隊不僅要面對自身專業度的挑戰,而且要面對確保資料標註過程質量的巨大挑戰。

在這方面,澳鵬可以說是當之無愧的模範生。

破解市場困局

相關研究發現,在AI行業中,有兩個層面符合二八法則。

首先,同一個演算法的應用中,同樣型別技術方案的公司差異會很大。其中的關鍵就在於資料量。同一個演算法對於最後結果的影響,80%來源於資料,20%來源於技術。

簡單來說,演算法模型本身的最佳化對於提升AI應用輸出的準確率十分有限,而不同AI應用準確率的關鍵差別在於其中是否有大量的、高質量的訓練資料。

其次,很多AI或演算法公司在做研發時,80%的時間或人力需要用於處理資料,只有20%用於處理演算法與程式碼。而實際上,這種做法並不合理。要想精進整體系統的魯棒性,工程師應該將更多的精力集中於演算法或應用層面,而針對資料層面,則可以讓更專業的供應商幫助他們提升質量和效率。

另一方面,目前人工智慧研究應用的演算法,基本基於機器學習和神經網路演算法,實戰中對訓練資料的準確率要求起碼要到達90%以上,甚至有的專案要求能夠做到99.9%準確率。而更難的地方在於,這不僅是對某一批資料的要求,而是要持續達到這個要求。

有行業人員表示,自動駕駛領域的AI部署需要大量的高質量訓練資料,需求增長極快,且需求和場景越來越多樣、難度越來越大。隨業內需求從2D平面影像轉向3D LiDAR資料為主,行業對於標註人員專業度的要求也隨之水漲船高。

而標註人員在完成這些資料任務時,可能面臨諸多挑戰,其中包括:內部標註人員不足和引入的偏差問題、時間限制下難以達到所需的數量規模及準確率。

此外,當前資料行業各個服務商的水平參差不齊,優質頭部資料服務商的服務資源稀缺,CR5的集中只有20~30%。業內也普遍缺乏進行復雜標註專案所需的專業工具。這無疑為資料質量帶來了更多挑戰。

“這也是澳鵬本身創立的初衷。”澳鵬Appen中國區市場擴充高階總監 董成表示。

作為澳大利亞的一家上市公司,澳鵬自1996年建立至今,始終專注於人工智慧訓練資料的領域,目前在語音、文字、影像和影片等標註領域已積累了25+年的經驗。服務範圍覆蓋170多個國家,235+種語言。全球正式員工 1100+,擁有100萬+全球眾包資源。截至2020年,公司營收已達4.1億的美金。

其中國分公司成立於2019年,總部位於上海,在無錫、大連、北京設有交付中心和分公司,業務廣泛覆蓋全中國及亞太地區,擁有1000+名交付人員。目前,澳鵬合作客戶已遍及國內領先大型網際網路公司與高科技企業。

作為資料行業的優質典範,澳鵬擁有強大的交付產能及資源管理優勢,服務的客戶和專案數以百計。澳鵬無錫、大連交付中心經驗豐富的交付團隊,處理過2D、3DLiDAR等各種資料和不同客戶的業務需求,汽車2D和3D點雲的周交付能力超過百萬幀;卓越運營中心的管理模式可保證持續的高質量交付。

在自動駕駛領域,澳鵬高精度高效能的自動駕駛工具套裝也是其為客戶構築海量資料資產的利器,這也是澳鵬的核心優勢之一。

全面保障資料質量

為了適應高速變化的市場形式,澳鵬構建了完整的資料質量全生命週期管理體系,可以從資料的採集、標註、模型訓練、資料視覺化、模型的部署及再訓練等全過程,實現實時自動的模型再訓練和改裝。

其自主研發的人工智慧輔助資料標註平臺可支援畫素級語義分割、2D影像複合標註、3D點雲拉框及語義分割等功能。採標一體的任務能夠實現採集-質檢-標註-質檢-客戶驗收的雙向協同流程,讓整個資料生產線上的各個環節實現無縫銜接。內建的多輪質檢模組可以按需配置,滿足不同複雜度專案的需求。

2D影像複合標註是全結構化的模型訓練利器,支援點、線、框、多邊型融合標註(常見工具是單模式的,點、線or折線,多邊形)與連續幀;另外,此工具還支援畫素級語義分割,可將圖片中目標物件例項標記出來,並保證畫素級的質量。其中豐富的可配置選項可靈活進行id處理,實戰中可以做到10分鐘/張圖。

澳鵬Appen中國區市場擴充高階總監 董成介紹,澳鵬利用ML輔助標註等技術手段提高資料質量,透過預識別系統,讓演算法先進行預識別,再根據結果進行人為調整,最終在成本控制和質量上實現顯著提升。

比如在3D點雲資料中,由於車道線本身的多樣性(環島、交叉線)以及外界光照、車輛遮擋等影響,3D點雲資料中的車道線標註一直是一個困難且耗時的課題。澳鵬3D點雲車道線自動識別的研發是解決這一難題的重大突破。

澳鵬Appen 3D點雲車道線自動識別 模型效果展示
澳鵬Appen 3D點雲車道線自動識別 模型效果展示

“我們3D點雲拉框可支援自動貼合、連續幀對映,及3D/2D的融合標註,具備目標預識別功能,能靈活配置資料有效性驗證規則,可直接線上上讓客戶做最低交付粒度的驗收且可無縫打回。實戰中能夠做到99.9%準確率, 1秒/幀的極速質檢。”澳鵬Appen中國區市場擴充高階總監 董成表示。

此外,澳鵬的每個專案中除了配備專職的專案經理,還有專門的QA/質檢人員,Team Leader、等層層把關質量控制;大多數專案都採用多輪質檢的方案,保障資料質量無限接近完美。

值得一提的是,澳鵬內部對於安全合規的要求非常高,除了有健全的資料安全管理流程外,澳鵬還為了保障資料安全專門設定了DPO(Data Privacy Officer,資料合規官)。

所有的專案在簽單、立項前都需要透過資料合規官的稽核、批准,並根據資料合規的要求在專案執行中採取相應的資料保障措施。

“我們對人工智慧模型所使用的資料給予最大限度的關注和保護,致力於為客戶提供最高階別的資料安全標準,符合全球多項嚴格的資料安全資質認證。同時,我們的平臺每天都會進行漏洞掃描,最大限度的保證客戶資料資產安全。”澳鵬Appen中國區市場擴充高階總監 董成表示。

平臺中設有許可權管控、資料加密傳輸、PII資訊加密儲存等嚴格的資料安全管控策略,交付管理具體包括:平臺進行週期性系統漏洞掃描以免受惡意程式碼/病毒攻擊; 24x7的全球IT支援團隊和緊急響應小組確保對IT事件及時響應等等。

目前,澳鵬已在全球獲得ISO 27001安全認證,包括位於上海的商務和研發總部、以及無錫和大連的資料服務交付中心。全球範圍內,澳鵬亦透過了GDPR,SOC 2 Type II,HIPAA等全球不同國家和地區的資料安全合規認證。

某位與澳鵬合作的客戶負責人表示:“澳鵬與我們團隊的合作非常順利,其平臺有助於我們確保流程根據專案需求不斷被最佳化。我們也期待這一試點專案能儘快投入生產。”


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004007/viewspace-2848971/,如需轉載,請註明出處,否則將追究法律責任。

相關文章