隨著人工智慧行業的高速發展,資料作為AI演算法的重要基石,如何為機器學習演算法訓練、優化提供資料採集、標註等高質量的服務,成為人工智慧熱潮中必不可少的一環。如何正確獲取資料、標註資料、應用資料?

10月28日,在由深圳市工業與資訊化局、深圳市福田區人民政府指導,高科技行業門戶OFweek維科網主辦的“2020中國國際數字經濟大會暨展覽會”上,澳鵬(Appen)全球高階副總裁、大中國區總經理田小鵬博士接受了OFweek維科網的專訪,暢談人工智慧的基礎以及資料為社會、為行業、為企業的進步所作出的貢獻。

圖:澳鵬(Appen)全球高階副總裁、大中國區總經理田小鵬博士

人工智慧助力新基建

最近,新型基礎設施建設,即“新基建”一詞備受關注。基礎設施是經濟社會發展的重要基石。在數字經濟時代,5G、人工智慧、工業網際網路、物聯網、資料中心等新技術,正在驅動新一輪科技革命和產業變革,成為數字經濟發展的基石。

關於新基建,田博士表示,今年三月,國家再次提出要加快推進包括5G 網路、人工智慧、資料中心等新型基礎設施的建設進度。本次“新基建”的提出,不僅為經濟增長提供新的動力,更為人工智慧領域帶來了更廣泛的關注。人工智慧不再僅僅是科技前沿,它已被列入了新基建的七大領域之一。

“國家把人工智慧作為新的基礎設施來建設,可以說是一項立足長遠的規劃。”田博士稱。

在“新基建”與“舊基建”兩方面的對比上,田博士指出,曾經的前沿技術已被納入國家基礎設施建設。“發生這種轉變的原因,一是科技已經發展到了可以被日常應用,並且能夠切實改善人們生產生活的程度,二是社會已經發展到了需要科技產物的助力來進一步提升生產效率和抗風險能力的程度。”

人工智慧作為這個時代科技發展的偉大產物,早已滲透到了人們工作和生活中的方方面面。如何解決民生剛需、解除民生痛點?這是人工智慧應該做到的事情。在這一點上,田博士舉例指出:“在智慧語音和智慧語義的加持下,音響不再是單向輸出音訊的工具,而是能夠進行人機互動的智慧裝置;密碼解鎖在很多場景中,已經被指紋、人臉識別替代。”

“可以說,人工智慧是時代發展的新型燃料,通過高效挖掘資料價值,賦能各行業各領域智慧升級。”田博士說道。

人工智慧助力後疫情時代產業發展

人工智慧作為支撐經濟社會數字化、網路化、智慧化轉型的關鍵新型基礎設施,不僅在助力疫情防控、復工復產等方面作用突出,同時,在穩投資、促消費、助升級、培植經濟發展新動能等方面潛力巨大。

那麼,人工智慧如何作出貢獻?

田博士指出,在這場使人與人之間保持距離、把人們社交活動頻次降至最低的新冠疫情中,“左手支撐疫情防控,右手支撐復工復產”的人工智慧,在抗疫人力不足時挺身而出,將防疫和工作效率提升數倍。“疫情的影響還在持續,而人工智慧帶來的健康碼、AI醫生、送藥送餐機器人等各種高效管理和便民服務,已經同水、電、氣、網路一樣,成了城市必不可少的‘基礎設施’。”

田博士進一步指出,社會對於人工智慧的需求遠遠不止於抗擊疫情。“此次疫情作為一個推手,已經正式將人工智慧全面推向社會的方方面面。智慧金融、智慧教育、智慧醫療、智慧交通等等都有著人工智慧在其中發光發熱。需求已然成熟,後疫情時代的人工智慧產業,絕不僅僅指向其自身的發展,而是要推動各行業完成智慧化轉型升級,實現新舊動能的轉換。”

事實上,作為新一輪科技革命和產業變革的重要驅動力量,人工智慧正在對經濟發展、社會進步、國際政治經濟格局等多個方面產生重大而深遠的影響。根據德勤此前釋出的《全球人工智慧發展白皮書》預測,到2025年,世界人工智慧市場規模將超過6萬億美元,2017年至2025年複合增長率達30%。

中國的人工智慧舞臺更是潛力巨大。我國《新一代人工智慧發展規劃》提出:到2030年,中國人工智慧核心產業規模將超過1萬億元,帶動相關產業規模超過10萬億元。

AI演算法是車,資料是油

根據國際資料公司(IDC)2018年末的測算,2018年至2025年,全球的資料總量將由33ZB增加至175ZB。其中,中國的資料增長量將保持30%的增長速度,將是所有地區中增長速度最快的。同樣,資料量的激增也催生出了資料服務行業這一龐大的市場。

機器強於人的地方在於它能夠儲存、處理大量資料。過去,機器得到的資料是人類獲取並選擇性錄入,它所產出的結論充滿侷限性。而現在,在人工智慧的幫助下,機器能夠自己聽、自己看,海量資料資訊的記錄與分析為各行各業的日常決策與長遠發展帶來前所未有的改變。

但問題來了——機器儲存、處理的大量資料,從何處獲取,如何獲取成了關鍵。人工智慧商業化在算力、演算法和技術方面基本達到階段性成熟,想要加速落地,解決行業具體痛點,就需要大量經過標註處理的相關資料做演算法支撐。

資料決定了AI的落地程度,是商業化過程中重要的一環。

田博士舉了一個生動的例子。同樣是看月亮,在不同的經度,不同的緯度中,會有差異。如果採用在一個國家的不同地方所觀察到的月亮,而不是在全球各個地方實地觀察,那麼其標註的資料一旦應用於全世界資料中,錯誤的資料將會給後續一系列應用帶來錯誤的結果。

用AI來服務AI,賦與AI最初始的、準確的資料是基礎。“如果把AI中的演算法比作是車,那麼資料便是油,想要車跑得更快、更好,‘喂’給它高質量的油必不可少。”田博士稱。

智慧化轉型的機遇與挑戰

今年6月,在澳鵬(Appen)全球釋出的2020年AI現狀年度報告《AI與機器學習的現狀》中,近四分之三的調研企業組織表示AI對他們的業務而言至關重要,越來越多的企業開始將負責任的初始資料作為其實現業務成功的因素之一,這是機遇。

然而,人工智慧專案的成功部署並沒有那麼容易。據研究機構Gartner的調研顯示,在2019年,只有不到20%的人工智慧專案成功部署。其中,資料問題正是部署失敗的主要原因之一,這對於企業而言是一個無法避免的挑戰。

隨著技術的不斷髮展,傳統企業一定會走向AI的道路,在這條道路上,他們對於資料的需求相較於以往提出了更高的要求:第1是需要大量的高質量資料;第2是資料的安全性、保密性、私密性及無歧視要求;第3是要求採標一體化。

田博士指出,企業自己完成這些資料任務是具有挑戰性的,並且成本高昂,處理不當時甚至可能弊大於利。對於希望高效完成AI部署的企業而言,與專業的資料夥伴開展合作尤為重要。

“20多年以來,澳鵬與全球領先的AI公司合作,提供高質量的多樣化可擴充套件標註選擇,包括:先進的人工智慧輔助資料標註平臺、遍佈全球的多語言專家、全球超過一百萬的眾包資源,滿足180多種語言、方言和多樣化安全需求,以及符合道德規範的資料來源及公平的眾包報酬,降低品牌可能面臨的潛在風險。我們的部署速度比市場平均速度快三倍以上。”田博士如是說。

澳鵬的未來

關於澳鵬未來的戰略規劃,田博士稱,澳鵬將對其人工智慧輔助資料標註平臺的幾個重點領域加大投入:

1. 標註工具箱,繼續優化部分高複雜度的資料交付場景,比如自動駕駛2D、3D標註;

2. 模型輔助平臺,研發行業一流的基於遷移學習和主動學習框架的線上預標註平臺,大幅提升人機協同效率,為客戶創造價值;

3. 企業級資料API和視覺化分析平臺,研發企業級資料API和視覺化分析平臺,將平臺無縫接入客戶的模型研發流程,進一步提升資料+模型的迭代效率。

田博士說:“去年10月,澳鵬中國首個資料服務交付中心——澳鵬科技(無錫)有限公司正式成立,投資200萬美元;今年5月,澳鵬資料科技(上海)有限公司正式成立,投資200萬美元。剛剛建成不久的大連服務交付站點,則可以更多地為面向日語、韓語、俄羅斯語,包括覆蓋東北領域的公司提供服務。未來,澳鵬還將向更多的行業邁進,不斷砥礪前行,深耕細作。”

“澳鵬希望到2025年,可以做到10億美元的收入、上萬人規模的企業,真正開始在大中華區的市場,包括大陸、香港、臺灣等提供各種各樣的高質量AI資料服務。”田博士稱。