貴州河南沒上過大學的資料標註師傅,卻成為中國AI獲勝的祕密武器

AIBigbull2050發表於2020-01-16
  2020-01-14 17:38:23
貴州河南沒上過大學的資料標註師傅,卻成為中國AI獲勝的祕密武器

【新智元導讀】AI技術的發展依賴大量手工標記資料,在無人駕駛汽車、計算機視覺等領域手工標記資料都非常重要。手工標記費時費力,在國外是一項成本很高的工作,但中國在貴州等勞動力廉價的地區建立了很多資料標籤公司,成本低樣本大的手工標記資料,將成為中國在AI競爭中的祕密武器。「福利:1月16日,騰訊微信人工智慧高階研究員錢橋手把手教你“推薦系統與資料思維”,戳右邊連結上 新智元We站公開課 瞭解更多!」

人工智慧行業流傳著一句古老的讖言:有多少 智慧,就有多少 人工

中國人工智慧崛起速度如此的迅猛,引起了老牌智慧強國美國越來越緊密的關注。就在不到一個月前,中科院院士、中國科學技術大學教授潘建偉等人與德國、荷蘭的科學家合作,在國際上首次實現了20光子輸入60×60模式干涉線路的玻色取樣量子計算,在四大關鍵指標上均大幅重新整理國際記錄,逼近實現量子計算研究的重要目標“量子霸權”!

還沒有完全脫離對中國“山寨”“抄襲”印象的外國人,難以理解為什麼中國在人工智慧這樣的高尖端技術方面,走的這麼快、這麼遠?速度遠遠自己國家?

他們觀察中國的人工智慧發展,分析其中的原因,預測未來的走勢。他們意識到,並非所有國家有能力以及魄力,像中國這樣投入如此大量資金去扶持一個產業。

AI發展的三大支柱:資料、演算法、算力,演算法和算力差距顯然沒有那麼大。於是他們盯上了AI的基石:資料。

被忽視的資料標註,最關鍵的AI基石

谷歌AI和谷歌大腦負責人Jeff Dean曾在公開場合這樣強調資料對於人工智慧演算法的重要性:

貴州河南沒上過大學的資料標註師傅,卻成為中國AI獲勝的祕密武器

可以看到,深度學習演算法精度的提升嚴重依賴於資料,也就是說,誰掌握了更多的資料、更精準的資料,那麼誰的演算法精度也就會更領先一步,誰的AI發展速度自然就更快一些。

資料是人工智慧賴以發展的基石,可他偏偏又是勞動密集型的。如果說演算法和算力體現的是人工智慧的“智慧”部分,那麼資料標註就體現了“人工”。

資料標註沒有什麼神祕性,很多時候一個訓練有素的技工可以非常出色的完成資料標註任務。

Vice曾有記者實地探訪河南AI村,考察那些給人工智慧貼標的新“富士康工人”;支付寶公益基金會、阿里巴巴人工智慧實驗室聯合中國婦女發展基金會在貴州銅仁萬山區啟動了“AI豆計劃”,作為一種 “AI+扶貧”的公益新模式。

像河南、貴州這些從業者不需要背井離鄉,培訓後即可上崗。

這就導致資料標註一直以來存在感極低。從下圖我們可以看出,資料標註佔據了一個機器學習任務25%的時間。

貴州河南沒上過大學的資料標註師傅,卻成為中國AI獲勝的祕密武器

實際上,雖然表面上看起來資料標註毫無技術含量可言,實際上卻是人工智慧成功的關鍵制約因素之一。只有給演算法投喂足夠精準的資料,才有可能將其落地用於實際場景中。

資料標註是實實在在的軍備競賽

資料標註是如此的不顯眼,又如此的重要,稱其為軍備競賽並不為過。

實際上,中國人工智慧的迅猛發展,和當年中國經濟發展頗有些相似之處。開局都是用勞動密集型專案,用低成本迅速擴大規模佔領市場。

相比歐美等國而言,我們海量的勞動力資源以及相對低廉的勞動力成本,成為克敵制勝的攻堅利器。人工資料標註彌補了我們在演算法和算力上的差距,加速了我們趕超對手的步伐。

雖然現在各種自監督學習、半監督學習等方法的提出,試圖不斷的降低對人工標註資料的依賴,然而就該目的實現尚有很長一段路要走。

根據智研發布的《2019-2025年中國資料標註與稽核行業市場專項分析研究及投資前景預測報告》顯示:中國資料標註與稽核行業快速發展,2018年市場規模已達到52.55億元,其中,有三分之一是AI公司內部的標註部門消化,

人工智慧外包公司、人工智慧企業部門、第三方資料標註與稽核公司三分市場。報告預測至少在未來的5年內,資料標註行業的增長空間還很大,資料標註的市場才剛開啟,資料需求將緊隨人工智慧的大規模落地引來一波爆發式增長。

經濟學人一篇文章認為,中國雖然依舊緩慢,卻在不斷縮短和美國之間的差距。精美的美國人自然早就嗅到了危機,將資料標註是為是一場結結實實、實實在在的軍備競賽。

資料服務進入精細化階段

隨著人工智慧技術的不斷髮展,技術含量低的資料標註基礎性的工作也在趨於減少。取而代之的是更偏情緒判斷、考驗理解能力甚至推理能力的資料標註任務。

而資料標註服務也從通用、開源、免費、集中走向細分、定製、收費、眾包,可以想象未來將會有出現經過嚴格培訓、更專業化的資料標註師,資料標註行業的進入門檻也開始拉大差,專業化、場景化、定製化將成為行業趨勢。

資料標註,AI的基石,正在越砌越厚、越壘越高。



https://www.toutiao.com/i6781730611439600131/



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946223/viewspace-2673574/,如需轉載,請註明出處,否則將追究法律責任。

相關文章