如果將人工智慧比作“火箭”,那麼,資料就是助推火箭上升的“燃料”。機器學習依賴大量的已標註資料,資料標註讓機器理解並認識世界。資料標註是人工智慧發展過程中不可缺的一環,是 AI 金字塔構建的基礎力量。與 AI “臺前”的繁榮、高光形成鮮明對比的是,資料標註往往居於幕後,常被人忽視,也受到一些偏見,“血汗工廠”、“AI 富士康”、“新型民工”…隨著 AI 深入落地對資料提出更高的要求,資料標註行業也從草莽生長階段逐漸過渡到更精細化的成長期。
“AI 金字塔”背後的資料標註
資料是機器學習的基礎,機器學習建立在資料建模基礎上,豐富的標籤是機器學習成功建模的前提。監督學習是目前應用最廣泛的機器學習演算法,該方法強依賴標註資料,它透過學 習 大 量標註的訓練樣本來構建預測模型。深度學習也需要大量資料的“投餵”,以深度學習為代表的機器學習框架都需要在大型的監督資料集上進行訓練,百分點首席演算法科學家蘇海波曾表示,深度學習只有在擁有充足標註資料的場景下才能發揮它的威力,但在很多實際的應用中卻沒有足夠的標註資料。
AI 技術在全場景的落地以及大資料時代的到來產生了海量、指數級別的資料,資料獲取也相對變得容易,然而,想要獲得大量的已標註資料卻並不容易,往往需要付出很大的人力、物力、財力成本。在醫療 AI 等專業門檻較高的細分領域,缺乏標註資料就成了阻礙行業發展的“絆腳石”,騰訊優圖實驗室總監鄭冶楓曾在接受 AI 前線採訪時表示,醫療資料標註“難”一方面體現在頂尖的醫療資料標註人才缺乏,另一方面,臨床、科研任務重,很多醫療專家沒有時間和精力做資料標註。
資料標註主要是針對語音、影像、文字等進行標註,主要透過做標記、標重點、打標籤、框物件、做註釋等方式對資料集作出標註,再將這些資料集給機器訓練和學習。資料標註的型別主要有:拼音標註、韻律標註、詞性標註、音素時間點標註、語音轉寫、分類標註、打點標註、標框標註、區域標註等等。由於需要標註的資料規模龐大且成本較高,一些網際網路巨頭及一些 AI 公司很少自己設有標註團隊,大多交給第三方資料服務公司或者資料標註團隊來做。
資料服務是標貝科技的起家業務,自 2016 年成立以來,標貝科技為 BAT、AI 獨角獸等多家公司提供過語音、影像、NLP 資料的採集、標註等服務。據標貝科技資料負責人繆冠瓊介紹,標貝有自研的採集標註平臺,包括長語音(對話、持續)標註平臺和短語音(十幾秒)標註平臺, AI 語音合成資料標註平臺、資料工場 APP 等。在標註平臺的選擇上,會依據影像、語音資料、資料來源、客戶需求等綜合決定。以語音合成資料標註為例,會標註其音字、韻律、音素時間點、詞性等標籤。
人工智慧的繁榮催生並壯大了資料標註行業,也創造了大量的就業崗位。有資料顯示,目前中國的全職資料標註從業者有約 20 萬人,兼職資料標註從業者有約一百萬人,全國從事資料標註業務的公司約有幾百家。
資料“民工” ?
在資料標註行業流行著一句話,“有多少智慧,就有多少人工”。資料標註是人工智慧發展中至關重要的一環,卻常常容易被人忽視。
相對而言,資料標註是人工智慧領域“入門級”的工種,單從工作流程看,其技術含量較低,人是這項工作中最大的影響“因素”,久而久之,“勞動密集型”成為外界給資料標註行業貼上的一個標籤。低門檻吸引了眾多農民、學生、殘疾人群體加入到資料標註大軍中,在我國河南、河北、貴州、山西等地的四五線城市還出現了一些特色的“資料標註村”。
不止中國,向勞動力更充足、成本更低的地方遷移也是全球資料標註行業的發展趨勢。印度湧現了不少資料標註村,他們為美國、歐洲、澳洲和亞洲的 AI 公司服務,Facebook 就曾將部分社交內容標註的工作外包給了一家印度公司。
上述務工者也由此成為了人工智慧浪潮中的參與者,儘管待遇上遠遠少於其他人工智慧從業者,但相較傳統的體力工作,資料標註員的工作倒是更輕鬆,體面。不過,硬幣的另一面是,這項工作流程簡單,單調乏味,資料標註員日復一日重複“畫框”的工作…關於資料標註行業是“髒活累活”、“資料民工”的論調也四散而起。
對於這些“聲音”,繆冠瓊並不認同。
“我覺得(它)不是‘髒活累活’行業 ,因為這並不是一個什麼人都可以做的工作。AI 本身發展很快,隨著應用產品落地,對資料的要求越來越高,對資料採標人員的素質也提出了高要求“。考慮到外包團隊服務質量難以把控等因素,標貝科技所承接的專案主要依靠自有資料標註團隊,其在天津、長春等城市設有資料團隊,兼職人員則視專案大小臨時擴容,遴選兼職人員時更考慮專業水平,要求具有語言、方言背景,或者有資料標註經驗,無經驗者要經過至少 6 個月培訓。
繆冠瓊表示,資料標註行業的發展越來越趨向於專業化,早期多以中文資料標註為主,現在隨著多語種、方言、個性化標註等發展標註需求的增加,並不是隨便“拉來”很多人就可以做的,需要專業的人才。此外,“血汗工廠”這種情形多出現在行業早期且多針對於只有資料標註一項業務的小團隊,它們承接不了一些複雜的、定製化的專案。從工作量上看,結合客戶需求,以語音標註為例,標貝科技的資料標註員一個人工作一天的有效標註語音時長為 1 小時。
機器標註比重提升,但不可能取代人工
蠻荒時代已過去了。
《2019 年中國人工智慧基礎資料服務行業白皮書》分析指出,2010-2016 年為資料服務行業的“初生期”,早期資料標註需求激增,加之入行門檻低,湧入了大量玩家,魚龍混雜。自 2017 年以來,伴隨著 AI 深入落地到各個應用場景中,資料標註行業了進入成長期,上層應用端的廠商對資料標註質的要求不斷提高,如自動駕駛、運動影像、計算機視覺等領域的資料標註難度很高。
行業格局漸漸清晰,馬太效應明顯。據瞭解,國內從事資料標註業務公司 / 團隊約有幾百家,其中獨立做整個資料質量服務的約百餘家,能夠提供資料採標服務一體化的有幾十家,能夠提供高標準基礎資料服務的僅有十幾家。現階段,下游 AI 演算法研發單位多將業務分流給不同資料服務公司加之資料標註相關標準待完善,該行業還沒有出現大的巨頭公司。
這是一個尚未飽和的市場,同樣,這也意味著巨大的發展空間。據統計,2018 年中國人工智慧基礎資料服務市場規模為 25.86 億元,行業年複合增長率為 23.5%。
繆冠瓊認為,受資料安全和質量標準不斷提升及相關資料政策出 臺影響,一些不滿足行業標準及客戶需求的將會被市場淘汰。她補充,“行業目前正處於一個上升的、快速發展的階段,整體在朝著個性化、專業化的方向發展,從早期較簡單的、通用的資料過渡到更復雜的個性化的、場景化的資料,對於很多細分領域,需要大量真實的模型進行標註去迭代模型,而非簡單的通用資料可以滿足的”。
資料標註行業也已經開始進入到人機協作的階段,資料標註市場需求量仍舊很大,需要更加專業的人及高效的機器協助,機器標註所佔的比重會不斷提升,AI 技術與資料互補,透過 AI 技術提升資料效率,資料反過來服務於技術。
為降低人工成本,提高效率,不少網際網路技術公司及第三方資料服務商在開發自己的標註工具。去年 10 月,Google 釋出了用於完整影像標註的人機協作介面 Fluid Annotation,利用它標註影像中每個物件和背景區域的類標籤與輪廓,可將標註資料集的建立速度提高三倍。資料標註眾包平臺也不斷湧現,京東眾智、百度眾測、figure-eight、亞馬遜的 Mechanical Turk 等。
未來,機器標註、人工輔助將成為可以預見的發展趨勢。這對“資料標註村”來說或許並不是一件好事。但繆冠瓊認為,機器不可能完全取代人工。現階段人工標註的準確度要高於機器,機器只能跑出有一定比例的正確結果,更精確的結果仍需要人工來標註,且發揮的作用更關鍵。此外,在質檢環節,人的作用也無可替代,標貝資料校對採用人工為主的處理方式,採用遵循“一審、二校、三驗”流程,機器會抽檢、驗收一部分資料並給出預處理結果,最終的結果要靠精細化的人工校對。