人工智慧資料標註這些年:從幕後到前臺丨曼孚科技

曼孚科技發表於2020-03-20
人工智慧資料標註這些年:從幕後到前臺丨曼孚科技

“你瞭解人工智慧行業嗎?”

10個人中可能有9個人會給出肯定的回答。

“你瞭解資料標註行業嗎?”

10個人中可能有9個人會茫然地搖頭。

與處在聚光燈中心的人工智慧科技公司不同,資料標註行業長期處於聚光燈之外的灰色地帶,很長一段時間內都是被邊緣化乃至低視的一個存在。

不過,隨著時代發展帶來需求的改變,資料標註行業也在發生著日新月異的變化,開始從幕後走向前臺。

一.幕後:粗放與混亂交織

資料標註行業裡流傳著這樣的一段話:“有多少智慧,就有多少人工”。

這句話在某種程度上道出了人工智慧的本質。

事實上,現階段讓AI提升認知世界能力的最有效途徑仍然是監督學習,而目前AI演算法能學習的資料,幾乎全部都是透過人力逐一進行標註而得來的。

人工智慧資料標註這些年:從幕後到前臺丨曼孚科技

一張經過資料標註後的圖片(來源:曼孚科技)

需求即意味著市場,據相關機構預測,未來幾年,國內資料服務市場將達上百億。

如此龐大的市場規模,讓很多人都想趁機分一杯羹,於是大大小小的標註團隊如雨後春筍一樣大量出現。

然而,問題也隨之而來。

與人工智慧高科技含量不同,資料標註仍屬於勞動密集型產業,且模式通常以外包形式為主。

標註員每天從事標框、拉點等重複枯燥的工作,勞動力水平參差不齊導致產出的標註資料質量偏低,無法滿足AI企業的需求,影響AI產品商業化落地程式。

與此同時,低端產能過低的技術含量,也使資料標註行業幾乎沒有任何壁壘限制,很多標註團隊隨意拉進來幾個人經過簡單培訓就可以接業務了。

這樣的後果就是行業混亂且競爭加劇,絕大部分標註團隊只能存活於產業鏈最底層,壓價情況嚴重,甚至接不到業務導致生存艱難。

二.前臺:AI對於高質量資料的依賴

人工智慧行業內有一個很重要的共識:

資料集質量的高低直接決定最終模型效果的好壞。

換句話說,資料對於模型效能的貢獻是最大的,資料越多越豐富、代表性越強、模型效果越好,演算法的健壯性和魯棒性就越強。

隨著AI企業商業化落地程式的加快,越來越多的企業開始意識到標註資料的重要性。

以自動駕駛為例,目前很多企業都已經生產出自己的無人駕駛汽車樣車,並頻頻出現在公共視野內。

然而,雖然這些樣車在實驗室內表現良好,但距離真正的商用仍然有很遙遠的距離,一個很重要的原因就是真實路況場景與實驗室場景差距過大。

人工智慧資料標註這些年:從幕後到前臺丨曼孚科技

自動駕駛標註場景(來源:曼孚科技)

在實驗室內,只需要少量的道路資料即可滿足實驗的需要,但是到了真實的道路上,無人駕駛汽車將會遇到很多無法預知的情況,在沒有足夠資料支撐的前提下,車載電腦無法做出自己的判斷,導致潛在的風險劇增。

因此,以自動駕駛企業為代表的眾多AI企業對資料標註行業提出了更高的要求,資料標註行業已然開始處於聚光燈的焦點,從幕後走向了前臺。

三.未來:智慧化、精細化、場景化

AI資料是人工智慧的重中之重。眾所周知,人工智慧的三駕馬車是演算法、算力與資料,其中資料是人工智慧行業的發展基石。

隨著人工智慧行業商業化落地程式的加快,AI資料服務領域泥沙下沉,清泉上湧,行業變革已初露端倪。未來,智慧化、精細化、場景化將是資料標註行業的主要發展方向。

智慧化,即意味著標註工具AI化。以曼孚科技自研的語音標註工具為例,AI預標註技術可以自動識別轉寫語音資料,標註員只需要在工具預標註的結果上略作修改即可,這在提升標註效率的同時也減輕了對於人力的依賴。

精細化,即意味對標註資料集質量與細節提出了新的要求。以往資料集的準確率可能達到90%以上即可滿足要求,但隨著AI商業化落地程式的加快,AI企業對於標註資料的質量要求達到了95%,甚至99%以上,同時更加註重細節,比如曼孚科技在進行自動駕駛領域資料標註業務時,專案方會對諸如情緒捕捉、疲勞駕駛等等提出更加細節化的標註需求。

人工智慧資料標註這些年:從幕後到前臺丨曼孚科技

精細化標註能力(來源:曼孚科技)

場景化,即意味資料標註行業要滿足多樣化應用場景標註需求。以計算機視覺領域為例,目前資料標註可以應用在自動駕駛、無人機、AI教育、工業機器人、新零售、安全防護等場景中。每一個應用場景都有自己的資料型別與具體標註要求,因此極為考驗資料標註企業的場景化標註能力。

可以預見的是,未來幾年資料標註行業將迎來一場大變革,理念更先進、技術更硬核、服務更專業的AI資料服務企業將會把資料標註行業帶入全新的精細化運營時代。

而未來,相信隨著5G技術的逐步應用,資料與5G的結合將碰撞出更多創新火花,共同托起AI發展的基石。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2681697/,如需轉載,請註明出處,否則將追究法律責任。

相關文章