資料標註員:人工智慧行業的“築夢師”丨曼孚科技

曼孚科技發表於2020-09-01
資料標註員:人工智慧行業的“築夢師”丨曼孚科技

資料標註行業裡有著這樣的一段話:“有多少智慧,就有多少人工”。

這句話在某種程度上道出了人工智慧的本質。

事實上,現階段提升AI認知世界能力的最有效途徑仍然是監督學習,而監督學習下的深度學習演算法訓練十分依賴於資料標註員進行標註資料。可以說,如果資料標註是人工智慧行業的基石,那麼資料標註員就是資料標註行業的基石。

2020年2月,資料標註員被正式定義為“人工智慧訓練師”並納入國家職業分類目錄。

人工智慧訓練師新職業隸屬於軟體和資訊科技服務人員小類,主要工作任務包括:標註和加工原始資料、分析提煉專業領域特徵,訓練和評測人工智慧產品相關的演算法、功能和效能,設計互動流程和應用解決方案,監控分析管理產品應用資料、調整最佳化引數配置等。

根據國家人力資源和社會保障部相關預測顯示,隨著人工智慧在智慧製造、智慧交通、智慧城市、智慧醫療、智慧農業、智慧物流、智慧金融及其他各行各業的廣泛應用,人工智慧訓練師的規模將迎來爆發式增長。預計到2022年,相關從業人員有望達到500萬。

資料標註員:人工智慧行業的“築夢師”丨曼孚科技

曼孚科技資料標註基地

不過,儘管資料標註員規模處於急速擴張中,但是與市場需求相比,缺口依然很大。

據艾瑞諮詢相關統計資料顯示,當下一個新研發的計算機視覺演算法需要上萬張到數十萬張不等的標註圖片訓練,新功能的開發需要近萬張圖片訓練,而定期最佳化演算法也有上千張圖片的需求,一個用於智慧城市的演算法應用,每年都有數十萬張圖片的穩定需求。

語音方面,頭部公司累計應用的標註資料集已達百萬小時以上,每年需求仍以20%-30%的增速上升,不僅如此,隨著IoT裝置的普及,語音互動場景越來越豐富,每年都有更多的新增場景和新需求方出現,對於標註資料的需求也在逐步增長。

這些海量的資料幾乎全部依賴資料標註員手工進行標註,資料標註員的數量缺口十分可觀。

此外,隨著AI商業化落地程式的加快,AI企業對於資料標註服務供應商也提出了新的要求,高質量、精細化、定製化的資料集越來越受到需求方的青睞,這意味著對資料標註員的專業素質能力提出了更高的要求。

可以說,當前人工智慧行業的主要矛盾是,快速增長的標註業務需求與滯後的專業資料標註員供給之間的矛盾。

如何解決該問題就成為擺在諸多資料標註企業面前的現實問題。“眾包模式”是解決標註員數量短缺問題的有效途徑之一,這也是目前諸多資料標註服務企業所採用的模式之一。

然而,這種兼職的模式下,臨時標註員的專業素質能力無法得到有效保證,服從管理的意識也較為淡薄,直接後果就是交付資料集的質量無法滿足專案方的需求。

這樣的背景下,越來越多的企業意識到,只有透過自建標註團隊,並輔以專業的培訓,才能同步解決資料標註員在數量與質量上存在的問題,為專案方提供高質量的標註服務。

以曼孚科技為例,透過自建標註團隊,實現對資料標註員的統一管理與培訓,並建立行業級的培訓與職業評價標準,可以顯著提高專案的執行度,為需求方提供高質量的標註資料集。

未來,隨著AI應用場景逐漸多領域化,在資料標註行業內部,從業者也必將隨著AI行業而一同進入細分市場追逐階段,可謂機遇與挑戰並存,夢想與發展同在。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69956378/viewspace-2716370/,如需轉載,請註明出處,否則將追究法律責任。

相關文章