工作人員齊整坐好，每個人都對著電腦全神貫注，一件又一件的“東西”在眼前劃過，經過標準化處理就轉到下一流程……這實際上是人工智慧行業裡的資料標註辦公區一角。

由於深度學習的研究方向，人力密集型的資料標註工作是推進人工智慧技術落地的重要環節之一。

很長一段時間以來，在過往AI的發展中資料的採集與標註行業沒有過多地被關注，畢竟，與演算法、算力這些高大上的東西相比，AI資料的生產總帶著那麼幾分與AI技術的“科技感”截然不同的形象。

然而，隨著AI的發展走向縱深，更多人發現這是一個誤解，AI資料產業正在 向著高專業化、高質量化 的方向蓬勃發展。

根據2018年智研發布的《2019-2025年中國資料標註與稽核行業市場專項分析研究及投資前景預測報告》，2018年該行業市場規模已達到52.55億元，2020年市場規模有望突破百億。有行業人士估計AI專案中會有10%的資金用於資料的採集和標記，2020年，資料標註行業最終市場規模將達到150億。

而分享市場的，既有BAT、京東等網際網路巨頭，也有云測資料這種專注於高質量交付的專業化資料平臺。

龐大的前景下，資料採集與標註也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分，隨著資料需求量的增大、對資料質量要求的提高，其中的NLP越來越成為“硬骨頭”，AI資料產業終將面臨它帶來的難題，也承襲這種難題下空出的市場空間。

AI的資料、演算法和算力“輪流坐莊”，NLP到了“資料為王”的時代

晶片製程以及大規模並聯計算技術的發展，使得算力快速提升後，AI能力的提升主要集中到了演算法和資料上(算力提升當然還有價值，只是相對價值那麼明顯了，例如不可能對一個物聯網終端裝置有太多的算力設定要求)。

這方面，多年以來，人工智慧技術都呈現“輪流坐莊”的螺旋提升關係：

演算法突破後，可容納的資料計算量往往變得很大，所以會迎來一波資料需求的高潮；而當AI資料透過某些方式達到一個新的程度時，原來的演算法又“不夠了”，需要提升。

2018年11月，Google AI團隊推出劃時代的BERT模型，在NLP業內引起巨大反響,認為是NLP領域裡程碑式的進步，地位類似於更早期出現的Resnet相對於CV的價值。

以BERT為主的演算法體系開始在AI領域大放異彩，從那時起，資料的重要性排在了NLP的首位。

加上兩個方面的因素，這等於把NLP資料採集與標註推到了更有挑戰的位置上。

一個因素，是NLP本身相對CV在AI資料方面的要求就更復雜。

CV是“感知型”AI，在資料方面有Ground Truth（近似理解為標準答案） ，例如在一個圖片中，車、人、車道線等是什麼就是什麼，在採集和標註時很難出現“感知錯誤”(圖片來源：雲測資料)

而NLP是“認知”型AI，依賴人的理解不同產生不同的意義，表達出各種需要揣測的意圖，Ground Truth是主觀的。

例如，“這房間就是個烤箱”可能是說房間的佈局不好，但更有可能說的是裡邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點，應用於AI時，需要被多方位、深度探索。

另一個因素， 是AI資料的價值整體上由“飼料”到“奶粉”，對NLP而言這更有挑戰。

大部分演算法在擁有足夠多常規標註資料的情況下，能夠將識別準確率提升到95%，而商業化落地的需求現在顯然不止於此，精細化、場景化、高質量的資料成為關鍵點，從95% 再提升到99% 甚至99.9%需要大量高質量的標註資料，它們成為制約模型和演算法突破瓶頸的關鍵指標。

但是，正如雲測資料總經理賈宇航所言，“影像採標有很強的規則性，按照規範化的指導文件工作即可，但NLP資料對應的是語言的豐富性，需要結合上下文等背景去理解和處理。”在高位提升這件事上，NLP資料更難。

例如，在訂機票這個看似簡單的AI對話場景中，想訂票的人會有多種表達，“有去上海的航班麼”，“要出差，幫我查下機票”，“查下航班，下週二出發去上海”……自然語言有無窮多的組合表現出這個意圖，AI要“認得”它們，就需要大量高質量的資料的訓練。

由此，我們再來理解商業機會。

AI的資料、演算法、算力“輪流坐莊”，NLP到了“資料為王”的時代

相關文章