AI的資料、演算法、算力“輪流坐莊”,NLP到了“資料為王”的時代
工作人員齊整坐好,每個人都對著電腦全神貫注,一件又一件的“東西”在眼前劃過,經過標準化處理就轉到下一流程……這實際上是人工智慧行業裡的資料標註辦公區一角。
由於深度學習的研究方向,人力密集型的資料標註工作是推進人工智慧技術落地的重要環節之一。
很長一段時間以來,在過往AI的發展中資料的採集與標註行業沒有過多地被關注,畢竟,與演算法、算力這些高大上的東西相比,AI資料的生產總帶著那麼幾分與AI技術的“科技感”截然不同的形象。
然而,隨著AI的發展走向縱深,更多人發現這是一個誤解,AI資料產業正在 向著高專業化、高質量化 的方向蓬勃發展。
根據2018年智研發布的《2019-2025年中國資料標註與稽核行業市場專項分析研究及投資前景預測報告》,2018年該行業市場規模已達到52.55億元,2020年市場規模有望突破百億。有行業人士估計AI專案中會有10%的資金用於資料的採集和標記,2020年,資料標註行業最終市場規模將達到150億。
而分享市場的,既有BAT、京東等網際網路巨頭,也有云測資料這種專注於高質量交付的專業化資料平臺。
龐大的前景下,資料採集與標註也可以分NLP(自然語音處理)、CV(計算機視覺)等幾個部分,隨著資料需求量的增大、對資料質量要求的提高,其中的NLP越來越成為“硬骨頭”,AI資料產業終將面臨它帶來的難題,也承襲這種難題下空出的市場空間。
AI的資料、演算法和算力“輪流坐莊”,NLP到了“資料為王”的時代
晶片製程以及大規模並聯計算技術的發展,使得算力快速提升後,AI能力的提升主要集中到了演算法和資料上(算力提升當然還有價值,只是相對價值那麼明顯了,例如不可能對一個物聯網終端裝置有太多的算力設定要求)。
這方面,多年以來,人工智慧技術都呈現“輪流坐莊”的螺旋提升關係:
演算法突破後,可容納的資料計算量往往變得很大,所以會迎來一波資料需求的高潮;而當AI資料透過某些方式達到一個新的程度時,原來的演算法又“不夠了”,需要提升。
2018年11月,Google AI團隊推出劃時代的BERT模型,在NLP業內引起巨大反響,認為是NLP領域裡程碑式的進步,地位類似於更早期出現的Resnet相對於CV的價值。
以BERT為主的演算法體系開始在AI領域大放異彩,從那時起,資料的重要性排在了NLP的首位。
加上兩個方面的因素,這等於把NLP資料採集與標註推到了更有挑戰的位置上。
一個因素,是NLP本身相對CV在AI資料方面的要求就更復雜。
CV是“感知型”AI,在資料方面有Ground Truth(近似理解為標準答案) ,例如在一個圖片中,車、人、車道線等是什麼就是什麼,在採集和標註時很難出現“感知錯誤”(圖片來源:雲測資料)
而NLP是“認知”型AI,依賴人的理解不同產生不同的意義,表達出各種需要揣測的意圖,Ground Truth是主觀的。
例如,“這房間就是個烤箱”可能是說房間的佈局不好,但更有可能說的是裡邊太熱。人類語言更富魅力的“言有盡而意無窮”的特點,應用於AI時,需要被多方位、深度探索。
另一個因素, 是AI資料的價值整體上由“飼料”到“奶粉”,對NLP而言這更有挑戰。
大部分演算法在擁有足夠多常規標註資料的情況下,能夠將識別準確率提升到95%,而商業化落地的需求現在顯然不止於此,精細化、場景化、高質量的資料成為關鍵點,從95% 再提升到99% 甚至99.9%需要大量高質量的標註資料,它們成為制約模型和演算法突破瓶頸的關鍵指標。
但是,正如雲測資料總經理賈宇航所言,“影像採標有很強的規則性,按照規範化的指導文件工作即可,但NLP資料對應的是語言的豐富性,需要結合上下文等背景去理解和處理。”在高位提升這件事上,NLP資料更難。
例如,在訂機票這個看似簡單的AI對話場景中,想訂票的人會有多種表達,“有去上海的航班麼”,“要出差,幫我查下機票”,“查下航班,下週二出發去上海”……自然語言有無窮多的組合表現出這個意圖,AI要“認得”它們,就需要大量高質量的資料的訓練。
由此,我們再來理解商業機會。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69974185/viewspace-2691451/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料為王的時代,NLP資料產業會是下一個藍海產業
- 大資料時代的資料治理!大資料
- AIGC時代的算力基石,未來的資料平臺將如何演進?AIGC
- 資料為王時代 愛加密如何深耕移動應用安全?加密
- AI時代,找准算力發力點AI
- 資料、AI 和人類共進共生,重塑生成式 AI 時代的資料戰略AI
- 資料為王 安全至上
- 圖資料庫——大資料時代的高鐵資料庫大資料
- AI時代,還不瞭解大資料?AI大資料
- 資訊洩露事件頻發,拷問AI時代的資料安全事件AI
- 跨越資料的“嘆息牆”:華為下一代資料湖與HPDA時代
- 大模型時代究竟需要怎樣的 AI 資料庫?大模型AI資料庫
- 淺談雲端計算時代的資料庫執行資料庫
- 阿里雲們扎堆集結,資料庫黃金時代到了?阿里資料庫
- 大資料開發實戰:實時資料平臺和流計算大資料
- 快速部署DBus體驗實時資料流計算
- 資料庫建表效率為王資料庫
- ABAP R3 時代著名的 SFLIGHT 航班模型測試資料,到了S/4HANA時代的進化版模型
- 專訪宜信AI中臺團隊負責人王東:智慧金融時代,大資料和AI如何為業務賦能AI大資料
- 大資料時代,區塊鏈在保護“資料隱私安全”中起到了什麼作用大資料區塊鏈
- Bond——大資料時代的資料交換和儲存格式大資料
- 大資料時代,資料倉儲究竟是幹嘛的?大資料
- 物件代理資料庫:大資料時代下的應需之作物件資料庫大資料
- 蛛網時代:資料大爆炸下的資料視覺化視覺化
- 資料是核心:中國資料資產的新時代(附下載)
- 亞信安慧AntDB 資料庫:超融合資料庫引領實時計算新時代資料庫
- 曹老道聊大資料雲端計算時代的DBA破繭大資料
- 探索AntDB:資料驅動時代的引擎
- NLP入門資料
- 易觀:避免“資料湖”成為“資料沼澤”,流動的“資料河”是關鍵
- 深入分析大資料時代中的資料倉儲技術大資料
- 亞信安慧AntDB資料庫——實時流資料處理的先鋒資料庫
- 資料結構與演算法之美-王爭-極客時間資料結構演算法
- BERT時代與後時代的NLP(一)
- BERT時代與後時代的NLP(二)
- 如何將Rust的“struct”轉換為資料流?RustStruct
- 在量子計算時代,企業資料的加密該何去何從?加密
- 大資料時代來臨大資料