授人以漁? 授人以魚! NLP的民主化之路

泰嶽語義工廠發表於2019-01-03

原文網址 : http://www.jiqizhixin.com/articles/2019-01-02-5

首先，我們一起來看一段客戶（User）和開發人員（Developer）的對話。

U：我們就是想給客服的投訴資訊自動分類。

D：這個啊，需要用到NLP中的分詞、詞性標註、句法分析等技術。

D：也會用到CNN+LSTM的自動分類。

U： ...... 我們...客服的投訴資訊自動分類。

D： Google最近的BERT模型，您知道嗎？有1億的引數訓練，用在這裡，效果肯定好。

D：需要100萬條標註語料，給我們4臺GPU，必須是英偉達的，訓練2周。

U： ...... 我們.....投訴分類。

D：我們公司的NLP技術是國家級專案成果，在國際比賽中可是第一名。

U： ...... 能不能有個懂客服業務的人啊？！.

D： ......

1.NLP應用之惑

上面這段虛構的對話，反映了當前自然語言處理（Natrual Language Processing）的應用現狀。

一方面，NLP技術具有很高的門檻。（1）NLP技術的專業性很強。要處理一段文字，中間涉及很多個步驟，如自動分詞、詞性標註、句法分析、篇章分析等；也涉及很多個演算法，如深度學習的CNN、LSTM、BERT等，每個演算法都有其自身的約束條件，在條件滿足的前提下，才能得到較好的效果；需要有大量的標註語料，讓機器自動訓練；當然也需要很強的算力資源，如GPU伺服器等。NLP技術開發的過程，從外人看起來，更像是藝術創造。NLP技術是零散的，需要把各種NLP技術拼湊起來，還需要進行引數優化等大量的工作。而調參的過程，相當於黑盒子，需要技術人員反覆嘗試。（2）NLP的應用，需要與場景知識結合起來，需要有業務規則、標註語料等資料資源。但是很多時候，業務人員一句話就明白的業務規則，在這裡卻需要用上萬條標註語料來說明，更不用說，標註語料要均衡、要定期更新等。（3）NLP人才缺乏，從事NLP開發的人員，要麼是研究機構的學術研究人員，要麼是BATJ大廠的“深度學習實驗室”中的高階人才，據報導今年應屆畢業的博士的入門年薪是80萬，組建個團隊價格不菲，只有少數頭部企業，如BAT、華為、神州泰嶽等，有實力參與其中。

另外一方面，NLP的需求廣泛存在，只要有文字的地方，就有NLP應用的需求。NLP需求往往都不是獨立存在的，只是存在與某個業務環節。比如企業風控中，有90%以上的工作是風控模型的構建與應用，為了擴大風控模型的資料來源，希望用NLP技術從非結構化文字中提取風險標籤，如裁判文書、招標公告等。大量的傳統行業解決方案提供商，在某個行業有很好的客戶資源和落地能力，他們希望在自己的產品和解決方案中增加NLP技術，提升非結構化資料的處理能力。這些需求過於零散，再加上給NLP的預算有限，所以頭部企業很難為他們提供支援。另外，自己組建個NLP團隊，代價太大，也很難吸引到高階人才。

NLP技術的門檻高，廣泛存在的需求無法滿足，是當前NLP應用的現狀和困難。

2.授人以漁，還是授人以魚

著名華人科學家、史丹佛教授李飛飛提出“AI民主化”是當前人工智慧應用的主流趨勢。Google、亞馬遜AWS、Microsoft Azure均通過雲平臺，對外開放了部分NLP服務，如AWS的LEX會話機器人服務，微軟的BOT工具提供認知服務和會話AI等。國內的BAT、華為們也通過人工智慧平臺開放NLP API，如句子向量表示、文字相似度計算等。可以看出，這些服務基本是以輸出技術框架和基礎技術為主，希望“授人以漁”，使用者可以利用這些技術介面，進行二次開發，開發出滿足業務場景需要的NLP應用。NLP應用的效果，平臺無法保證，依然需要使用者具有一定的專業知識，來完成優化。

鑑於NLP技術的專業性太強，上述“授人以漁”的開放方式，對不懂NLP的開發者來說，依然無從下手。泰嶽語義工廠希望更進一步降低NLP的門檻，提出“授人以魚”的民主化策略。

語義工廠不僅開放基礎的NLP技術，同時將把神州泰嶽數十年來，在多個行業典型使用者積累的應用場景知識、演算法、模型，打包成面向場景的服務，服務的效果已經在行業使用者中得到驗證。開發者只需要一次呼叫，輸入待處理的非結構化文字，即可輸出想要的結構化資料。整個過程，無須開發者標註資料，無須調參，無須長時間訓練，無須二次開發，開發者即使沒有任何NLP技術背景，也可以輕鬆地把NLP技術嵌入到自己的應用中去。

3.語義工廠的NLP開放賦能

語義工廠將開放包含NLP基礎服務、應用場景服務和資料服務等三大類服務，涉及16個行業領域，共計200餘項服務。

（1）NLP基礎服務

NLP服務提供7類共計43個NLP服務介面，可以通過restful方式方便快捷地呼叫，涵蓋NLP基礎、深度學習、分類聚類、資訊抽取、情感計算、自動寫作、對話機器人、效果評估等服務。

NLP基礎服務，是神州泰嶽人工智慧研究院團隊20年來，在NLP領域的研究和開發積累，並在真實應用環境下經過檢驗的NLP技術模組。基礎服務的效能優異，均可達到實用。

NLP基礎服務，面向的是懂NLP的專業開發人員，熟悉每個演算法的優缺點，能呼叫一個或多個服務，快速搭建起一個完整的NLP應用。

NLP基礎服務的適用客戶，是在人工智慧、大資料行業（如視訊、影像、語音等相關的行業）有一定積累，希望整合NLP的能力，完善自身解決方案的公司和個人開發者。NLP基礎服務將免費開放給開發者。

（2）NLP場景服務

NLP場景服務涵蓋16個行業領域共計142個具體場景服務，如銀行、政府、網際網路、電商、證券、保險、企業應用、運營商、娛樂、醫療、能源、軍事、物流、科研等領域、通用領域以及場景定製化服務等。

NLP場景服務，是神州泰嶽集團多年來NLP應用開發、專案交付積累的成果。自2011年以來，團隊在為幾大國有銀行、電信運營商、政府機構等典型客戶服務的過程中，將客戶的場景化需求和業務知識，與NLP技術結合起來，研發了大量的業務模型，形成了很多面向場景的NLP應用系統，處理了億級以上的資料，處理效果上均達到或超過了客戶的預期。NLP場景服務，將把這些業務模型、NLP應用系統中的演算法，打包成SAAS服務，對外開放。

NLP場景服務，面向的是完全不懂NLP的應用開發人員，本身在做java、python或前端開發，開發過程中，其中某環節需要用到NLP技術，對特定場景下的非結構化資料進行處理。

NLP場景服務的適用客戶，是各個行業領域的應用開發商或解決方案整合商，主營業務是提供行業解決方案，如風險控制等，希望在自己方案中增加NLP的能力，但團隊中沒有NLP技術專家。NLP場景服務，將根據應用場景的複雜程度採取收費方式開放。同時，為了更好的滿足特定場景下客戶的NLP需求，也提供場景的定製開發服務。

（3）NLP資料服務

資料服務分5類，共計30個服務，包括語義資源服務、深度學習模型、資料資源服務、建模服務、資料加工服務等。

資料服務，開放的是神州泰嶽人工智慧研究院團隊20年來，在NLP領域的研究和開發積累的知識庫資源、語料庫，以及訓練好的模型等。如其中有一個“中文詞向量模型”，提供全網語料覆蓋最廣、維度最全（字、詞、偏旁等多個維度）的中文詞向量，使用者無須再費時、費力的訓練自己的詞向量，只需呼叫服務，即可在此服務的基礎上，開展詞向量相關的深度學習開發。

資料服務，面向的是懂NLP的專業開發人員，降低前期語料收集和標註、資料訓練、資源整理等工作量，專注自身的開發需求。資料服務也支援定製化服務，如語料標註、資源加工等。

資料服務的適用客戶，是有演算法調優等開發需求的公司和個人開發者。資料服務將採取收費方式開放給開發者。

（4）NLP培訓課程

NLP相關的培訓課程，共計四類200節，包括：

1、NLP基礎課程：介紹NLP的基本概念、基本處理流程、基礎演算法等內容；

2、NLP技能課程：介紹NLP開發相關的技能，包括需求分析、環境準備、服務呼叫、建模技能、效果測試、分散式呼叫等，以及各種工具的使用，TensorFlow、Spark等；

3、NLP資源課程：介紹NLP相關的多個知識庫資源、資料資源等的背景、資源現狀，以及如何做語料標註等；

4、NLP前沿課程：介紹最新的NLP研究動態、新的演算法、新的應用等。

培訓課程面向所有希望瞭解、提升NLP知識和能力的開發者。培訓課程將免費開放給開發者。

最後，我們再回到開始的客戶（User）和開發人員（Developer）的對話場景，對話已經變成這樣的。

U：我們就是想給客服的投訴資訊自動分類。

D：這個啊，您只要呼叫我們“客服投訴自動分類”服務就可以了。

D：我們這個服務的準確率和召回率都可以達到98%，已經有100個客戶在用了，每天呼叫量有200萬次。

D：除了自動分類，我們還有一個“客服投訴資訊的熱點發現”服務，可以把投訴中無法歸類的“其他”類自動細分，給出其中的熱點類。

U：這個我們需要。

D：其實投訴資訊中，還可以挖掘潛客呢，我們這有個“客服潛客挖掘”服務，能把投訴轉換成績效，對您肯定有用。

U：這個我們也需要。

U：還有什麼服務，再給我介紹介紹......

D：我們有16個行業，200多個服務呢，我給您說說......

“凡事都應該儘可能地簡單，而不是較為簡單。” —— 阿爾伯特.愛因斯坦

如何閱讀大型前端開源專案的原始碼，授人以魚不如授人以漁
2018-11-03
前端原始碼
授之以漁不是授之以魚-docker maven 構建java工程
2024-03-15
DockerMavenJava
授人以資源不如授人以資源網站！
2019-04-12
網站
授人以漁式解析原生JS寫輪播圖
2019-03-04
JS
Block深入學習，授人以漁。—— Block與各種變數
2018-03-08
BloC變數
[記錄點滴]授人以漁，從Tensorflow找不到dll擴充套件到如何排查問題
2020-09-17
套件
授人以漁 - 如何查詢 SAP UI5 官網上沒有提到的控制元件屬性的使用明細試讀版
2022-10-31
UI控制元件
授人以漁 - 如何自行查詢任意 SAP UI5 控制元件屬性的文件和技術實現細節試讀版
2022-08-04
UI控制元件
人，為什麼難以改變？
2019-02-17
火柴人正版授權動作手遊《火柴人歸來》今日首測！
2021-07-09
人類怎麼管好以 ChatGPT 為代表的 AI ？
2023-02-23
ChatGPTAI
[譯] 數字產品為人們授權的時代已來
2019-03-05
[譯]如何打造以人為本的移動遊戲
2018-12-14
遊戲
對Java萬用字元的個人理解（以集合為例）
2018-07-30
Java字元
【認證與授權】Spring Security的授權流程
2020-04-28
Spring
找一個有緣人，希望將我30年的功力傳授給你
2024-04-12
以匠心正道，以決心致遠：毫末智行的自動駕駛之路
2021-10-08
自動駕駛
認證授權方案之授權初識
2020-06-28
Temu席捲日本市場每月使用者人數以220萬人的規模增長
2024-02-23
AI錯刪YouTube機器人視訊，背後是人類難以消弭的身份焦慮
2019-09-04
AI機器人
五種最讓人“難以預料”的資料洩露方式!
2023-05-17
首個AI共創的遊戲設計，很以人為本
2023-03-20
AI遊戲設計
智慧市場紅利當頭，科技應以人為本
2019-07-22
你以為你以為的就是你以為的嗎
2022-08-15
ASP.NET Core策略授權和 ABP 授權
2020-07-12
ASP.NET
認證授權方案之授權揭祕 (上篇)
2020-07-05
查詢資料庫授權以及授權到期的處理方法
2021-10-22
資料庫
微信裡的”授權“
2018-10-30
代理ip的授權使用
2021-09-11
springcloud Oauth2授權，四種授權型別
2020-11-14
SpringGCCloudOAuth型別
2020年以後...軟體開發人員趨勢為何？
2020-04-24
Shiro(授權Authorization)
2018-08-14
abp授權原理
2024-10-08
認證授權
2024-06-07
Laravel授權策略
2021-11-17
Laravel
SpringSecurity之授權
2020-11-24
SpringGse
IT技術人的晉級之路
2020-08-20
20人團隊15億流水的奇酷工場親授：遊戲出海日本怎麼玩？
2019-05-14
遊戲

授人以漁? 授人以魚! NLP的民主化之路

1.NLP應用之惑

2.授人以漁，還是授人以魚

3.語義工廠的NLP開放賦能

相關文章