首先,我們一起來看一段客戶(User)和開發人員(Developer)的對話。
U: 我們就是想給客服的投訴資訊自動分類。
D: 這個啊,需要用到NLP中的分詞、詞性標註、句法分析等技術。
D: 也會用到CNN+LSTM的自動分類。
U: ...... 我們...客服的投訴資訊自動分類。
D: Google最近的BERT模型,您知道嗎?有1億的引數訓練,用在這裡,效果肯定好。
D: 需要100萬條標註語料,給我們4臺GPU,必須是英偉達的,訓練2周。
U: ...... 我們.....投訴分類。
D:我們公司的NLP技術是國家級專案成果,在國際比賽中可是第一名。
U: ...... 能不能有個懂客服業務的人啊? !.
D: ......
1.NLP應用之惑
上面這段虛構的對話,反映了當前自然語言處理(Natrual Language Processing)的應用現狀。
一方面,NLP技術具有很高的門檻。(1)NLP技術的專業性很強。要處理一段文字,中間涉及很多個步驟,如自動分詞、詞性標註、句法分析、篇章分析等;也涉及很多個演算法,如深度學習的CNN、LSTM、BERT等,每個演算法都有其自身的約束條件,在條件滿足的前提下,才能得到較好的效果;需要有大量的標註語料,讓機器自動訓練;當然也需要很強的算力資源,如GPU伺服器等。NLP技術開發的過程,從外人看起來,更像是藝術創造。NLP技術是零散的,需要把各種NLP技術拼湊起來,還需要進行引數優化等大量的工作。而調參的過程,相當於黑盒子,需要技術人員反覆嘗試。(2)NLP的應用,需要與場景知識結合起來,需要有業務規則、標註語料等資料資源。但是很多時候,業務人員一句話就明白的業務規則,在這裡卻需要用上萬條標註語料來說明,更不用說,標註語料要均衡、要定期更新等。(3)NLP人才缺乏,從事NLP開發的人員,要麼是研究機構的學術研究人員,要麼是BATJ大廠的“深度學習實驗室”中的高階人才,據報導今年應屆畢業的博士的入門年薪是80萬,組建個團隊價格不菲,只有少數頭部企業,如BAT、華為、神州泰嶽等,有實力參與其中。
另外一方面,NLP的需求廣泛存在,只要有文字的地方,就有NLP應用的需求。NLP需求往往都不是獨立存在的,只是存在與某個業務環節。比如企業風控中,有90%以上的工作是風控模型的構建與應用,為了擴大風控模型的資料來源,希望用NLP技術從非結構化文字中提取風險標籤,如裁判文書、招標公告等。大量的傳統行業解決方案提供商,在某個行業有很好的客戶資源和落地能力,他們希望在自己的產品和解決方案中增加NLP技術,提升非結構化資料的處理能力。這些需求過於零散,再加上給NLP的預算有限,所以頭部企業很難為他們提供支援。另外,自己組建個NLP團隊,代價太大,也很難吸引到高階人才。
NLP技術的門檻高,廣泛存在的需求無法滿足,是當前NLP應用的現狀和困難。
2.授人以漁,還是授人以魚
著名華人科學家、史丹佛教授李飛飛提出“AI民主化”是當前人工智慧應用的主流趨勢。Google、亞馬遜AWS、Microsoft Azure均通過雲平臺,對外開放了部分NLP服務,如AWS的LEX會話機器人服務,微軟的BOT工具提供認知服務和會話AI等。國內的BAT、華為們也通過人工智慧平臺開放NLP API,如句子向量表示、文字相似度計算等。可以看出,這些服務基本是以輸出技術框架和基礎技術為主,希望“授人以漁”,使用者可以利用這些技術介面,進行二次開發,開發出滿足業務場景需要的NLP應用。NLP應用的效果,平臺無法保證,依然需要使用者具有一定的專業知識,來完成優化。
鑑於NLP技術的專業性太強,上述“授人以漁”的開放方式,對不懂NLP的開發者來說,依然無從下手。泰嶽語義工廠希望更進一步降低NLP的門檻,提出“授人以魚”的民主化策略。
語義工廠不僅開放基礎的NLP技術,同時將把神州泰嶽數十年來,在多個行業典型使用者積累的應用場景知識、演算法、模型,打包成面向場景的服務,服務的效果已經在行業使用者中得到驗證。開發者只需要一次呼叫,輸入待處理的非結構化文字,即可輸出想要的結構化資料。整個過程,無須開發者標註資料,無須調參,無須長時間訓練,無須二次開發,開發者即使沒有任何NLP技術背景,也可以輕鬆地把NLP技術嵌入到自己的應用中去。
3.語義工廠的NLP開放賦能
語義工廠將開放包含NLP基礎服務、應用場景服務和資料服務等三大類服務,涉及16個行業領域,共計200餘項服務。
(1)NLP基礎服務
NLP服務提供7類共計43個NLP服務介面,可以通過restful方式方便快捷地呼叫,涵蓋NLP基礎、深度學習、分類聚類、資訊抽取、情感計算、自動寫作、對話機器人、效果評估等服務。
NLP基礎服務,是神州泰嶽人工智慧研究院團隊20年來,在NLP領域的研究和開發積累,並在真實應用環境下經過檢驗的NLP技術模組。基礎服務的效能優異,均可達到實用。
NLP基礎服務,面向的是懂NLP的專業開發人員,熟悉每個演算法的優缺點,能呼叫一個或多個服務,快速搭建起一個完整的NLP應用。
NLP基礎服務的適用客戶,是在人工智慧、大資料行業(如視訊、影像、語音等相關的行業)有一定積累,希望整合NLP的能力,完善自身解決方案的公司和個人開發者。NLP基礎服務將免費開放給開發者。
(2)NLP場景服務
NLP場景服務涵蓋16個行業領域共計142個具體場景服務,如銀行、政府、網際網路、電商、證券、保險、企業應用、運營商、娛樂、醫療、能源、軍事、物流、科研等領域、通用領域以及場景定製化服務等。
NLP場景服務,是神州泰嶽集團多年來NLP應用開發、專案交付積累的成果。自2011年以來,團隊在為幾大國有銀行、電信運營商、政府機構等典型客戶服務的過程中,將客戶的場景化需求和業務知識,與NLP技術結合起來,研發了大量的業務模型,形成了很多面向場景的NLP應用系統,處理了億級以上的資料,處理效果上均達到或超過了客戶的預期。NLP場景服務,將把這些業務模型、NLP應用系統中的演算法,打包成SAAS服務,對外開放。
NLP場景服務,面向的是完全不懂NLP的應用開發人員,本身在做java、python或前端開發,開發過程中,其中某環節需要用到NLP技術,對特定場景下的非結構化資料進行處理。
NLP場景服務的適用客戶,是各個行業領域的應用開發商或解決方案整合商,主營業務是提供行業解決方案,如風險控制等,希望在自己方案中增加NLP的能力,但團隊中沒有NLP技術專家。NLP場景服務,將根據應用場景的複雜程度採取收費方式開放。同時,為了更好的滿足特定場景下客戶的NLP需求,也提供場景的定製開發服務。
(3)NLP資料服務
資料服務分5類,共計30個服務,包括語義資源服務、深度學習模型、資料資源服務、建模服務、資料加工服務等。
資料服務,開放的是神州泰嶽人工智慧研究院團隊20年來,在NLP領域的研究和開發積累的知識庫資源、語料庫,以及訓練好的模型等。如其中有一個“中文詞向量模型”,提供全網語料覆蓋最廣、維度最全(字、詞、偏旁等多個維度)的中文詞向量,使用者無須再費時、費力的訓練自己的詞向量,只需呼叫服務,即可在此服務的基礎上,開展詞向量相關的深度學習開發。
資料服務,面向的是懂NLP的專業開發人員,降低前期語料收集和標註、資料訓練、資源整理等工作量,專注自身的開發需求。資料服務也支援定製化服務,如語料標註、資源加工等。
資料服務的適用客戶,是有演算法調優等開發需求的公司和個人開發者。資料服務將採取收費方式開放給開發者。
(4)NLP培訓課程
NLP相關的培訓課程,共計四類200節,包括:
1、NLP基礎課程:介紹NLP的基本概念、基本處理流程、基礎演算法等內容;
2、NLP技能課程:介紹NLP開發相關的技能,包括需求分析、環境準備、服務呼叫、建模技能、效果測試、分散式呼叫等,以及各種工具的使用,TensorFlow、Spark等;
3、NLP資源課程:介紹NLP相關的多個知識庫資源、資料資源等的背景、資源現狀,以及如何做語料標註等;
4、NLP前沿課程:介紹最新的NLP研究動態、新的演算法、新的應用等。
培訓課程面向所有希望瞭解、提升NLP知識和能力的開發者。培訓課程將免費開放給開發者。
最後,我們再回到開始的客戶(User)和開發人員(Developer)的對話場景,對話已經變成這樣的。
U: 我們就是想給客服的投訴資訊自動分類。
D: 這個啊,您只要呼叫我們“客服投訴自動分類”服務就可以了。
D: 我們這個服務的準確率和召回率都可以達到98%,已經有100個客戶在用了,每天呼叫量有200萬次。
D: 除了自動分類,我們還有一個“客服投訴資訊的熱點發現”服務,可以把投訴中無法歸類的“其他”類自動細分,給出其中的熱點類。
U: 這個我們需要。
D: 其實投訴資訊中,還可以挖掘潛客呢,我們這有個“客服潛客挖掘”服務,能把投訴轉換成績效,對您肯定有用。
U: 這個我們也需要。
U: 還有什麼服務,再給我介紹介紹......
D: 我們有16個行業,200多個服務呢,我給您說說......
“凡事都應該儘可能地簡單,而不是較為簡單。” —— 阿爾伯特.愛因斯坦