專訪XLNet作者楊植麟:“人機耦合”將是對話語義應用的新趨勢

迴圈智慧發表於2020-04-13

近年來,由於面向大規模使用者的音訊、影片、影像等業務急劇增長,全球資料量呈現出爆發式的增長,“資料石油”也為無數的科技公司提供了“覆手為雲”的發展契機。資料預測,到2020年全球的資料量將到達40ZB,車聯網、智慧製造、智慧能源、無線醫療、無線家庭娛樂、無人機等新型應用都將創造出新的資料維度。技術換代下,伴隨著資料海嘯而來的“淘金熱”也居高不下。

事實證明,資料帶來的機會是極為龐大的,但目前人們還未能徹底挖掘出資料資產的全部價值。在過去,對話資料的“含金量”就一直被嚴重忽視了。

隨著自然語言處理技術的不斷髮展,時下的對話資料價值正在逐漸被喚醒,不同領域的最佳行業實踐和實際效果都在逐步提升——而那些富有遠見的企業,已經開始重視對話資料的價值了,但是他們之中的很多人仍缺乏利用這些資料產生業務價值的最佳實踐。迴圈智慧則正是基於此出發點,填補了這一技術空缺。

基於原創的XLNet模型、Transformer-XL模型等自然語言處理底層技術,迴圈智慧打造了領先的AI技術矩陣。“我們做的事情主要就是:從銷售過程產生的對話資料中,包括跟企業的IM聊天、微信聊天、電話銷售溝通,進行文字的洞察,實現決策層面的賦能,最終提升銷售的轉化率。”針對不同行業的具體需求,實現不同的對話資料應用場景落地。在本文中,媒體採訪了迴圈智慧聯合創始人楊植麟,他從對話資料的應用場景出發,為我們全面解析XLNet模型原理、核心技術、當前NLP的發展以及AI人才成長路徑等內容。

深度學習自然語言處理領域,楊植麟頗有建樹。作為第一作者,其與卡內基梅隆大學、Google Brain團隊聯合推出NLP領域熱門的國際前沿預訓練XLNet模型,在20個標準任務上超過了曾經保持最優效能記錄的Google BERT模型,並在18個標準任務上取得歷史最好結果,更被稱為“BERT之後的重要進展”。

專訪XLNet作者楊植麟:“人機耦合”將是對話語義應用的新趨勢
楊植麟與兩位導師Ruslan Salakhutdinov(蘋果 AI 研究負責人,右)、William Cohen(谷歌 Principal Scientist ,左)合影
在北京智源人工智慧研究院公佈的2019年度“智源青年科學家” 名單中,他還是最年輕的、也是唯一的“90 後”。

分析對話語義,挖掘資料價值

發揮資料價值已成為大多企業的共識,在這其中,很多企業出於提升服務水平和效率、儲存企業資料資產的原因,儲存了大量銷售與客戶、客服與客戶溝通的錄音、文字記錄。如何從對話資料中找到對企業有用的資訊、挖掘出客戶所表達內容中隱含的潛在產品需求——則是迴圈智慧的技術初衷所在。

他表示,目前具體有四個場景:第一,使用對話資料,做高意向銷售線索的挖掘、排序和打分,給每一個線索做解決方案匹配和產品推薦;第二,從對話資料中抽取客戶畫像,幫助企業構造畫像體系。企業藉助畫像體系可以設計針對性的運營活動;第三,從對話資料中自動挖掘銷售的有效話術,這些有效話術可以為銷售新人做實時輔助,告訴新人更高效地與客戶溝通;第四,監測話術的執行情況,這個過程通常被稱為執行力監督或質檢。“

同時,我們透過分析對話的語義跟最終結果——是否成單之間的關係,預測哪些對話有更高的成單意向,從而讓這四個場景形成閉環。”在實際案例上,楊植麟分享了一個比較Top的壽險公司應用,“我們的線索評分上線之後,大概通話時長提升了100%,轉化率提升了到原來的270%。”

專訪XLNet作者楊植麟:“人機耦合”將是對話語義應用的新趨勢
迴圈智慧的產品架構圖

技術層剖析:XLNet 優於 BERT!

“在技術實現層面,我們所做的事情和實現的場景,跟傳統的對話機器人、聊天機器人或者機器人客服,都有著極大的差別。”

楊植麟表示,機器人主要做的事情是透過一套模板做簡單的匹配,匹配之後用規則去生成接下來要說什麼。從技術上說,目前機器人公司基本上沒有使用新一代技術,而迴圈智慧所做的業務場景則是幫企業做產品與客戶的匹配、銷售線索推薦,這些場景直接影響企業的業績,因此企業對準確率非常敏感,必須使用最新一代的、更高準確率的技術才可以。“我們用了自己原創的XLNet演算法去做很大的模型,用很多的資料去學習,使得標註的效率、對文字長序列的處理都取得了很大提升,可以來支撐我們的上層業務。”此外,還能更好地結合上下文語義,從溝通對話資料中實時提取語義標籤,來做合規質檢、客戶畫像和反饋的自動挖掘、銷售和客服的執行力監督。

在楊植麟看來,相比BERT,XLNet模型有其明顯的優越性。原理上,兩者都是屬於預訓練的方法。但從更具體的角度來說,XLNet其實是融合了兩種不同的預訓練方法:自迴歸和自編碼兩種。“BERT可以看成是一種自編碼的方法,XLNet則會克服BERT的一些缺點”,主要是兩個:XLNet不用引入特殊的Mask符號,所以會減輕在預訓練和微調(Fine-tuning)時候資料分佈不一致的情況;此外,XLNet可以對不同詞之間的關聯性進行建模,而BERT假設所有要預測詞之間都是獨立的。XLNet透過一些比較巧妙的、形式上的變化,使得它不需要有這個假設。“所以XLNet是一個更通用的模型,去掉了比較嚴格的假設,可以對自然語言裡面的上下文關係進行更好地建模。”

專訪XLNet作者楊植麟:“人機耦合”將是對話語義應用的新趨勢
XLNet原理圖
在具體的產品和解決方案背後,迴圈智慧同樣面臨著兩方面的技術難點。一方面,他們需要將自己提出來的模型用到業務場景裡面,另一方面是要針對具體場景裡的一些挑戰,針對性地提出技術解決辦法。具體來說,“第一塊主要是用了我們提出的Transformer-XL、XLNet等一系列通用NLP模型,以及一些主動學習(Active Learning)的演算法,作為底層去支撐上層的應用。第二塊就是針對這些具體的場景,它相對來說會有一些比較難的地方。”
難點1:線索評分會涉及到怎麼去融合多種不同模態的資料。比如除了對話資料,有時候還會有行為資料、業務資料,需要將不同模態的資料融合到同一個框架。
難點2:怎麼對很長的對話結構的文字進行建模。用預訓練好的模型通常效果不好,因為它一無法有效地對對話結構進行建模,二沒辦法對很長的文字序列進行建模,所以要對模型進行改進,我們現在可以處理長度幾千個詞的文字。
難點3:規模化生產沒有辦法非常依賴標註資料,所以需要提升標註的效率。透過小樣本學習的思路,上了一套新的系統,現在只用10%的標註量,就可以達到跟以前一樣的效果,這對規模化複製業務有非常大的幫助。

這其中,技術瓶頸是不可避免的。

“做實驗的時候,你每一個新的想法不一定都能Work。” 楊植麟認為更重要的是在應對瓶頸的時候,把心態變得更好。“很多時候,你不是需要追求做實驗一直不失敗,而是要用更快的速度去迭代,用更快的速度取得結果。”

NLP 輝煌時代已至

最近幾年,語音識別計算機視覺、語言理解等技術的“崛起”使得沉寂了半個多世紀的人工智慧再次火爆起來。事實也證明,人工智慧不僅僅是需求驅動,而且是內生驅動。

楊植麟認為,演算法和算力其實是一個螺旋螺旋式上升的過程。“人工智慧的驅動方式是算力和演算法螺旋型上升、相輔相成。一開始算力非常小,科學家只能去研究最好的演算法。但是等到算力大的時候,很多演算法就沒用了。很多論文都有這種問題:在算力小的情況下跑了一下效果不錯,但是算力大的時候,一點用都沒有。”“本質上,在演算法和算力互相迭代的過程中,最新一代的演算法解決了大資料和大模型這兩個問題,比如說做NLP的話,那大模型就是Transformer,大資料就是透過預訓練來解決的。”

也正是大模型+大資料的“繁榮”,直接造就了當下NLP的輝煌時代。

他表示最近幾年NLP領域有兩大突破:第一個突破是從模型的角度看,從簡單的模型演進到了基於Transformer的大模型。Transformer的好處是隨著引數的變多,效果不斷變好,而且具有非常強的長距離建模的能力。Transformer模型這兩個優點,使得現在可以做到很多以前做不了的事情。第二個比較大的進步是思維正規化上的轉變,誕生了基於預訓練的方式,可以有效地利用沒有標註的資料。“簡單來說,Transformer是模型角度的突破,預訓練方法是思維正規化上的突破,前者解決的是如何訓練一個大模型的問題,後者解決的是如何解決NLP沒有大資料的問題。”

對於那些想要紮根AI領域的開發者來說,楊植麟表示把握當下的時代契機十分重要。“想學習AI開發技術,我覺得可以分兩條路徑:第一條路徑是自上向下的、系統性的學習。比如看一本比較系統性的教科書,或者網上的課程,幫助你對整個領域的知識脈絡有一些系統性的瞭解;第二條路徑是自底向上、需求驅動的做法。就是說,你先遇到現實中的一個問題, 然後從這個問題出發,透過各種網上的搜尋工具去調研相關的文獻。”而最最重要的是,“一定要去寫程式碼!”,或者去跑一些真正的程式碼,而不僅僅停留在看的層面——實踐很重要。

從“人機單獨作戰”到“人機耦合”,AI 終將賦能溝通

“在人工智慧領域,我最欣賞‘神經網路之父’Geofrey Hinton,因為他是最早的奠基人,重要性不言而喻。”也是他,驅使楊植麟多年來在自然語言處理領域持續深耕下去,此外,“我覺得語言本身比較有意思,語言是人類知識和認知的載體,如果機器能夠理解語言,然後在理解語言的基礎上進行推理,去做出一些決策,其實是一種很高階的智慧的表現,這也是人工智慧領域比較重要的話題。另一方面則跟時機有關,因為我四五年前開始做研究的時候,計算機視覺CV或者語音識別這兩塊已經取得突破了,很多效果已經做得比較好了。但NLP仍缺少一些突破,我覺得這個領域會有更多有挑戰性的問題需要去解決。”

而Google、Facebook等頂尖公司的工作經歷,也為他後來的成功創業打下了基礎。“在這兩家公司有兩個最直接的收穫:其一就是做了一些研究成果出來,現在我們也在實際落地運用,包括Active Learning(主動學習)的思想、預訓練模型,都可以直接用上;第二個收穫,更偏的方法論。就是說,遇到一個問題的時候學著將大的問題拆成小的問題,然後逐個擊破。我覺得其實創業跟研究有很多方法論上共通的地方。 ”

但在AI真正去賦能溝通的坦蕩前路上,還有一些亟待突破的技術難點。他表示主要有三個方面:

第一,從“人機單獨作戰”到“人機耦合”。現在市面上做對話機器人的公司最多,它們做的事情其實是“人機單獨作戰”。比如在銷售場景下,把銷售線索先讓機器人去跟進,然後其中比較好的再讓人去跟;在客服場景下也是一樣,先用機器人去接一些簡單的問題,難的再交給人工客服去接。這其實是一個割裂的狀態,機器人和人做的是獨立的任務,沒有實現協同。“我們希望讓人和機器更好地耦合,比如在銷售過程中,機器給業務員提供輔助,協助人做決策,或者機器給人推薦方案,由人去執行方案。我覺得“人機耦合”最終會成為銷售場景比較好的形態,而不僅僅是人和機器分別作戰。”

第二,從比較淺層的客戶觸達到深度的決策輸出。還是對話機器人的例子,他們做事情主要是用自動外呼機器人給客戶傳遞一些簡單資訊,或者是問一些簡單問題收集一個問卷,或者做個提醒功能。這些其實是比較淺層的觸達,就是說機器人只負責傳遞資訊,而且是較為淺顯的資訊。“我們做的事情是讓機器學習或者NLP演算法深度參與到最重要的銷售決策過程,包括應該去跟進哪些人、給他推什麼東西、如何與客戶做溝通等。”

第三,要讓機器能有自學習的能力。“當我們做到人機耦合、機器可以跟人一起工作,那機器就需要能根據人的行為或者人的決策產生的結果,去自動更新和升級演算法模型,形成閉環,幫助銷售能力一直演進下去, 而非停留在靜態模型。”

相關文章