鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

Naturali奇點機智發表於2018-12-19

Naturali 奇點機智創始人兼 CEO 鄔霄雲博士受 Datafun 社群的邀請,與NLP從業者分享了機器閱讀理解技術及其應用。

以下是鄔博士分享的全文:

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

奇點機智在今年百度舉行的中文閱讀理解大賽上拿了冠軍,而且比第二名高出三個點左右。我聽到過許多的反饋,大家對機器閱讀理解的技術這方面比較感興趣,那麼今天要講的東西呢,主要分成三部分:

第一部分是問答系統和閱讀理解的基本概念,介紹一下比較傳統的模組化的問答系統;第二部分,是講一個比較新的端到端的系統技術,我們在百度的閱讀理解競賽中奪冠正是使用的這項技術;除此之外本次我還會分享一些奇點機智在語音對話互動領域的落地應用和本行業趨勢。

一、自動問答與閱讀理解

第一個是自動問答和閱讀理解。史丹佛大學從2017年就開始做 SQuAD,它把這個競賽變成了一個類似於 ImageNet 一樣大家可以刷榜的競賽,所有的人都在爭第一,同時變相的促進了技術的進步。最早的 MSA 周銘老師的隊伍,後來科大訊飛和哈工大的老師一起做,成績也都不錯。

SQuAD 1.0 的時候榜單上最好的成績是83%左右,但是後來史丹佛的專家將資料集進行了更新,進入了 SQuAD 2.0 時代,在換了一些似是而非的答案後,很多解決方案都一夜回到將解放前,準確率一度降低到60%多。

最近不知道大家有沒有關注 Google 出了個模型叫做 Bert 奇點機智內部笑稱它是大力出奇跡。它的具體原理很簡單,就是找一個 model 能夠融合所有的資料,然後讓它自己訓練。Google這樣資金充足算力強的公司,需要等兩週,但對於我們普通公司來說,會等待相對更長的時間。NLP是一件比較綜合的事情,做好還是比較難的,我們這一行有兩個不太好的狀況:我們現在拿到的GPU最早是給Image設計的,都是四四方方的,它對影像處理是得天獨厚的。NVDIA對影像的處理積累了20多年,但對 NLP 的作用就不是那麼大,DNN 對 Image 領域的受益是最大的。自然語言不是一個規則的東西,做結構化分析和鏈式分析都不是很好做,這些事情在GPU上執行是非常非常難受,需要做很多額外的預處理操作;回到 Bert,它真的是大力出奇跡,它就是硬算,不考慮其他任何東西,然後結果竟然非常好。

1.1模組化問答系統

問答系統自然語言處理裡其實已經有很多很多年了,是一個 NLP 的標杆性應用。

我們在實際的生活中也經常用問答來檢視物件是否真的理解:比如說老師對學生的問答,可以檢視學生們的理解水平。現在問答在 NLP 裡面有很多作為核心技術的應用,比如說智慧客服和手機上的虛擬助手,比如說蘋果 siri 或百度的小度、微軟小冰等等。

下面簡單介紹一下問答系統,我們可以把問題簡單的分成幾類,一類是簡單的事實,比如:地球直徑多大;第二類是定義的事實類;第三類是列表類;第四類是長答案類,最後一類為是非類,看著很簡單,實際上這是最難的一類問題。下圖是業界常見的問答 系統:

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 1 實用問答系統的舉例

1.2傳統化回答方法

下面我們看看模組化問答系統的回答方法,它們有很多種,比如說有特製服務的問答,比如說有一個叫做 Wolfram|Alpha 這個專門基於數學問題的網站,你可以在上面搜尋任何數學問題。

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 2 數學計算網站的特製問答

最近還有基於知識圖譜的問答和基於搜尋的自動問答。比如說微軟的一個應用:使用者問一個問題“明天需要帶傘嗎?” Bing 除了去搜尋文件外還會有一個專門回答問題的 bot,將把你當前位置的地理位置的天氣顯示出來。但是這個問答系統的更新方式是非常落後的,需要經常維護更新知識庫

然後我們介紹一下基於搜尋的問答系統的結構,下圖是一個比較傳統的結構,它是一個模組化的系統。第一步,有了使用者的 query 以後,我們平行計算一邊對 query 進行分析,另一邊將其送入 Google 的搜尋引擎找到相應的 docs,然後我們在其中根據   query 匹配答案;閱讀理解跟基於搜尋的問答非常像,只不過這個問答文件不用你自己找,而是已經輸入給系統了,讓系統在文件中找出答案。

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 3 基於搜尋的自動問答

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 4 傳統閱讀理解框架流程圖

二、端到端閱讀理解

2.1閱讀理解資料集

接下來是端到端閱讀理解。閱讀理解資料集 SQuAD 我之前已經講過,它是以 Wikipedia 頁面中的段落作為來源文件,根據文件人工編寫問題,答案是文件裡面的一個連續片段(span)。還有一個不太有名的比較複雜的資料集是MS MARCO,它的問題來自搜尋引擎真實使用者提出的問題,相關文件也是資訊檢索系統從真實網頁得到的段落,每個問題對應多個段落,因為標註答案是人工根據文件總結撰寫,就增加了複雜度,他和 SQuAD 的區別是他的答案不僅是一個 span,還需要做一些提取和綜合,因為比較複雜,所以做的人不是很多,百度前段時間在這個上面拿了第一,但是普適性不是很好。那麼具體該怎麼做呢?

2.2端到端閱讀理解系統

首先我講一下端到端的閱讀理解系統的基礎架構,如圖所示前面是一個模組,後面我們把整個的各種各樣的模組都放進一個神經網路裡面進行訓練。

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 5 端到端閱讀理解流程圖

比如使用者問個問題“什麼酶可以分解澱粉?”回答這個問題時,第一步,找到問題中的焦點詞 Focus words ,焦點詞分為顯性和隱性兩種,它宣告瞭答案的型別;第二步驟是在文件中將那些有可能是答案的東西找出來。在這個環節裡,有個概念是回答的型別,它與焦點詞是非常相關的,它主要是找到焦點詞所指的型別是什麼,這裡我們要知道如何運用演算法才能識別這個預期答案型別,同樣的問答型別的識別可以用粗顆粒答案型別和直接使用 query 中的焦點詞作為答案的型別。

2.3模型整體結構

鄔霄雲:AI從技術走向落地,使用者體驗是最重要的粘合劑

圖 6 模型整體結構示意圖

我將從巨集觀上介紹一下模型的整體結構。幾乎所有的模型分成四塊:最底層是 Representation(特徵表示層),作用是看這個詞在這個場景中是什麼意思,確定出問題的型別,將問題和篇章的詞語轉化為向量化特徵表示並進行此行的標註;接下來是編碼層,主要是銜接底層的特徵;然後是匹配所有問題的匹配層。

要想找到所有的答案,我們要在 model 中把問題的資訊通過這個機制對每一個字進行重新表示,利用注意力機制融合問題和篇章資訊,我們用的模型是 Match-LSTM 、BiDAF 和 DCA 等;最後我們再通過一種對應準則把每一個字的新表達 span 給找出來,也就是答案片段抽取層負責的工作,這時我們就可以利用兩個步的指標網路對組成答案的 span 進行相應的提取操作。相應的細節大家可以在 Paper 上面找,我這裡就不詳細講了。如果大家想做這個方面的問答技術實現,我建議大家先跑通這個模型,然後再做一些微調,閱讀大量文獻找到感覺後再進行創新和改進,從一個好的點到一個更好的點是需要循序漸進的,我認為這樣的效率會更高些。

三、語音互動技術和行業發展趨勢

我們公司要做的事情和現有的大家的想法可能不太一樣。雖然大家都知道人工智慧的三大要素是演算法+資料+算力,不過我認為使用者體驗是最重要的粘合劑,有了這個粘合劑,才能使AI真正的落地。我非常認同對話的使用者體驗是一個更自然的體驗。

對任何人來說,最重要的就是時間;因為每天都是24小時,時間過去了再也不會回來。幾乎每個人在第一次用外賣 app 的時候,都需要適應一段時間,它有一定的學習成本。當我們第一次想要在買 app 上點一份麻辣燙,需要操作很多步驟才能達成目的。但其實“學習怎麼用 app ”不是我們的目的,“點一份外賣麻辣燙”才是我們想要的,這些服務我們希望能跳過“學習用 app”這一步,直接由語音對話幫忙完成

"學習用app"這件事我們年輕人來說還好,但是對於我們的父母或者其他老人來說學習門檻還是很高的。現在有一個趨勢是:人們終於發現 app 不太具有吸引力了,大家都開始關注小程式和快應用了,或許小程式和快應用會慢慢替代掉 app 這種形式。人的一輩子是單次路程,我們小學畢業一次,中學畢業一次,大學畢業一次,我們去某地旅遊,去一個餐館吃一次飯,可能就吃這麼一次,再也不會去了。同理,我們手機上安裝六、七十個 app,但我們一天能用幾次呢?

奇點機智的願景就是當使用者知道自己要做什麼時,幫他們通過一句話搞定複雜操作,而不需要浪費時間和精力,去想怎麼操作圖形介面。

語音互動兩部分,一個是語音互動本身,另一個是商業邏輯。我們公司本身,關注的是商業邏輯。如果想讓語音互動能和圖形介面互動擁有同樣好的體驗,那麼就要做到任何一個程式設計師都可以很方便的把他擅長的領域中的體驗給做出來,這一點很重要,但是過去國內外企業對這方面積累比較少。

語音互動的流暢便捷其實具有一定的社會意義,相應地,它的技術細節比較麻煩,不好實現。但語音互動仍將成為未來主流的人機互動方式之一。技術更新迭代大爆發即將來臨,我希望奇點機智能夠成為時代的弄潮兒。

最後,我想留一些懸念。關於語音體驗的優化,舉個例子:在自然語言中,頭痛和頭疼是一件事,關鍵在於如何將表達同一含義的說法進行泛化?如何讓語音互動的商業邏輯容易地表達出來?如何高效的用聲音來控制圖形介面操作和業務?

相關文章