導讀:近年來,人機對話受到了學術界和工業界的廣泛重視。在研究上,自然語言理解技術逐漸從序列標註向深度學習的方向發展,對話管理經歷了由規則到有指導學習再到強化學習的發展過程,自然語言生成則從模板生成、句子規劃,發展到端到端的深度學習模型。在應用上,基於人機對話技術的產品也層出不窮,如蘋果公司的 Siri、亞馬遜的 Echo 音響、微軟的 Cortana、Facebook M 以及谷歌的 Allo 等。同時,各大企業紛紛研發及收購 AI 平臺,如微軟研發 Luis.ai,三星、Facebook 和谷歌分別收購了 viv.ai、wit.ai 和 api.ai,百度自主研發了 Duer OS 以及收購 kitt.ai,以上種種跡象表明了各大企業將在今後著力發展人機對話技術。本次報告將針對人機對話中的核心關鍵技術的發展前沿和研究趨勢進行綜述,主要包括開放域人機對話和任務型對話的關鍵技術及挑戰。
人機對話主要技術方向:
雖然人機對話主要包括四個功能:聊天、任務型對話、問答以及推薦,但主要集中在開放域聊天和任務型對話兩方面。二者在目標、評價、最終目的上有一定區別,典型的應用系統也不大一樣。
一. 開放域聊天
開放域聊天的一個基礎系統架構如上圖所示。
1. 前沿研究點:回覆質量
上圖總結了17年到19年開放域的一些論文和一些相關的知識點,下面的部分主要關注回覆質量。回覆的話是通順、流暢的。回覆質量是一個基礎,包含很多工作,也面臨著多方面的挑戰。
① 回覆質量上存在的挑戰
這裡舉兩個例子,左邊是單輪迴復的例子,右邊是多輪迴復的例子。從中可以看出兩個問題,第一個問題是在單輪迴復中由於統計模型 loss function 的一個限制,通常採用的回覆都是統計上佔優的高頻回覆,叫做萬能回覆。而多輪迴復可以看出是一個區域性依賴的回覆,就相當於它沒有學到更高層次的上下文資訊。這是一個區域性學習,與上下文無關的問題。
② 優化初始的解碼過程
我們在單輪迴復對話中,積累了一些工作,首先是優化了解碼器過程,通過觀察真實的資料。如果第一個解碼出一個高頻詞,比如我,你,我們,你們,那麼通常來說回覆不會太好,針對這個問題我們做了一個 learning to start for sequence to sequence 的 framework,後面大家可以把 learning to start 這個模組做進一步改進和提升。但目前來說對原有演算法效果已經有了一定的效果。
③ 更好地利用檢索結果提高對話生成質量
其次,今年發表在 ACL2019 上面的一篇文章,檢索式和生成式是互相對抗又互補的結果,檢索式結果可以保證相關性、流暢性比較好,但是多樣性受限,不論怎樣檢索都跑不出編輯好的話術。生成式的好處就是機器可以創造,但生成式模型面臨著萬能回覆的問題。利用檢索式結果和生成式結果互相增強的方式,提出這樣一個模型。