背景
人工智慧(AI)研究近些年來進展頗豐。機器人越來越聰明,甚至還有了新名字——“超級智慧”。對我們人類來說,我們該如何與這些新朋友交流呢?答案是對話系統。
圖 1:對話系統是 2017 年十大戰略性技術趨勢之一(https://letstalkpayments.com/conversational-systems-will-enable-businesses-of-the-future-to-be-invisibly-present-through-time-and-space/)
對話系統的歷史
圖 2 展示了對話系統的發展史。LUNAR、SHRDLU、ELIZA 等一些早期的自然語言對話系統可以通過句法分析和語義分析“理解”說話人的話語。
LUNAR [2] 是一個原型設計的自然語言問答系統,可幫助月球地質學家獲取對月球岩石和土壤成分的化學分析資料。其採用了使用啟發式/語義資訊的句法分析來選擇最有可能的解析方式(使用了擴充轉移網路語法(Augmented Transition Network Grammar))。
SHRDLU [3] 是一款早期的自然語言理解計算機程式,由 MIT 的 Terry Winograd 在 1968–1970 年開發。其使用者可以與計算機進行對話,從而在一個簡化的“積木世界”中移動目標、命名集合以及查詢狀態。這個“積木世界”本質上是一個充滿了不同積木的虛擬盒子。其開發的基礎是:研究者相信“計算機只有在理解了其所討論的主題之後才能處理語言”。
然後,故事理解和生成系統出現了。這些系統可以根據人類話語推斷動作、動作執行者和物件。這些系統有幾種不同型別:基於指令碼的理解、基於規劃的理解、動態記憶和故事講述。下面給出了這些型別的一些典型對話系統。
- 基於指令碼的理解:SAM(Script Applier Mechanism)[4]、FRUPM [5]
- 動態記憶:IPP [6]、BORIS [7]、CYRUS [8]
- 故事講述:TALE-SPIN [9]
然後進入了 1980 年代,早期的語音對話系統開始冒頭了。“Hearsay-II 語音理解系統”根據知識源整合了不同層面的資訊處理,這些資訊來源是根據黑板模型(blackboard model,圖 3)協調的,其中涉及:引數、分段、音節、詞、詞序列、短語和資料庫介面。其結合了自上而下(假設驅動的)和自下而上(資料驅動的)的處理方法。
之後,研究者設計出了越來越複雜的對話系統,並且取得了很大的成功,將早期的語音對話系統改進成了有身體的對話智慧體/智慧虛擬人(圖 4)。
但研究者不會就此止步:他們還試圖讓系統能理解情緒。情感計算(affective computing)是設計情緒智慧的一個原理,可根據同伴的情感狀態改變行為。
到了 2000 年代,對話系統已經具備了各種必需的基本功能,支援互動式往復對話(不只是回答問題,而且還能提問題),能識別互動和延遲的成本,能有效地管理中斷,還能獲取互動中社交和情緒方面的資訊。這些之前的出色研究工作非常有價值,並且構建了當前的對話系統。