對話系統任務綜述與基於POMDP的對話系統

PaperWeekly發表於2017-06-04

作者丨李琳琳,趙世奇

文章來源丨中國中文資訊學會青年工作委員會

注:本文的第一部分主要內容基於“Review of spoken dialogue systems”(López-Cózar et al., 2015);第二部分翻譯自英文原文“POMDP-based statistical spokendialog systems: A review”(Yong et al., 2013)。


 1 .引言


本文第一部分對對話系統的領域研究現狀做一個領域綜述,第二部分我們詳細介紹一下當今對話領域的一個熱門課題:基於 POMDP 的統計對話管理系統。首先,我們對對話系統涉及的五種主要技術做一個綜合介紹;然後,我們簡要討論一下對話系統的發展歷史及其在健康等領域的應用例項。由於對話系統的一個核心組成部分是使用者,我們還會簡單討論一下使用者建模及其型別;接下來我們討論一下對話系統的研究趨勢,包括語音識別、多模互動、以及對話管理系統的主流研發技術。在第二部分,我們集中介紹基於統計的 POMDP 對話系統所涉及的思想及具體建模方法。


 2 .對話系統概述


隨著人機互動技術的進步,類似“環境智慧(Ambient Intelligence)”這類課題更多的強呼叫戶友好性和智慧互動性。為了確保自然的智慧互動,非常有必要研發安全可靠的互動技術以在人機之間建立溝通的橋樑。本著這個初衷,過去的幾十年有很多研究致力於模仿人-人互動的模式來構建人機互動系統,我們稱之為對話系統(Spoken Dialogue Systems, SDSs)(Lopez-Cozar &Araki, 2005; McTear, 2004; Pieraccini, 2012)。

 

最早的對話系統僅僅處理簡單的交流任務,比如提供飛行旅行資訊(Hempel, 2008)。當今的對話系統已經越來越多的出現在更復雜的任務中,比如,智慧環境(Intelligent Environments, Heinroth & Minker, 2013), 車載系統(Geutner etal., 2002),個人助手(Janarthanam et al., 2013), 智慧家居(Krebber et al.,2004),及人機互動(Foster et al., 2014)等。對話系統涉及的另外一個重要課題是使用者建模(Andrade et al., 2014)。 


本文第一部分我們對對話系統的領域研究現狀做一個任務綜述,並指出該領域的研究趨勢,其中各小節內容如下:1)對話系統涉及的五種關鍵技術;2)對話系統的演進歷史以及相關的科研專案;3)對話系統使用者建模;4)對話系統課題的研究趨勢;更智慧化、多樣化,且具有可移植性以及多模功能。本文的第二部分將討論一種具體的資料驅動的統計對話系統。

 

對話系統涉及的五種主要技術 


對話系統通常涉及五個主要的模組:

 

  • 語音識別(ASR) 

  • 口語理解(SLU) 

  • 對話管理(DM) 

  • 自然語言生成(NLG) 

  • 文字生成語音(TTS) 

由於 ASR 模組和 TTS 模組涉及聲音訊號的處理,不是本文的重點,我們僅限於討論 SLU, DM 以及 NLG 三個模組。需要說明的是,對話系統還常常有一個單獨的模組來儲存對話歷史。 


口語理解(SLU) 


口語理解是語音識別模組的下游模組,其任務是獲取輸入語音訊號的語義表示,該語義通常以 frame 的形式表示(Allen, 1995)。而每一個 frame 通常又包含多個槽位,例如,在飛機訂票系統中,一個 SLU 的 frame 通常包含如下槽位:


  • speechActType 

  • departureCity 

  • destinationCity 

  • destinationCity 

  • departureDate 

  • arrivalDate 

  • airline 

一個示例 SLU 模組的輸出如下:


  • speechActType:訂票 

  • departureCity:北京 

  • destinationCity:上海 

  • …… 


SLU 模組的高精度實現是很困難的,因為語言中常常帶有歧義、人稱代詞、指示代詞、以及省略成分。該模組的實現有兩種主流的方式,要麼藉助於句法分析,要麼利用統計機器學習,也可以是兩者結合(Griol et al., 2014)。SLU 模組也常常藉助於對話歷史模組的資訊,其目的是搜尋使用者最近的對話歷史找到當前 query 中沒有顯式提到的資訊以更好的理解對話。

 

同時,口語理解系統還應該具有較好的魯棒性來處理語音識別的錯誤和噪音。相關的技術有,放寬語法檢查尺度,僅關注關鍵詞;或對識別的句子進行部分分析,提取關鍵成分。很多統計方法在這方面有所應用,如(Lemon & Pietquin, 2012)等。

 


對話管理(DM) 


口語理解的下游模組是對話管理器 DM。該模組的任務是決定系統如何回覆給定的使用者輸入(McTear, 2004), 例如,向使用者提供資訊,向使用者發出詢問以確認系統理解,或者請求使用者換一種句型表達需求。在上述飛機訂票的對話系統例項中,DM 可能會決定觸發一個詢問請求讓使用者來確認“出發城市”這個槽位的值是不是“北京”,其觸發原因可能是語音識別系統對“北京”這個詞的置信度值過低。 為了給使用者提供資訊,對話管理器通常需要查詢資料庫或者網際網路,同時它還需要考慮對話歷史模組提供的資訊。例如,DM 模組可能根據對話歷史上下文發出詢問請求以補充缺失資料。對話管理模組模式可以有多種:rule-based, plan-based 和基於增強學習的(Frampton & Lemon, 2009)。本文的第二部分將詳細討論資料驅動的對話系統 POMDP。 


自然語言生成(NLG) 


對話管理器的決策會輸出給下游模組進行自然語言生成(NLG)。由於對話管理器的輸出是抽象表達,我們的目標是將其轉換為句法和語義上合法的自然語言句子,同時考慮對話上下文的連貫性(Lemon, 2011)。許多主流的自然語言生成系統是基於模板的,其根據句子的型別制定相應的模板(Baptist & Seneff, 2000)。這些模版的某些成分是固定的,而另一些成分需要根據對話管理器的輸出結果進行填充。例如,下述模板可以用來生成句子以表示兩個城市間的航班。 


我查到了<flightAmount>趟<departureDate>號<departureCity>到<destinationCity>的航班。 


在該模板中,尖括號部分需要根據對話管理器的輸出值進行填充,填充後該 NLG 模組輸出為:我查到了 30 趟 20 號從北京到上海的航班。

 

考慮到對話系統的連貫性,NLG 在生成語句的時候通常需要根據對話上下文綜合考慮。相關技術涉及如何省略表達,即,省略前文中已經提到概念,或者使用代詞指代前文已經出現的名詞。該過程依賴對話歷史模組的儲存資訊。NLG 模組還需要過濾冗餘重複資訊,該過程又被稱為句子聚合(Dalianis,1999)。除了基於模板的 NLG 技術以外,最近也有一些基於統計的方式進行自然語言生產,如(Dethlefs et al., 2013; Rieser et al., 2014)。由於篇幅限制,本文不對相關技術一一介紹。

 

對話系統的發展歷程 


對話系統的歷史可以追溯到 18、19 世紀,最早是利用機械方式製造機器人來模仿人類行為,該學科的發展具有較長的演進史。 


早期系統以及科研專案 


20 世紀初,Stewart(1922)發明了用電能產生聲音的機器。20 世紀 40 年代出現了第一臺計算機,隨後圖靈提出了智慧計算機的概念(Turing, 1950)。60 年代第一次出現了處理自然語言的計算機系統,例如,ELIZA(Weizenbaum,1966)基於關鍵詞提取以及預定義模板將使用者輸入轉換為系統回答。而隨著語音識別、自然語言處理和語音合成等技術的發展,80 年代第一次出現了對話系統,兩個代表性專案是:美國的 DARPA 口語系統和歐洲的 Esprit SUNDIAL 系統。在這兩個對話系統之後,MIT 和 CMU 相繼進行了一系列對話系統的研究。90 年代,DARPA Communicator 專案由美國政府資助進行語音技術研發。到如今,SDSs 的研發已涉及更廣的技術,包括智慧推理、多模互動以及跨語種互動等等(Heinroth & Minker, 2013)。 

應用例項 


SDSs 有著廣泛的應用例項,包括自動旅遊旅行資訊系統(Glass et al., 1995),天氣預報系統(Zue et al., 2000),銀行系統(Hardy et al., 2006; Melin et al., 2001)和會議協作系統(Andreani etal., 2006)等。我們僅就其在健康領域和 embodied agent 領域的應用做一個簡要介紹。

 

健康領域:SDSs 在醫療應用中能協助診療病人,例如,Bickmore & Giorgino (2006) 研發了對話診斷系統,該系統用對話方式和病人交流,診斷疾病。該研究對於不方便現場就診的病人具有現實意義,同時有助於處理個人隱私和敏感資訊問題。一些病人無法很好的當面與醫護工作者交流,第一,因為診療時間非常有限;第二,病人有可能忌諱一些非常隱私的問題(比如酗酒、抑鬱、愛滋病等)。但是,智慧對話系統就能有效的解決這些問題(Ahmad et al., 2009)。

 

過去的 20 年中,SDSs 已廣泛的應用在醫療領域,如醫療諮詢(Ghanem et al., 2005; Hubal & Day, 2006; Pfeifer & Bickmore,2010),慢性病監測(Black et al., 2005),輔助開藥(Bickmore et al., 2010), 飲食引導(Delichatsios etal., 2001),幫助戒菸(Ramelson et al., 1999),及醫療診斷(Maglogiannis et al., 2009)。 


Embodied Agent:SDSs 另一個常用場景是 Embodied Agent。該領域相關的系統原型有:COLLAGEN (Rich & Sidner, 1998), AVATALK (Hubal & Day, 2006) ,COMIC (Catizone et al., 2003),以及智慧對話系統NICE(Corradini et al., 2004)。

 

使用者建模 


使用者建模是 SDSs 的一個重要課題,其過程不僅僅侷限於在對話系統設計階段建設靜態的 profile,也可以根據使用者狀態建立動態 profile。SDSs 可以根據使用者的語音資訊,說話狀態及情景建立大量的使用者 profile 資料,然後利用這些資料理解使用者對話,並預測使用者行為。更具體來說,使用者建模涉及情感建模(Balahur et al., 2014; Schuller & Batliner,2013; Moors et al., 2013),人物性格建模(Nass & Yen, 2012),和上下文場景建模(Zhu & Sheng, 2011)等主要技術。 


研究趨勢 


語言是人類的特殊能力,SDSs 是 AI 領域的一個高難度題目,因為它涉及多個語言相關的子領域,如語音識別、語音合成、語言理解、語義表示、對話管理、語言生產、情感建模、以及多模互動。Grand View Research 公司做的一項研究調查報告顯示2012年對話系統的市場市值大約為 3.5 億美金,該公司預測到 2020 年會增長 31.7%。同時該項報告還指出,考慮到市場以及經濟效應,人工客服領域將是未來 SDSs 的一個大方向。下面我們討論一下 SDSs 主要研究方向。 


語音識別 


對話系統一個重要的元件是語音識別,其輸出錯誤是 SDSs 所面臨的第一個難題,未來如何降低語音識別噪音仍是一個大方向。其相關的技術有:降低背景噪音,預測使用者輸入,以及 ASR 系統情感識別(Batliner et al., 2010)。不同於傳統的基於 HMM 的語音識別,新趨勢越來越多的依賴深度學習(Dahl et al., 2011)。考慮到語音識別錯誤可能直接導致下游的對話管理器無法正確理解語義,降低語音識別噪音任重道遠。 


多模互動 


口語理解是 SDSs 另一個重要組成部分,其輸入不僅僅依賴於語音,還依賴於使用者表情、動作等多模訊號(Bui, 2006; Lopez-Cozar, 2005)。該方面的研究很多,如歐盟的 Horizon2020 專案的一個子領域是語言技術(ICT-22-2014),其致力於多模計算機互動。SDSs 多模技術還包括語義多模融合(Russ et al., 2005),以及藉助多模訊號降低語音識別模組噪音(Longe et al., 2012)。 


對話管理 


對話管理器是協調人機互動的中心模組,它是一個相對成熟的研究課題,大致可分為如下四種型別(Jurafsky & Martin, 2009):

  • 基於有限狀態和對話語法 

  • 基於Frame的系統 

  • 資訊狀態更新(ISU) 

  • 馬爾可夫決策過程(MDPs)和部分可觀測的馬爾可夫過程(POMDPs) 


有限狀態模型認為對話是一個狀態轉移序列圖,圖中每一個結點表示隱含的對話狀態,對應於系統行為(如回答、詢問、確認、等等),結點之間的狀態轉移控制對話流。Nuance 的自動銀行系統就是根據這種方法設計的(McTear, 2002)。有限狀態模型常應用於自助語音服務系統,其優點是簡單易實現,缺點是缺乏靈活性,難以處理複雜對話邏輯。 


Frame-based 系統在前面簡單介紹過,其基本思想是填槽位。該方法可以在當前對話輪中填一個或者多個槽位,也可以覆寫或修正前面對話輪的填充內容。基於Frame的對話管理系統還有一些衍生系統,如 agenda(Bohus & Rudnicky, 2003), task structuregraphs,和 type hierarchies and blackboards (Rothkrantz et al., 2004) 等。 


ISU 方式利用“資訊狀態”將對話過程的所有可用資訊進行建模(Larsson & Traum, 2000),即整合對話參與者的所有資訊,而後建模對話行為。


以上三種對話管理模式都需要計算語言學專家設計並編寫對話方案,該策略會增加對話系統的設計開發成本,同時也會降低系統的可維護性。為了克服這些侷限性,近來出現了基於機器學習的對話管理系統,典型的代表是 MDP 和 POMDP。這些系統的基本思想是利用統計框架從大量的對話語料中自動學習對話管理模型(Young et al., 2013)。這種方式有兩個主要的優點:第一,可以將不確定性表示引入到模型中,相對基於規則的系統,其對語音和語義理解的噪音有更好的魯棒性。第二,這種框架具有自動學習功能,可以極大的降低人工開發成本。當然,這種方法也存在缺點,首先我們需要收集大量的對話資料,然後還需要對這些資料進行標註。在本文第二部分,我們集中討論基於 POMDPs 的統計對話管理系統。


 3 .基於 POMDP 的統計對話管理系統


統計對話管理系統是一種資料驅動的方法,無需人工構建對話管理機制,具有較好的魯棒性。部分可觀察的馬爾可夫決策過程(POMDPs)具有良好的資料驅動性,但問題是完整的建模和優化計算代價巨大,甚至不可實現。在實際過程中,需對 POMDP-based 的系統近似優化求解,以下內容將對 POMDP-based 的系統的領域現狀做一個綜合介紹。 


概述 


傳統的 SDS 的主要組成部分如下圖 1 所示。口語理解模組(SLU)將語言轉換成抽象語義表示,即使用者對話行為,而後系統更新其內部狀態,然後系統通過決策規則確定系統行為,最後語言生成模組(NLG)將系統行為轉化為自然語言字串。其中,狀態變數 包含跟蹤對話過程的變數,以及表示使用者需求的屬性值(又稱為slots)。在傳統對話系統中,決策規則是通過流程圖的方式實現的,圖中的結點表示狀態和行為,而邊則表示使用者輸入(Oshry et al., 2009; Paek & Pieraccini, 2008)。


對話系統任務綜述與基於POMDP的對話系統


▲ 圖 1:對話系統的主要組成部分


儘管語音識別技術在過去的幾十年不斷進步,但是在噪音環境中(如公共場所或者汽車內)的語音識別錯誤率仍高達15%-30%(Lippmann, 1997; Black et al., 2011)。對話處理機制必須要處理噪音問題,包括自動檢錯和恢復。正因為如此,傳統的基於流程圖的對話管理系統非常難以制定和維護。


新型的對話管理系統基於部分可觀察的馬爾可夫決策過程(POMDPs)(Williams & Young, 2007),該方法假定對話過程是馬爾可夫決策過程,也就是說,對話初始狀態是, 每一個後續狀態用轉移概率來表示:。 狀態變數  是無法直接觀察到的,它代表了對使用者需求理解的不確定程度。系統把SLU的輸出看作是一個帶噪音的基於使用者輸入的觀察值,這個觀察值的概率為 ,這裡的轉移概率和生成概率用恰當的隨機統計模型表示,又稱為對話模型 M,而每個步驟中採取哪個行動則由另一個隨機模型控制,該模型稱之為對話策略 P。在對話過程中,每一步還需要一個回報函式來體現理想中的對話系統特性。對話模型 M 和對話策略 P 的優化是通過最大化回報函式的期望來實現的,該過程可以通過直接使用者互動線上訓練,也可以利用離線的語料庫訓練,詳見下圖 2:


對話系統任務綜述與基於POMDP的對話系統


▲ 圖 2:基於 POMDP 的對話系統


基於 POMDP 的對話系統融合了兩個核心觀點:置信狀態跟蹤和增強學習。這兩個方面可以放在同一個框架下學習。與傳統方式相比,該方法具有如下優點:


1. 置信狀態為語音識別噪聲提供了更好的魯棒性(Williams & Yong, 2007)。置信狀態在使用者輸入後的後驗概率可以藉助於一種稱為“置信監督(belief monitoring)”的貝葉斯推理過程更新。在設計置信狀態的過程中,可以藉助模型先驗概率去捕捉使用者行為,而藉助推理過程去探索所有的識別假設空間,如模糊網路和 N-best lists。其特點是,融合多輪證據以降低單個錯誤的影響。與傳統方法不同,使用者的反覆行為是得到激勵的,如果使用者足夠多次的重複一種表達,系統對他們所說的內容的置信度也會隨之增加(前提是正確的假設候選出現在 N-best lists 中)。


2. 通過儲存各個狀態的置信分佈,系統可以並行的追蹤各種對話路徑,它不是貪婪的選擇當前最優解而是綜合考慮各種狀態的全域性解。當使用者輸入一個負反饋訊號時,當前最可能解的概率被降低,焦點會聚集到另外一個狀態。因此,不需要回溯或者修改對話機制。強大的對話策略可以簡單的嵌入置信狀態到對話行為的對映中。


3. 顯式的表達狀態和行為能將回報函式和狀態行為對關聯起來。其回報綜合值組成了對話效果的客觀衡量標準,因此可以用離線語料庫或者線上使用者互動方式,藉助增強學習提升效果。該方法具有最優的決策策略,避免了人工調優的勞動,可以容納複雜的規劃機制。


然而在實踐中運用 POMDP 並不容易,有許多實際問題需要解決。SDS 的狀態行為空間巨大,求解這個空間需要複雜的演算法和軟體。實時的貝葉斯推理也非常難,完整的 POMDP 的學習策略是不可實現的,因此必須利用近似法求解。優化基於 POMDP 的 SDS 的最直接方式是通過直接使用者對話。但是,通常難以找到足夠數量的使用者幫助訓練系統,所以實踐中常常通過使用者模仿器的方式來對引數模型進行優化。


部分可觀察的馬爾可夫決策過程


部分可觀察的馬爾可夫決策過程用一個多元組(S, A, T, R, O, Z, )表示,其中 S 是狀態集;A 是行為集合;T 表示轉移概率 ;R 是回報的期望值;O 是觀測值集合;Z 代表觀測概率 ; 是幾何衰減係數,其值在 0-1 之間; 是置信狀態的初始值。

POMDP 的過程如下:在每一個過程中,真實世界是一個無法觀察的狀態 。因為  是未知的,變數置信狀態  表示所有可能狀態的分佈, 表示處在某個特定狀態  的概率。系統基於  選擇行為 ,得到一個激勵值 ,然後轉化到狀態 ,這裡  僅僅依賴於  和 。然後系統得到一個觀察值 ,該值依賴於  和 。這個過程如圖 3 所示:


對話系統任務綜述與基於POMDP的對話系統


▲ 圖 3:用 influence diagram 表示 POMDP;圓圈表示隱變數,帶陰影的圓圈表示觀測值,方塊表示系統行為,稜形表示回報值,箭頭表示因果關係。


給定置信狀態 對話系統任務綜述與基於POMDP的對話系統,最近一次的系統行為 對話系統任務綜述與基於POMDP的對話系統 以及觀察值 對話系統任務綜述與基於POMDP的對話系統,新的置信狀態 對話系統任務綜述與基於POMDP的對話系統 的更新可以表示如下(Kaelblinget al., 1998):

對話系統任務綜述與基於POMDP的對話系統

這裡 對話系統任務綜述與基於POMDP的對話系統 是正規化常量,對話系統任務綜述與基於POMDP的對話系統 是系統沒有任何行動之前的初始置信狀態分佈。


系統行為由 對話系統任務綜述與基於POMDP的對話系統 策略控制。最通用的策略是直接將置信狀態和行為進行直接對映 對話系統任務綜述與基於POMDP的對話系統,或者通過一個概率函式進行對應 對話系統任務綜述與基於POMDP的對話系統,這裡是在 對話系統任務綜述與基於POMDP的對話系統 置信狀態 b 下采取行動 a 的概率,其滿足 對話系統任務綜述與基於POMDP的對話系統


以置信狀態 對話系統任務綜述與基於POMDP的對話系統 為開始的策略 對話系統任務綜述與基於POMDP的對話系統 的綜合回報函式定義如下:

對話系統任務綜述與基於POMDP的對話系統

該公式對應確定性策略(deterministic policy);

對話系統任務綜述與基於POMDP的對話系統

該公式對應隨機策略(stochastic policy)。 最佳對話策略通過優化回報函式得到:

對話系統任務綜述與基於POMDP的對話系統

該策略也稱為 Bellman 優化公式(Bellman, 1957)。在 POMDP 參考文獻中,尋找最優策略 對話系統任務綜述與基於POMDP的對話系統 的過程稱之為“求解”和“優化”過程。Kaelbling et al. (1998)應用了精確求解方案,(Pineau et al., 2003; Smith & Simmons, 2004)提出了近似求解方案。但問題是通用的 POMDP 方法複雜度高,難以大規模的應用到實用對話系統。即使中小型規模,其涉及的狀態、行為、和觀察值很容易達到 對話系統任務綜述與基於POMDP的對話系統 量級。窮舉 對話系統任務綜述與基於POMDP的對話系統 是不可實現的,因此,直接優化更新置信狀態優化回報函式並不可行。通常情況下,我們需要簡化模型近似求解。接下來我們將詳細討論。


置信狀態表示和監測


本小節集中討論圖 2 中對話系統模型 M。實用 SDS  中,狀態必須包含三種不同型別的資訊:使用者的目標對話系統任務綜述與基於POMDP的對話系統,使用者的真實意圖 對話系統任務綜述與基於POMDP的對話系統,以及對話歷史 對話系統任務綜述與基於POMDP的對話系統(Williams& Young, 2007)。使用者目標包含需要完成任務所有資訊,使用者真實意圖是指使用者實際想表達的意圖而非系統識別出的意圖,對話歷史跟蹤之前的對話流。由此,對話中的一個狀態包含三個因子:


對話系統任務綜述與基於POMDP的對話系統


引入條件獨立性假設以後,該過程可以表示為圖 4。將狀態分解成以上三個因子可以對狀態轉移矩陣進行降維,同時也減少了系統的條件依賴性。


對話系統任務綜述與基於POMDP的對話系統

▲ 圖 4:表示 SDS-POMDP 各個狀態因子的 influence diagram


結合置信更新和狀態因子兩公式,SDS 的更新策略可以表示為:

對話系統任務綜述與基於POMDP的對話系統

以上公式包含了對話系統的四個要素:


(a)  觀察模型表示給定使用者真實表達 u,觀察值 o 的概率。它包含了語音識別系統的錯誤率。

(b)  使用者模型表示在給定系統前一輪輸出和當前系統狀態下,使用者真實表達u的概率。它建模了使用者行為。

(c)  目標轉移模型表現了使用者目標轉換的可能性。

(d)  歷史模型:系統記憶的對話歷史。


雖然狀態因子模型極大的簡化了 POMDP 模型的複雜度,但是它仍舊複雜,難以在實際的系統中應用。因此還需要進一步近似化處理,通常有兩種常用技術:


  • N-best 方法,包括剪枝和重組(Gasic& Yong, 2011)

  • 貝葉斯網路法(Thomson & Yong, 2010)


策略模型和增強學習


策略模型 P 提供了置信狀態 b 和系統行為 a 的對映。我們的目標是尋找一個最優的策略最大化對話回報函式的綜合期望。

POMDP 的置信空間是一個高維空間。置信空間中臨近的點必須具有相同的行為值,因此,有必要用一種策略將置信空間的點進行區域劃分,確保同區域的點具有相同的行為值。當然,該行為對映必須保證讓每一個區域都有最佳的行為值。POMDP 系統的策略模型可以通過壓縮置信空間(Crook & Lemon, 2011)或者動態狀態賦值(Doshi & Roy, 2008)實現。現實應用中,我們通常需要對策略進行簡化表示以降低推理複雜度。


我們可以根據實際應用加一些限定條件。首先,通常的對話系統僅僅用到相對小的置信空間;第二,可行行為的範圍在給定的置信空間內通常是限定的。由此,這裡有一個精簡的特徵空間,我們稱之為 summary space。其中,狀態和行為都被簡化以方便策略表示和優化(Williams & Yong, 2005; Williams & Yong, 2007)。Summary space 是全域性問題空間的一個子空間,belief tracking 在整個問題空間中求解,而決策執行和策略優化僅在 summary space 中執行。問題空間和 summary space 中的執行方案如下:在置信更新後,問題空間中的置信狀態 b 被對映為一個特徵向量和候選行為集合 對話系統任務綜述與基於POMDP的對話系統。策略從一系列的候選行為集合中選取,然後將 summary space 中的對映回原問題空間中一個完整的行為 a。


Summary space 的轉換需要兩個組成部分:問題空間中選擇候選行為的機制,以及從置信狀態和候選行為中抽取特徵的函式。最簡單的選取候選行為的方法是將可以對應到概念以及槽位(如:地點型別、食物型別、星級評價、等等)的對話行為(如:問候、問題、肯定、告知、等等)都包括在內,然後通過置信度對各個槽位賦值(Thomson & Young, 2010; Williams & Young, 2005)。該方法是全自動的,但它可能會包含一些錯誤的候選行為,如在對話的正中間進行問候,或者在沒有被問到某個值的時候,對該值進行確認。另外一類選擇候選行為的方法是 partial program(Andre & Russell, 2002; Williams, 2008),或者馬爾可夫邏輯網路(Lison,2010)。這類方法可以在對話流中任意容納人工知識,同時顯式設定業務邏輯,比如,在進行資金轉賬之前要求輸入使用者密碼。同時,限定候選行為空間能更快的收斂到最優策略,因為它已經將很多的錯誤候選排除在外(Williams, 2008)。但是,這些規則需要人工制定,而人工規則可能錯誤的將最優候選行為排除在外。作為一種折衷方案,有些系統允許每一個對話行為作為候選,但通過人工規則限定對話行為槽位(Yong et al., 2010)。


Summary space 轉換的第二個重要組成部分是從置信狀態以及候選行為中抽取特徵的函式。我們通常為每一個對話行為構建一個二進位制特徵,也可以針對每一個有效的行動/槽位對,例如 confirm (food)。這種方式通常會產生 20-30 維的行為特徵,其每一維表示一個唯一行為。狀態特徵通常是異構的,包含實數值,二進位制值,和列舉類值。典型的狀態特徵包括:最重要的 N 個使用者目標的置信度;各個槽位的 marginal belief;最重要的使用者目標屬性(如,匹配到的資料庫實體的數量);表示哪些系統行為可行的隱變數;對話歷史屬性值(如,是否已確認最重要的使用者目標);歷史使用者行為;或者上述特徵的組合(Thomson & Yong, 2010; Williams & Yong, 2005; Williams, 2008;Yong et al., 2010)。通常系統具有 5 到 25 個特徵,這些特徵一般是手工選取的,也有些研究探索自動特徵選取(Williams & Balakrishnan, 2009)。狀態特徵不僅僅侷限於置信狀態資訊,也可以在置信狀態以外尋找特徵,如資料庫中的資訊,過去的對話歷史,或者上下文資訊。


給定一個特定的 summary space,策略可以用表示為一個顯示的對映 ,或者表示為一個概率分佈 ,後者行為的選取是通過對概率分佈的抽樣實現的。策略是 summary belief state(狀態)及 action(行為)的函式,而不是原始問題空間的置信狀態和行為。可以認為新函式是對原問題空間的近似,也可以認為是另一個馬爾可夫過程,在這個過程中狀態和行為是 summary state 和 summary action。


在顯式的對映策略中,最常用的方法是尋找一個行為 a 以最大化 Q 函式(回報函式的數學期望),即:


這裡的 Q 函式可以是帶引數的,也可以是無參的。如果不帶引數,置信狀態會在一個離散的編碼集  中, 對任意一個狀態  都可以計算出其 Q 值。


有五種常用的方法來優化策略:1. planning under uncertainty;2. valueiteration;3. Monte-Carlo優化;4. 最小平方策略迭代(LSPI);5. natural actor-critic (NAC)。這五種方式常常應用在 end-to-end 的對話系統中。除此之外,還有Q-learning(Scheffler & Young, 2002)和 SARSA(Henderson etal., 2008)等方法。由於篇幅限制,我們不對這些策略做一一介紹,感興趣的讀者可以閱讀相關參考文獻。


總的來說,planning under uncertainty 策略將置信狀態作為概率分佈,而 valueiteration 和 Monte-Carlo 優化需要首先將置信空間量化,LSPI 和 NAC 基於置信狀態特徵的線性模型進行函式近似。


使用者模擬器


直接從語料庫中學習對話策略存在很多問題,比如收集資料中的狀態空間可能與策略優化資料不同。另外,這種方式無法線上互動學習。因此我們可以構建一個使用者模擬器,讓這個模擬器與對話系統直接進行互動。使用者模擬器不僅僅可以用來學習對話系統,也可以用它來評估對話系統(Schatzmann et al., 2006)。使用者模擬器通常執行在抽象對話行為層。給定一系列的使用者行為和系統回覆,其目標是對使用者回覆的概率分佈進行有效的建模:


正如前文提到的,在實際系統中對話管理系統的觀測值被噪音變數影響,因此使用者回覆同時被使用者模型和噪音模型控制。模型  匹配在語料中的使用者回覆,另外需要error model 建模語音識別及理解錯誤(Hastie, 2012; Pietquin & Hastie, 2012; Schatzmann et al., 2005; Williams, 2008)。


系統和應用


前面的幾個小節講述了統計對話系統的幾個主要模組,其相關的技術在隨著時間進步完善。儘管在商業上推廣這些技術有一定的難度,但是在具體的場景中已有一定範圍應用。這裡我們簡單的提幾個基於 POMDP 框架的對話系統。


這些系統大多都是非正式的inquiry系統,包括語音呼叫(Janarthanam et al., 2011),旅遊資訊(Thomson &Yong, 2010),日程安排(Kim & Lee, 2007)和汽車導航(Kim et al., 2008)等。POMDP 也可應用於基於命令控制的系統,如通過多模介面控制家電(Williams, 2007)。


POMDP 曾在 CMU 舉辦的“Let’s Go”競賽任務中被應用,其為 Pittsburgh 區域的居民播報非忙時段的公交車資訊(Thomson et al., 2010)。在該應用中,使用者可能從多種不同的手機裝置來電,且通話環境通常有噪音,結果顯示,基於 POMDP 的系統明顯優於傳統系統(Black et al., 2011)。


小結


統計對話系統提出資料驅動的框架,該方式可以有效的降低人工編寫複雜對話管理規則的開銷,同時對在噪音環境中的語音識別錯誤具有良好的魯棒性。通過一個顯式的對不確定性建模的貝葉斯模型和一種回報驅動的策略優化機制,POMDP 建立了一個良好的對話系統框架。


但是,基於 POMDP 的對話系統非常複雜,通常需近似求解。這裡有許多實際的研究問題,例如,如何在保持模型的複雜度的同時,讓置信狀態序列可解?如何減少策略學習的迭代次數,從而能在真實使用者上訓練模型而不是藉助使用者模擬器?同時,還需要將對話系統打包以及平臺化以使得非專家也能使用這些技術。


除此之外,POMDP 框架嚴重依賴回報函式。原則上來說,這是對話系統的優點,因為它可以提供一個客觀的目標機制定義對話系統的設計標準。但是,實際應用中,我們很難直接從使用者那裡獲得可信的回報訊號,即使是最簡單的成功/失敗也很難獲得,比如,在被問到“系統是否回答了你所問的問題?”時,許多使用者出於禮貌會直接說“是”,或者由於對系統不切實際的過高期望而直接回答“否”。回報函式可以基於使用者滿意度來獲取,而該滿意度值可以通過客觀的可以衡量的特徵進行迴歸計算獲取,該方法在 PARADISE 系統(Levin et al., 1997)上有所應用,也有其他的研究(Singh et al., 1999)在這個思路框架下進行。儘管如此,很多經驗告訴我們,根據真實使用者反饋的線上學習策略必須要結合成熟的生物識別技術,用客觀標準測量使用者情感滿意度。


 4 

總結



本文對對話系統的領域研究現狀做了一個整體介紹。對話系統的核心問題是處理多輪互動,讓人機之間的互動高效、自然、智慧。在本文中我們涉及了對話系統的主要任務模組,並做了簡單的概述,同時指出了對話系統所面臨的問題和挑戰。我們還介紹了對話系統的演進歷史及其應用例項,並從口語交流、多模互動和對話管理方面介紹了該領域的研究趨勢。接下來,本文詳細介紹了 POMDP 統計對話管理器的相關技術及領域現狀,同時也指出了其中的問題及面臨的挑戰。


 5

參考文獻


López-Cózar, & R.,Araki, M. (2005). Spoken, multilingual and multimodal dialogue systems:Development and assessment. John Wiley

López-Cózar, R., Callejas,Z., Griol, D., & Quesada, J. F. (2015). Review of spoken dialogue systems.Loquens, 1(2), e012.

McTear, M. F. (2002).Spoken dialogue technology: Enabling the conversational user interface. ACMComputing Surveys, 34(1), 90–169.http://dx.doi.org/10.1145/505282.505285

McTear, M. F. (2004).Spoken dialogue technology. Toward the conversational user interface. Springer.http://dx.doi.org/10.1007/978-0-85729-414-2

Pieraccini, R. (2012). Thevoice in the machine: Building computers that understand speech. Cambridge, MA:MIT Press.

Hempel, T. (2008).Usability of speech dialogue systems: Listening to the target audience.Springer.

Heinroth, T., &Minker, W. (2013). Introducing spoken dialogue systems into IntelligentEnvironments. New York: Springer.http://dx.doi.org/10.1007/978-1-4614-5383-3

Geutner, P., Steffens, F.,& Manstetten, D. (2002). Design of the VICO spoken dialogue system:Evaluation of user expectations by Wizard-of-Oz experiments. Proceedings of the3rd International Conference on Language Resources and Evaluation (LREC‘02),Canary Islands.

Janarthanam, S., Lemon,O., Liu, X., Bartie, P., Mackaness, W., & Dalmas, T. (2013). Amultithreaded conversational interface for pedestrian navigation and questionanswering. Proceedings of the 14th Annual Meeting of the Special Interest Groupon Discourse and Dialogue (SIGDIAL), 151–153.

Krebber, J. Möller, S.,Pegam, R., Jekosch, U., Melichar, M., & Rajman, M. (2004). Wizard-of-Oztests for a dialog system in smart homes. Paper presented at the Joint CongressCFA/DAGA ’04, Strasbourg.

Foster, M. E., Giuliani,M., & Isard, A. (2014). Task-based evaluation of context-sensitivereferring expressions in human-robot dialogue.Language, Cognition andNeuroscience, 29(8), 1018–1034. http://dx.doi.org/10.1080/01690965.2013.855802

Andrade, A. O., Pereira,A. A., Walter, S., Almeida, R., Loureiro, R., Compagna, D., & Kyberd, P. J.(2014). Bridging the gap between robotic technology and health care. BiomedicalSignal Processing and Control, 10,65–78.http://dx.doi.org/10.1016/j.bspc.2013.12.009

Allen, J. (1995).Naturallanguage understanding. Redwood City, CA: The Benjamin Cummings.

Callejas, Z., Griol, D.,Engelbrecht, K.-P., & López-Cózar, R. (2014). A clustering approach toassess real user profiles in spoken dialogue systems. In J. Mariani, S. Rosset,M. Garnier-Rizet & L. Devillers (Eds.), Natural interaction with robots,knowbots and smartphones (pp. 327–334). New York: Springer. http://dx.doi.org/10.1007/978-1-4614-8280-2_29

Griol, D., Callejas, Z.,López-Cózar, R., & Riccardi, G. (2014). A domain-independent statisticalmethodology for dialog management in spoken dialog systems. Computer Speech andLanguage, 28(3), 743–768. http://dx.doi.org/10.1016/j.csl.2013.09.002

Lemon, O. (2011). Learningwhat to say and how to say it: Joint optimisation of spoken dialogue managementand natural language generation. Computer Speech and Language, 25(2), 210–221.http://dx.doi.org/10.1016/j.csl.2010.04.005

Lemon, O., & Pietquin,O. (Eds.) (2012). Data-driven methods for adaptive spoken dialogue systems:Computational learning for conversational interfaces. Springer.http://dx.doi.org/10.1007/978-1-4614-4803-7

Frampton, M., & Lemon,O. (2009). Recent research advances in reinforcement learning in spokendialogue systems. Knowledge Engineering Review, 24(4), 375–408.http://dx.doi.org/10.1017/S0269888909990166

Baptist, L., & Seneff,S. (2000). GENESIS-II: A versatile system for language generation inconversational system applications.Proceedings of the 6th InternationalConference on Spoken Language Processing (ICSLP ’00), 3, 271–274.

Dalianis, H. (1999).Aggregation in natural language generation. Computational Intelligence, 15(4),384–414.http://dx.doi.org/10.1111/0824-7935.00099

Dethlefs, N., Hastie, H.,Cuayáhuitl, H., & Lemon, O. (2013). Conditional random fields forresponsive surface realisation using global features. Proceedings of the 51stAnnual Meeting of the Association for Computational Linguistics (ACL),1254–1263.

Rieser, V., Lemon, O.,& Keizer, S. (2014). Natural language generation as incremental planningunder uncertainty: Adaptive information presentation for statistical dialoguesystems. IEEE/ACM Transactions on Audio, Speech and Language Processing, 22(5),979–994. http://dx.doi.org/10.1109/TASL.2014.2315271

Stewart, J. Q. (1922). Anelectrical analogue of the vocal organs. Nature, 110, 311–312.http://dx.doi.org/10.1038/110311a0

Turing, A. (1950).Computing machinery and intelligence. Mind, 236, 433–460.http://dx.doi.org/10.1093/mind/LIX.236.433

Weizenbaum, J. (1966).ELIZA–A computer program for the study of natural language communicationbetween man and machine.Communications of the ACM, 9(1), 36–45. http://dx.doi.org/10.1145/365153.365168

Glass, J., Flammia, G.,Goodine, D., Phillips, M., Polifroni, J., Sakai, S., … & Zue, V. (1995).Multilingual spoken-language understanding in the MIT Voyager system. SpeechCommunication, 17(1–2), 1–18. http://dx.doi.org/10.1016/0167-6393(95)00008-C


相關文章