以文件為額外知識的生成式對話

哈工大SCIR發表於2020-09-23

1. 摘要

本文介紹以文件為額外知識的生成式對話系統。根據當前研究中對文件的不同處理方式,我們將其分為三類(以句子為單位建模,直接建模文件,文件結構化處理),對每個類別進行了簡要的介紹。最後我們總結了該研究領域面臨的挑戰,希望對相關研究者有所幫助。

2. 正文

在人機對話研究中,早期的生成式模型容易給出通用且缺少資訊含量的回覆,透過使用多樣性強化策略或者大規模引數的模型能夠很大程度上改善這個問題。此外,在生成回覆時引入外部知識也是一種增加回覆資訊含量的方法。外部知識是除對話上下文之外的資訊,可以是結構化的知識圖、非結構化的文字甚至多媒體資源等。將非結構化文字知識融入到對話系統中是目前的研究熱點。例如Facebook不久前釋出了具有同理心、知識、畫像的Blender對話系統,以及引入外部文字知識的DSTC(Dialog System Technology Challenge)和Alexa(Alexa Prize Socialbot Challenge)等挑戰。本文介紹以文件為額外知識的生成式對話系統,文件通常指包含多個有連貫語義關係句子並且長度在數百字以上的文字。根據對文件的不同處理方式,我們將其分為以下三類。

2.1 以句子為單位建模

受到文件長度的影響,直接對文件進行操作在建模時很難定位到適合對話的資訊。因此,本部分介紹的方法使用文件中的句子(或子句)作為對話中融入文件資訊的基本單位。例如Wizard of Wikipedia(WoW)將維基百科文件作為外部知識來討論開放域的話題。其做法繼承了機器閱讀理解(MC)中的處理,都是先用檢索技術(倒排索引,TF-IDF等)從文件資料庫中選出候選文件,再對候選文件進行操作。不同的是,WoW使用對話歷史進行查詢,並且只擷取檢索結果的首段,將段落以句子為單位拆分,使用這些句子(拼接上標題)作為融入知識的候選。排除檢索過程,這種做法類似於很多基於短文字(句子)的對話生成工作。在一些獨立的候選事實性描述句子中進行選擇,缺少對長文件句子間語義關係的考量。

以文件為額外知識的生成式對話圖1 在編碼後進行知識篩選的TMN模型[1]解決WoW任務的模型通常關注如何篩選候選句子。例如Facebook AI Research在ICLR 2019上提出的TMN模型[1](如圖1)。從資料庫中檢索出候選句子後,TMN將候選句子與對話上下文輸入編碼器,互動編碼結果後選出權重最高的句子進入端到端的生成過程。
以文件為額外知識的生成式對話圖2 在解碼時進行知識篩選的TED模型[2]區別於TMN在編碼後進行知識篩選的做法,諾丁漢大學在CIKM 2019上提出的TED模型[2]在解碼階段對候選知識進行權重分配和篩選(如圖2)。
以文件為額外知識的生成式對話圖3 使用序列化知識篩選機制的SKT模型[4]Holl-E[3]是另一個適合用句子為單位融入知識的對話任務。它在文件中標註了對話過程中使用的知識span(句子or子句)。當使用標註資訊時,該任務可以看作是MC任務基礎上的一個擴充套件,即先挑選出合適的span,再基於這個span生成流暢的回覆。與WoW不同之處在於,Holl-E可以將文件拆分成句子,也可以選擇對文件直接進行建模。首爾國立大學的研究者在ICLR 2020上發表了SKT模型[4](如圖3),並在WoW和Holl-E上進行了實驗。作者認為在知識篩選的過程中需要逐步考慮對話歷史的影響,因此SKT使用序列化的知識篩選思路,讓模型根據對話的進行逐步修正要篩選的文件知識。
以文件為額外知識的生成式對話圖4 生成資訊可控的模型CbR[5]資料集與WoW不同,其對話中使用的文件知識可能是詞/片語/句子或者它們的組合,並且沒有標註。華盛頓大學和微軟的研究者們[6]認為雖然當前的多樣性強化和大規模引數技術有能力解決回覆資訊度的問題,但回覆包含的資訊可能是對話上下文無關或者虛假的。因此,作者首先使用規則抽取或者MC方法檢索出對話上下文和文件中共現的關鍵詞/片語,之後只將含有這些關鍵詞/片語的文件句子作為外部知識的候選,最後在GPT-2結構中利用這些共現關係簡化注意力操作(如圖4),從而控制有效的資訊用於回覆生成。

2.2 直接建模文件

以文件為額外知識的生成式對話圖5 遞進式編碼&雙層解碼的ITDD模型[8]類似於CbR,CMU_DoG[7]對話中使用的文件知識也是零散和未標註的。在面臨前面提到的文件知識定位困難問題時,如何進行知識篩選就順理成章地成為關注的焦點。例如在CMU_DoG資料上的ITDD模型[8](如圖5),利用Transformer結構將文件和對話遞進式地逐步建模並進行知識篩選;在回覆生成中,使用雙層的解碼器,第一層用於構建基礎回覆,第二層在基礎回覆中進一步加入文件資訊,以圖更好的知識利用效果。

以文件為額外知識的生成式對話圖6 使用主題轉移向量指導生成的GLKS模型[9]由山東大學和阿姆斯特丹大學研究者們合作發表在AAAI 2020上的GLKS模型[9]模型(如圖6)在Holl-E資料上進行知識篩選。模型在對輸入資訊(對話和文件)進行互動後採用一種全域性指導區域性的思路,使用對話歷史從文件中篩選出重要的n-gram資訊(圖中的Topic Transition Vector)來指導後續的生成過程。

2.3 文件結構化處理

以文件為額外知識的生成式對話圖7 將非結構化文件嵌入到結構化圖譜中的AKGCM模型[10]將非結構化文字與結構化知識相結合,利用結構化知識易於推理的優勢輔助對話任務的研究已經有一定基礎。這類做法通常有兩個關鍵點:一是如何將非結構化文字結構化;二是如何利用構建好的結構化知識。在基於文件的對話中,百度的研究者們在EMNLP 2019發表了AKGCM模型[10],它將Holl-E中的文件拆分為句子,根據句子包含的實體將其連結到知識圖譜的節點上,得到了增強的知識圖,在知識圖上利用強化學習進行推理找到構建回覆需要的資訊(如圖7)。
以文件為額外知識的生成式對話圖8 將文件處理成事件圖輔助對話連貫性的模型[11]此外,哈工大SCIR與百度合作發表在IJCAI 2020上的論文[11]提出一種提取文件中基於謂詞的事件,構建事件圖,透過強化學習在事件圖上進行推理的方法。選擇符合對話邏輯的事件節點進行回覆生成,可以保證對話的連貫性(如圖8)。

3. 未來挑戰

該研究領域目前面臨的挑戰有:

  1. 文件知識的有效利用。直接對長文件建模導致資訊提取困難,而將文件拆分為句子破壞了文件結構和句子間的語義聯絡。如何更有效地提取文件知識,是當前最直接的一個挑戰。

  2. 對話質量的自動評價問題。當前的自動評價指標無法反映對話質量的好壞,而人工評價方法代價過高,這個現狀限制了開放域對話系統研究的發展。我們需要一種代價低廉,並且能夠與人工評價保持一致的自動評價方式。這個評價方式需要結合對話的目的,評價對話的有趣程度、資訊含量、一致性等問題。

  3. 多媒體資源作為外部知識。將文字、圖片、影片等多媒體資源作為外部知識加入到對話中。雖然目前有一些基於圖片/影片的對話資料,但其任務的定義通常不滿足開放域的要求,規模和數量上也仍然不足。

  4. 終身學習問題。對話系統能否持續地利用與外部資源的互動進行自身的更新和最佳化,能否利用已得到的“技能”融合不同結構的資源,是該領域的一個未來挑戰。

4. 總結

本文介紹了以非結構化文件為外部知識的對話研究,從如何處理文件的角度介紹了三類不同的處理方式和研究成果,最後列舉了當前面臨的一些挑戰。隨著訓練資源的增加和多媒體資源的開發,利用外部知識的對話研究在未來將會得到更多的關注。

參考文獻

[1]

Emily Dinan, Stephen Roller, Kurt Shuster, Angela Fan, Michael Auli, Jason Weston. Wizard of Wikipedia: Knowledge-Powered Conversational Agents. ICLR 2019.

[2]

Wen Zheng, Ke Zhou: Enhancing Conversational Dialogue Models with Grounded Knowledge. CIKM 201.

[3]

Nikita Moghe, Siddhartha Arora, Suman Banerjee, Mitesh M. Khapra. Towards Exploiting Background Knowledge for Building Conversation Systems. EMNLP 2018

[4]

Byeongchang Kim, Jaewoo Ahn, Gunhee Kim: Sequential Latent Knowledge Selection for Knowledge-Grounded Dialogue. ICLR 2020.

[5]

Lianhui Qin, Michel Galley, Chris Brockett, Xiaodong Liu, Xiang Gao, Bill Dolan, Yejin Choi, Jianfeng Gao. Conversing by Reading: Contentful Neural Conversation with On-demand Machine Reading. ACL 2019.

[6]

Zeqiu Wu, Michel Galley, Chris Brockett, Yizhe Zhang, Xiang Gao, Chris Quirk, Rik Koncel-Kedziorski, Jianfeng Gao, Hannaneh Hajishirzi, Mari Ostendorf, Bill Dolan. A Controllable Model of Grounded Response Generation. CoRR 2020.

[7]

Kangyan Zhou, Shrimai Prabhumoye, Alan W. Black. A Dataset for Document Grounded Conversations. EMNLP 2018.

[8]

Zekang Li, Cheng Niu, Fandong Meng, Yang Feng, Qian Li, Jie Zhou. Incremental Transformer with Deliberation Decoder for Document Grounded Conversations. ACL 2019.

[9]

Pengjie Ren, Zhumin Chen, Christof Monz, Jun Ma, Maarten de Rijke. Thinking Globally, Acting Locally: Distantly Supervised Global-to-Local Knowledge Selection for Background Based Conversation. AAAI 2020.

[10]

Zhibin Liu, Zheng-Yu Niu, Hua Wu, Haifeng Wang. Knowledge Aware Conversation Generation with Explainable Reasoning over Augmented Graphs. EMNLP-IJCNLP 2019.

[11]

Jun Xu, Zeyang Lei, Haifeng Wang, Zheng-Yu Niu, Hua Wu, Wanxiang Che. Enhancing Dialog Coherence with Event Graph Grounded Content Planning. IJCAI 2020.

本期責任編輯:崔一鳴

本期編輯:顧宇軒

相關文章