基於動態圖互動網路的多意圖口語語言理解框架

哈工大SCIR發表於2020-12-10

論文名稱:AGIF: An AdaptiveGraph-Interactive Framework for Joint Multiple Intent Detection and SlotFilling

論文作者:覃立波,徐嘯,車萬翔,劉挺

原創作者:覃立波

論文連結:https://www.aclweb.org/anthology/2020.findings-emnlp.163.pdf

程式碼連結:https://github.com/LooperXX/AGIF

轉載須標註出處:哈工大SCIR

1.    任務簡介

口語理解任務(Spoken Language Understanding,SLU)主要包括兩個子任務,意圖識別(intent detection)和槽位填充(slot filling)任務,如圖1所示。對於句子“watch action movie”,SLU任務識別該句子意圖為“WatchMovie”,填充句子中每一個單詞的槽位。

圖片

圖1 每句話屬於一個意圖,每個單詞屬於一個槽位 

2.    背景和動機

現有的模型採取聯合建模方式[1]-[5]去考慮槽位填充和意圖識別,已經取得了非常高的效能。但是,儘管取得較高的結果,現有的模型主要集中於關注單個意圖的口語語言理解任務,這無法解決一句話中存在多個意圖的情況。實際上,Gangadharaiah[6]指出,在亞馬遜內部的資料集中有52%的句子包含多個意圖。因此,構建一個多意圖SLU系統在實際應用中是十分重要的。

不同於單意圖SLU聯合建模模型,如何有效利用多個意圖資訊去指導槽位填充是一個具有挑戰的問題。Gangadharaiah 提出使用slot-gated機制去利用一個整體的向量來代表多個意圖師兄進行指導槽位填充。

儘管這是一種非常簡單直接的利用多個意圖資訊方法,但它沒有為槽位填充任務提供細粒度的意圖資訊指導,因為每個單詞都由相同的意圖資訊指導,如圖2(a)所示。此外,為所有單詞提供相同的意圖資訊可能會引入歧義,每個單詞很難捕獲相關的意圖資訊。如圖2(b)所示,這些單詞“生日快樂”應該集中於意圖“PlayMusic”,而令牌“deepwater bonaire”則取決於意圖“GetWeather”。因此,每個單詞都應該關注於相應的意圖,對於單詞級別的槽位填充,進行細粒度的意圖資訊整合至關重要。

圖片

圖2 (a)前人方法將多個意圖資訊看做一個整體的意圖向量進行指導和我們提出的細粒度多意圖資訊指導方法 (b)

為了解決這個問題,在本文中,我們提出了一個自適應的圖互動框架(AGIF)來解決上述問題。核心模組是提出的自適應意圖-槽位互動層。在這個圖中,每個槽位節點直接連線所有預測的意圖節點,用來顯式地建模槽位和意圖之間的聯絡。這個互動圖能被動態的應用於每個槽位,使得每個槽位能夠捕獲不同的相關意圖資訊,從而實現細粒度的多意圖資訊整合。與以往的工作簡單地靜態地合併多個意圖資訊,並使用相同的意圖資訊來指導所有單詞不同,我們的意向-槽位互動圖是動態構建的,每個單詞上都有互動網路,這可以鼓勵模型自動過濾無關意圖資訊並捕獲重要相關的意圖。

3. 框架

模型框架如圖3所示:主要包括一個共享的自我注意力編碼層,一個意圖識別解碼器,一個槽位填充解碼器,以及一個自適應的意圖-槽位互動層。

圖片

圖3 主模型框架

3.1 自我注意力機制的編碼器

對於輸入序列基於動態圖互動網路的多意圖口語語言理解框架首先透過BiLSTM [7] 得到隱層表示。為了捕獲單詞之間的上下文資訊,我們對於輸入序列採用自我注意力機制獲得相關表示C,公式如下:

圖片

最後我們將H和C進行連線,得到我們最後的編碼表示E。

3.2 意圖分類

在本文中,我們將意圖分類建模為一種多標籤分類問題,對於句子編碼表示基於動態圖互動網路的多意圖口語語言理解框架,首先利用自我注意機制該句話的句子表示c,公式如下:

圖片

其中基於動態圖互動網路的多意圖口語語言理解框架是可學習引數。最終對c進行多標籤分類得到結果 (n代表預測的意圖個數)。例如,預測的多標籤結果為 (0.9, 0.3, 0.6, 0.7, 0.2),閾值為0.5,則最終的意圖預測結果為I = (1,3,4)。

3.3 動態互動網路指導的槽位填充

對於槽位填充任務,我們使用一個單向LSTM網路來進行建模,每個位置的狀態表示為:

圖片

而不是簡單的使用基於動態圖互動網路的多意圖口語語言理解框架進行槽位預測,我們建立了一個意圖-槽點陣圖互動網路去建模當前槽位與多個意圖之間的互動,來捕獲相關的意圖資訊,具體而言,我們使用圖注意力網路(圖中包含當期時刻的槽位狀態向量和預測出的多個意圖向量結點)去進行建模,最終進行L層互動後的表示基於動態圖互動網路的多意圖口語語言理解框架代表已經融入了相關意圖的資訊,用來進行槽位填充:

圖片

對於意圖識別和槽位填充任務,我們採用了聯合建模方法來進行建模。

4. 實驗

4.1 資料集

我們在DSCT4 [8]和利用啟發式規則構造的MixATIS和MixSNIPS進行了實驗。

4.2 主實驗結果

我們對比了SLU上的SOTA模型,我們的模型(AGIF)基本上在所有指標超過了其他模型,達到新的SOTA結果,驗證了我們模型的有效性。

表1 主實驗結果

圖片

圖片

4.3 消融實驗

表2 消融實驗結果

圖片

1. Vanilla Attention Interaction代表利用vanilla attention機制進行意圖和槽位互動。

2. GCN-based Interaction代表使用GCN而不是GAT進行圖互動。

3. Sentence-Level Augmented 代表首先整合多個意圖資訊到一個向量,然後對每個單詞進行相同意圖向量的指導。

從表中結果可以分析得出,AGIF模型的每一個模組都對實驗結果產生了有用的效果。

4.4 視覺化分析

圖片

圖4 視覺化分析

從視覺化結果可以看出,模型在不同單詞成功捕獲到了該單詞相關的意圖資訊。比如播放列表單詞clasica在意圖AddToPlaylist的顏色比GetWeather深,說明模型在單詞clasica正確學到更多的關注AddToPlaylist意圖。

5. 結論

在本文中,我們提出了一個單詞級自適應圖互動網路來建模每個單詞與多個意圖互動,從而為槽位預測提供細粒度的意圖資訊。在三個資料集上的實驗表明了所提出模型的有效性,並達到了SO他的效能。

參考文獻

[1] Xiaodong Zhang and Houfeng Wang. 2016. A joint model of intent determination and slot filling for spoken language understanding. IJCAI2016.

[2] Chih-Wen Goo, Guang Gao, Yun-Kai Hsu, Chih-Li Huo, Tsung-Chieh Chen, Keng-Wei Hsu, and Yun-Nung Chen. 2018. Slot-gated modeling for joint slot filling and intent prediction. NAACL 2018.

[3] Bing Liu and Ian Lane. 2016. Attention-based recur-rent neural network models for joint intent detection and slot filling. arXiv preprint arXiv:1609.01454.

[4] Changliang Li, Liang Li, and Ji Qi. 2018. A self-attentive model with gate mechanism for spoken lan-guage understanding. EMNLP2018.

[5] Libo Qin, Wanxiang Che, Yangming li, Haoyang Wen and Ting Liu. A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding EMNLP2019.

[6] Rashmi Gangadharaiah and Balakrishnan Narayanaswamy. Joint Multiple Intent Detection and Slot Labeling for Goal-Oriented Dialog NAACL2019.

[7] Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8).

[8] Byeongchang Kim, Seonghan Ryu, and Gary Geunbae Lee. 2017a. Two-stage multi-intent detection for spoken language understanding. Multimedia Tools and Applications, 76(9):11377–11390.

相關文章