基於動態圖互動網路的多意圖口語語言理解框架

哈工大SCIR發表於2020-12-10

原文網址 : https://www.jiqizhixin.com/articles/2020-12-10-2

論文名稱：AGIF: An AdaptiveGraph-Interactive Framework for Joint Multiple Intent Detection and SlotFilling
論文作者：覃立波，徐嘯，車萬翔，劉挺
原創作者：覃立波
論文連結：https://www.aclweb.org/anthology/2020.findings-emnlp.163.pdf
程式碼連結：https://github.com/LooperXX/AGIF
轉載須標註出處：哈工大SCIR

1. 任務簡介

口語理解任務（Spoken Language Understanding，SLU）主要包括兩個子任務，意圖識別（intent detection）和槽位填充（slot filling）任務，如圖1所示。對於句子“watch action movie”，SLU任務識別該句子意圖為“WatchMovie”，填充句子中每一個單詞的槽位。

圖1 每句話屬於一個意圖，每個單詞屬於一個槽位

2. 背景和動機

現有的模型採取聯合建模方式[1]-[5]去考慮槽位填充和意圖識別，已經取得了非常高的效能。但是，儘管取得較高的結果，現有的模型主要集中於關注單個意圖的口語語言理解任務，這無法解決一句話中存在多個意圖的情況。實際上，Gangadharaiah[6]指出，在亞馬遜內部的資料集中有52%的句子包含多個意圖。因此，構建一個多意圖SLU系統在實際應用中是十分重要的。

不同於單意圖SLU聯合建模模型，如何有效利用多個意圖資訊去指導槽位填充是一個具有挑戰的問題。Gangadharaiah 提出使用slot-gated機制去利用一個整體的向量來代表多個意圖師兄進行指導槽位填充。

儘管這是一種非常簡單直接的利用多個意圖資訊方法，但它沒有為槽位填充任務提供細粒度的意圖資訊指導，因為每個單詞都由相同的意圖資訊指導，如圖2（a）所示。此外，為所有單詞提供相同的意圖資訊可能會引入歧義，每個單詞很難捕獲相關的意圖資訊。如圖2（b）所示，這些單詞“生日快樂”應該集中於意圖“PlayMusic”，而令牌“deepwater bonaire”則取決於意圖“GetWeather”。因此，每個單詞都應該關注於相應的意圖，對於單詞級別的槽位填充，進行細粒度的意圖資訊整合至關重要。

圖2 (a)前人方法將多個意圖資訊看做一個整體的意圖向量進行指導和我們提出的細粒度多意圖資訊指導方法 (b)

為了解決這個問題，在本文中，我們提出了一個自適應的圖互動框架（AGIF）來解決上述問題。核心模組是提出的自適應意圖-槽位互動層。在這個圖中，每個槽位節點直接連線所有預測的意圖節點，用來顯式地建模槽位和意圖之間的聯絡。這個互動圖能被動態的應用於每個槽位，使得每個槽位能夠捕獲不同的相關意圖資訊，從而實現細粒度的多意圖資訊整合。與以往的工作簡單地靜態地合併多個意圖資訊，並使用相同的意圖資訊來指導所有單詞不同，我們的意向-槽位互動圖是動態構建的，每個單詞上都有互動網路，這可以鼓勵模型自動過濾無關意圖資訊並捕獲重要相關的意圖。

3. 框架

模型框架如圖3所示：主要包括一個共享的自我注意力編碼層，一個意圖識別解碼器，一個槽位填充解碼器，以及一個自適應的意圖-槽位互動層。

圖3 主模型框架

3.1 自我注意力機制的編碼器

對於輸入序列基於動態圖互動網路的多意圖口語語言理解框架首先透過BiLSTM [7] 得到隱層表示。為了捕獲單詞之間的上下文資訊，我們對於輸入序列採用自我注意力機制獲得相關表示C，公式如下：

最後我們將H和C進行連線，得到我們最後的編碼表示E。

3.2 意圖分類

在本文中，我們將意圖分類建模為一種多標籤分類問題，對於句子編碼表示基於動態圖互動網路的多意圖口語語言理解框架，首先利用自我注意機制該句話的句子表示c，公式如下：

其中基於動態圖互動網路的多意圖口語語言理解框架是可學習引數。最終對c進行多標籤分類得到結果 (n代表預測的意圖個數)。例如，預測的多標籤結果為 (0.9, 0.3, 0.6, 0.7, 0.2)，閾值為0.5，則最終的意圖預測結果為I = (1,3,4)。

3.3 動態互動網路指導的槽位填充

對於槽位填充任務，我們使用一個單向LSTM網路來進行建模，每個位置的狀態表示為：

而不是簡單的使用基於動態圖互動網路的多意圖口語語言理解框架進行槽位預測，我們建立了一個意圖-槽點陣圖互動網路去建模當前槽位與多個意圖之間的互動，來捕獲相關的意圖資訊，具體而言，我們使用圖注意力網路(圖中包含當期時刻的槽位狀態向量和預測出的多個意圖向量結點)去進行建模，最終進行L層互動後的表示基於動態圖互動網路的多意圖口語語言理解框架代表已經融入了相關意圖的資訊，用來進行槽位填充：

對於意圖識別和槽位填充任務，我們採用了聯合建模方法來進行建模。

4. 實驗

4.1 資料集

我們在DSCT4 [8]和利用啟發式規則構造的MixATIS和MixSNIPS進行了實驗。

4.2 主實驗結果

我們對比了SLU上的SOTA模型，我們的模型（AGIF）基本上在所有指標超過了其他模型，達到新的SOTA結果，驗證了我們模型的有效性。

表1 主實驗結果

4.3 消融實驗

表2 消融實驗結果

1. Vanilla Attention Interaction代表利用vanilla attention機制進行意圖和槽位互動。

2. GCN-based Interaction代表使用GCN而不是GAT進行圖互動。

3. Sentence-Level Augmented 代表首先整合多個意圖資訊到一個向量，然後對每個單詞進行相同意圖向量的指導。

從表中結果可以分析得出，AGIF模型的每一個模組都對實驗結果產生了有用的效果。

4.4 視覺化分析

圖4 視覺化分析

從視覺化結果可以看出，模型在不同單詞成功捕獲到了該單詞相關的意圖資訊。比如播放列表單詞clasica在意圖AddToPlaylist的顏色比GetWeather深，說明模型在單詞clasica正確學到更多的關注AddToPlaylist意圖。

5. 結論

在本文中，我們提出了一個單詞級自適應圖互動網路來建模每個單詞與多個意圖互動，從而為槽位預測提供細粒度的意圖資訊。在三個資料集上的實驗表明了所提出模型的有效性，並達到了SO他的效能。

參考文獻

[1] Xiaodong Zhang and Houfeng Wang. 2016. A joint model of intent determination and slot ﬁlling for spoken language understanding. IJCAI2016.

[2] Chih-Wen Goo, Guang Gao, Yun-Kai Hsu, Chih-Li Huo, Tsung-Chieh Chen, Keng-Wei Hsu, and Yun-Nung Chen. 2018. Slot-gated modeling for joint slot ﬁlling and intent prediction. NAACL 2018.

[3] Bing Liu and Ian Lane. 2016. Attention-based recur-rent neural network models for joint intent detection and slot ﬁlling. arXiv preprint arXiv:1609.01454.

[4] Changliang Li, Liang Li, and Ji Qi. 2018. A self-attentive model with gate mechanism for spoken lan-guage understanding. EMNLP2018.

[5] Libo Qin, Wanxiang Che, Yangming li, Haoyang Wen and Ting Liu. A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding EMNLP2019.

[6] Rashmi Gangadharaiah and Balakrishnan Narayanaswamy. Joint Multiple Intent Detection and Slot Labeling for Goal-Oriented Dialog NAACL2019.

[7] Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8).

[8] Byeongchang Kim, Seonghan Ryu, and Gary Geunbae Lee. 2017a. Two-stage multi-intent detection for spoken language understanding. Multimedia Tools and Applications, 76(9):11377–11390.

基於圖神經網路的動態物化檢視管理
2023-12-29
神經網路
英語及口語學習路線圖
2024-09-23
Python 語言特性：編譯+解釋、動態型別語言、動態語言
2021-04-26
Python編譯型別
基於 Canvas 的 HTML5 互動式地鐵線路圖
2019-03-08
CanvasHTML
基於HTML5Canvas的互動式地鐵線路圖
2018-06-14
HTMLCanvas
以太坊Solidity程式語言開發框架————7、合約互動
2018-07-13
Solid框架
理解基於意圖的網路的關鍵趨勢
2019-01-31
計算機語言：編譯型/解釋型、動態語言/靜態語言、強型別語言/弱型別語言
2019-01-22
計算機編譯型別
NeurIPS 2020 | 生成式的基於動態圖網路學習的三維部件拼裝
2020-10-15
小白學PyTorch 動態圖與靜態圖的淺顯理解
2020-08-23
PyTorch
物聯網嵌入式高階C語言流行框架、學習路線圖
2019-11-28
C語言框架
基於 EventBridge + DashVector 打造 RAG 全鏈路動態語義檢索能力
2024-11-05
C語言截圖
2018-09-26
C語言
基於go語言gin框架的web專案骨架
2023-09-24
Go框架Web
基於Dart語言的開源後端框架：Upper
2021-08-22
Dart後端框架
ICML 2024 | 人物互動影像，現在更懂你的提示詞了，北大推出基於語義感知的人物互動影像生成框架
2024-08-08
框架
如何使用java語言優雅的與Linux互動
2020-03-15
JavaLinux
【Go語言繪圖】圖片的旋轉
2020-12-16
Go繪圖
Go 語言進階學習路線圖
2020-06-08
Go
自然語言處理（NLP）路線圖 - kdnuggets
2020-11-08
自然語言處理
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
基於GO語言框架Gin開發的MVC輪子框架：GinLaravel
2021-04-27
Go框架MVCLaravel
基於課程學習（Curriculum Learning）的自然語言理解
2020-11-13
概念區別【編譯型語言與解釋型語言、動態型別語言與靜態型別語言、強型別語言與弱型別語言】
2020-09-24
編譯型別
Text2Cypher：大語言模型驅動的圖查詢生成
2023-09-19
模型
語音互動的前世今生
2018-06-12
R語言：畫樹圖
2018-09-22
R語言
融入語音互動技術，搜狗地圖釋出智慧副駕
2018-03-08
地圖
動態圖
2024-03-13
C語言動態陣列小作業
2019-02-19
C語言陣列
動態語言常用操作-python、JavaScript、flutter(dartf)
2024-07-25
PythonJavaScriptFlutterDart
最新Go語言學習路線圖帶你通關Go語言-千鋒
2019-12-09
Go
圖：程式語言的建立者們
2024-06-26
GitHub - nx10/httpgd: 用於R語言的基於web的SVG圖形裝置
2020-06-20
GithubHTTPR語言WebSVG
用圖網路幫機器人「拼傢俱」，北大、史丹佛NeurIPS論文提出基於動態圖網路學習的三維部件拼裝
2020-10-15
機器人
什麼是靜態語言和動態語言。史上秒懂的大白話翻譯。
2019-10-29
【D3.js 入門系列二】理解 Update && Enter && Exit、製作互動式動態圖表
2018-03-13
JS
【Go語言繪圖】圖片新增文字（二）
2021-08-01
Go繪圖

基於動態圖互動網路的多意圖口語語言理解框架

相關文章