合適的資料集或者語料是優秀的自然語言研究工作的基礎,然而找尋合適的資料集通常是一件耗時耗力的工作。這時候一份優質的資料集彙總就能幫助科研人員,在研究開始的時候事半功倍。這篇文章就向你介紹一份優質的資料集彙總,幫助你的研究工作輕鬆選擇一片合適的用武之地。
本文主要介紹由我研究中心博士生侯宇泰收集整理的一個任務型對話資料集大全。
圖1. 資料集彙總專案
這份資料集大全涵蓋了到目前在任務型對話領域的所有常用資料集的主要資訊。此外,為了幫助研究者更好的把握領域進展的脈絡,我們以Leaderboard的形式給出了幾個資料集上的State-of-the-art實驗結果。
資料集的地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey
一.背景介紹:什麼是任務型對話
我們收集的資料集主要針對任務型對話研究(Task-oriented Dialogue)。
任務型對話系統指在特定的情境下幫助使用者完成特定任務的對話服務系統,例如幫助使用者訂餐、訂酒店的對話系統。近年來,隨著亞馬遜Alex,微軟小娜,蘋果Siri等個人語音助理業務的興起,基於對話的人機互動方式得到了廣泛的關注,相關的研究也越來越多,儼然成為一個富有潛力的研究方向。
圖2. 語音助手
目前任務型對話的研究可以大體分為兩類:基於流程的任務型對話(Pipeline)以及端到端的任務型對話(End-to-End)。
基於流程的任務型對話是相對較為傳統的方法。這種任務型對話的系統通過一套Pipeline流程實現。如圖3所示, 任務型對話系統的流程依次包括:自然語言理解、對話狀態跟蹤、對話策略學習,自然語言生成模組。具體的,使用者輸入自然語言,對話系統按流程依次完成:分析使用者意圖,更新對話狀態,根據對話策略做出動作,生成最終的自然語言回覆。
圖3. Pipeline任務型對話
然而,Pipeline流程式的對話系統存在錯誤級聯和標註開銷大的問題,為此最近有一部分研究嘗試通過直接進行端到端的任務型對話學習來規避這些問題。端到端式對話系統根據使用者輸入句子直接給出自然語言回覆。
二.為什麼要做資料集彙總?
任務型對話任務並不是新課題,但是針對任務型對話的廣泛研究在最近幾年才興起。任務型對話研究的方興未艾反映在資料和語料上,就是目前現有的任務型對話資料集數量少,且其他成熟的任務已有的資料集在資料量上要少的多。 在這種情況下,儘可能多找到並有效的利用已有的資料資源就成為開展研究的關鍵之一。然而,蒐羅並全面的尋找合適的資料集是一個費時費力的工作,所以整理統計目前已有的任務型對話領域的資料集的資訊是有必要的,可以極大地為相關研究工作提供便利,讓研究工作得以地快速開始。
除了資料本身的資訊有價值之外,在重要資料集上的實驗結果提升過程,可以很大程度上反映自然語言研究的前進脈絡。所以,簡單的資料集資訊羅列並不能讓我們滿意,我們還計劃提供一些常用資料上的實驗結果和對應論文的資訊。從而幫助研究人員瞭解和把握任務型對話領域研究的推進脈絡。我們選擇以Leaderboard的形式呈現資料集上的部分實驗結果。
三.資料彙總的內容介紹
1.資料集資訊
針對每個資料集,我們統計並總結了如下幾個方面的內容。
表1. 資料集內容及說明
內容 | 說明 |
---|---|
Name | 資料集名稱 |
Introduction | 資料集簡介 |
Link (Download & Paper) | 資料下載連結和對應論文的連結 |
Multi or single turn | 對話資料是多輪還是單輪 |
Task | 對話資料是否為任務型對話 |
Task detail | 對話資料取自什麼應用情景,如訂餐,導航等 |
Whether Public Accessible | 是否可以免費下載 |
Size & Stats | 資料量、標註量統計 |
Included Label | 資料包括的標註型別 |
Missing Label | 資料缺失的標註型別 |
類似其他常見資料集彙總工作,我們為每個資料集提供了名稱,下載連結,簡介,資料量等資訊。除了這些基本資訊,我們還涵蓋了一些任務型對話資料的特有的研究內容,例如:
Multi or single turn:對話資料是多輪還是單輪是任務型對話資料的重要屬性,單輪對話資料往往用於自然語言理解任務,多輪對話資料往往用於端到端任務、對話策略學習、對話狀態跟蹤。
Task detail:資料適用於什麼應用情景也是一個獨特的關鍵資訊,通過這個資訊,研究者可以快速理解資料,開展Multi-domain 或Domain-transfer研究。
2. 實驗結果Leaderboard
對於一些研究常用資料,我們提供了上面的一些State-of-the-art實驗結果,並以Leaderboard的形式呈現,具體包括內容如下:
表2. Leaderboard內容及說明
內容 | 說明 |
---|---|
Model | 模型的名稱 |
Score | 主要實驗結果,F1分數,準確率等 |
Paper/Source | 模型對應論文的名稱和連結 |
其中我們的模型名稱採用出處論文中的表述,分數的評價指標以具體的任務而定。實驗結果列表配合上論文連結,可以讓讀者快速地瞭解一個任務。
此項資訊內容仍在完善中。
四.資料集彙總內容樣例
1. 資料集介紹樣例
資料集的彙總目前以表格的形式,收錄了17個資料的細節資訊。讀者可以在github專案中Excel檔案或者Readme中直接檢視。資料的格式如圖4所示。
圖4. 資料細節樣例
2. Leaderboard 樣例
我們以Leaderboard 的形式展示了語義槽抽取(Slot filling),使用者意圖識別(Intent detection),對話狀態跟蹤(Dialogue state tracking)三個任務上的一些領先結果。具體形式如圖5所示。
圖5. Leaderboard的樣例
五.關於內容補充的邀請
我們歡迎各種形式的內容完善,包括但不限於:
直接提交Pull Request
向我們傳送新資料
向我們傳送新的實驗結果(已發表論文)
六.其他
資料集彙總地址如下:
https://github.com/AtmaHou/Task-Oriented-Dialogue-Dataset-Survey