前言
本文主要整理對話生成領域相關的資料集,尤其是開放域對話生成。當前可以把開放域對話生成任務劃分為:傳統開放域對話生成、多模態對話生成、情感對話生成、個性化對話生成、策略控制對話生成等。筆者的劃分是根據自己對該任務研究進展梳理而得到的理解,並不一定合理。
用於對話理解的對話資料集
IEMOCAP
釋出時間:2008年
論文連結:https://link.springer.com/article/10.1007/s10579-008-9076-6
資料集連結:https://sail.usc.edu/iemocap/
資料集語言:英文
資料集模態:視訊、音訊、文字
資料集描述:IEMOCAP主要用於對話情感識別,包含151個對話、7433個語句、10個對話角色、10種情感標籤。
SEMAINE
釋出時間:2012年
論文連結:https://ieeexplore.ieee.org/document/5959155
資料集連結:https://semaine-db.eu/
資料集語言:英文
資料集模態:視訊、音訊、文字
資料集描述:SEMAINE主要用於對話情感識別,由四個固定形象的機器人與人進行對話,標註了4個情感維度:Valence (愉悅度), Arousal (啟用度), Expectancy (預期), Power (力量)。Valence表示情感積極的程度,Arousal表示興奮的程度,Expectancy表示與預期相符的程度,Power表示情感影響力。其中Valence、Arousa和Expectancy為[-1, 1]範圍內的連續值,Power為大於等於0的連續值。
Mastodon
釋出時間:2018年
論文連結:https://www.aclweb.org/anthology/C18-1063/
資料集連結:https://github.com/cerisara/DialogSentimentMastodon
資料集語言:英文
資料集模態:文字
資料集描述:Mastodon主要用於對話當中的情感與對話動作(DA)識別,尤其是聯合識別任務。它包括535個對話、2217個語句,標註了3大類情感標籤、27類對話動作(DA)。
MELD
釋出時間:2019年
論文連結:https://www.aclweb.org/anthology/P19-1050
資料集連結:https://affective-meld.github.io/
資料集語言:英文
資料集模態:視訊、音訊、文字
資料集描述:MELD主要用於對話中的情感識別,也有部分論文將其用於情感對話生成或者多模態對話生成。它包括1433個對話、13708個語句,提供了3大類粗粒度情感標籤以及7種細粒度情感標籤。視訊被切割成按語句劃分的短視訊,可以通過語句索引獲得該語句對應的視訊。
EMOTyDA
釋出時間:2020年
論文連結:https://www.aclweb.org/anthology/2020.acl-main.402/
資料集連結:https://github.com/sahatulika15/EMOTyDA
資料集語言:英文
資料集模態:視訊、音訊、文字
資料集描述:EMOTyDA是一個類似於Mastodon的對話資料集,它主要整理了IEMOCAP以及MELD資料集,並且增加了12種常見的對話動作標籤,最終包括了1341個對話以及19365個對話語句。可以用於情感和DA的聯合識別任務。
MEmoR
釋出時間:2020年
論文連結:https://dl.acm.org/doi/10.1145/3394171.3413909
資料集連結:https://github.com/sunlightsgy/MEmoR
資料集語言:英文
資料集模態:視訊、音訊、文字
資料集描述:MEmoR資料集主要用於多模態情感推理(ER),包括8536個對話以及22732個語句,提供了14種情感標籤並且對64個說話人標註了16PF、Big Five、MBTI三種個性特質用於輔助情感推理。我認為該資料集還可以用於情感對話或者個性化對話任務。
M$^3$ED
釋出時間:2022年
論文連結:https://aclanthology.org/2022.acl-long.391/
資料集連結:https://github.com/aim3-ruc/rucm3ed
資料集語言:中文
資料集模態:視訊、音訊、文字
資料集描述:與MELD資料集類似,但其資料來源於56部電視劇,人物更加豐富。文章構建了一個大規模高質量的多模態、多場景、多標籤情感對話資料集,從56部中文電視劇,大約500集中選取900多個對話片段,並對對話中的每句話進行多情感標籤的標註,共標註24,449句話。文章採用主流的6類基本情感標註(高興、驚訝、傷心、生氣、厭惡,害怕)以及正常無明顯情感,共7類離散情感。從資料來源選取,對話片段選取,情感標註,標註後處理等方面進行嚴格把控,以保證資料的質量,最終得到標註者間一致性0.59,高於MELD 的0.43、IEMOCAP的0.48 以及MSP-IMPROV 中的0.49。
CPED
釋出時間:2022年
論文連結:https://arxiv.org/pdf/2205.14727v1.pdf
資料集連結:https://github.com/scutcyr/CPED
資料集語言:中文
資料集模態:視訊、音訊、文字
資料集描述:該資料集來自論文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人類的語言表達是基於對情景的主觀識解,而不是客觀的真實條件,這意味著說話人的個性和情感經過認知處理後對會話有著重要的影響。為了在會話生成過程中同時考慮個性和情感,CPED由與情感和個性相關的多源知識組成。這些知識包括性別、大五人格特徵、13種情緒、19種對話行為和10個場景,包含超過12K段對話,將給中文對話理解與生成領域提供一個更有挑戰性的任務。任務設定見https://paperswithcode.com/dataset/cped。
常規開放域對話資料集
OpenSubtitles
釋出時間:2009年
論文連結:http://www.lrec-conf.org/proceedings/lrec2016/pdf/947_Paper.pdf
資料集連結:http://nlp.stanford.edu/data/OpenSubData.tar
資料集連結2:https://opus.nlpl.eu/OpenSubtitles-v2018.php
資料集語言:多語言(62種語言)
資料集模態:文字
資料集描述:OpenSubtitles主要用於開放域對話生成,包含2.6 billion語句。
Cornell Movie-Dialogs
釋出時間:2011年
論文連結:https://www.aclweb.org/anthology/W11-0609/
資料集連結:http://www.cs.cornell.edu/~cristian/Cornell_Movie-Dialogs_Corpus.html
資料集語言:英文
資料集模態:文字
資料集描述:Cornell Movie-Dialogs包含從原始電影指令碼中提取的大量後設資料豐富的虛構對話集合,10,292 對電影角色之間的 220,579 次對話交流, 涉及 617 部電影中的 9,035 個角色,總共 304,713 條話語。
STC
釋出時間:2015年
論文連結:https://www.aclweb.org/anthology/P15-1152/
資料集連結:https://coai-dataset.oss-cn-beijing.aliyuncs.com/STC-corpus.zip
資料集語言:中文
資料集模態:文字
資料集描述:STC是從微博爬取的語料構造的短文字對話(Short-Text Conversation)資料集,包含4.4 million個對話,。這裡的資料集下載連結來自專案CDial-GPT。
Ubuntu Dialogue Corpus
釋出時間:2015年
論文連結:https://www.aclweb.org/anthology/W15-4640/
資料集連結:https://github.com/rkadlec/ubuntu-ranking-dataset-creator
資料集語言:英文
資料集模態:文字
資料集描述:該資料集包含930,000個對話,7,100,000個語句,平均對話輪次為7.71輪,常用於開放域對話生成。
Douban Conversation Corpus
釋出時間:2017年
論文連結:https://www.aclweb.org/anthology/P17-1046/
資料集連結:https://github.com/MarkWuNLP/
資料集語言:中文
資料集模態:文字
資料集描述:Douban資料集主要爬取自中文豆瓣論壇,包含1.1M個對話,7.7M個語句。
LCCC
釋出時間:2020年
論文連結:https://arxiv.org/abs/2008.03946
資料集連結:https://github.com/thu-coai/CDial-GPT
資料集語言:中文
資料集模態:文字
資料集描述:LCCC資料集分為base和large兩個版本,主要用於預訓練大規模對話生成模型,其base版本包括了12M個對話,32.9M個對話語句。
OpenViDial
釋出時間:2020年
論文連結:https://arxiv.org/abs/2012.15015
資料集連結:https://github.com/ShannonAI/OpenViDial
資料集語言:英文
資料集模態:影像、文字
資料集描述:OpenViDial 中的資料來自電影與電視劇,使用 OCR 從視訊中抽取出對話文字,並配以當前對話所在的影像,因此,每一句話都有相應視覺背景,最終形成包含百萬餘條句子的大規模多模態對話資料集。其包含了1.1M個對話語句+視覺背景。
PchatbotW
釋出時間:2021年
論文連結:https://arxiv.org/abs/2009.13284
資料集連結:https://github.com/qhjqhj00/Pchatbot
資料集語言:中文
資料集模態:文字
資料集描述:PchatbotW主要從微博爬取得到,包括了139,448,339個對話、 278,896,678,並且提供了時間戳和使用者ID兩種個性資訊,可以隱式地建模說話者的個性。
WDC-Dialogue
釋出時間:2021年
論文連結:https://arxiv.org/pdf/2108.01547.pdf
資料集連結:https://github.com/thu-coai/EVA
資料集語言:中文
資料集模態:文字
資料集描述:這是一個超大規模的中文對話資料集,其平均輪次為2.1,所以我認為其是單輪對話資料集比較妥當。該資料集包括了1.4B個對話,以及3.0B個語句,其規模可以說是前所未有的大!
EVA2.0
釋出時間:2022年
論文連結:https://arxiv.org/pdf/2203.09313v1.pdf
資料集連結:https://github.com/thu-coai/EVA
資料集語言:中文
資料集模態:文字
資料集描述:這是WDC-Dialogue的升級版,包含0.4B個對話,1.1B個語句,與WDC-Dialogue相比,最後的資料集大小為原來的三分之一,但是資料質量提升了很多。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模態:
資料集描述:
情感對話資料集
DailyDialog
釋出時間:2017年
論文連結:https://www.aclweb.org/anthology/I17-1099/
資料集連結:http://yanran.li/dailydialog
資料集語言:英文
資料集模態:文字
資料集描述:DailyDialog主要包括13118個對話、102K個對話語句,標註了7種情感、4類對話動作(DA)以及10個對話主題。可以用於對話情感識別、對話動作識別任務,以及情感對話生成任務。
ESTC
釋出時間:2018年
論文連結:https://arxiv.org/abs/1704.01074
資料集連結:http://coai.cs.tsinghua.edu.cn/hml/challenge2017/
資料集語言:中文
資料集模態:文字
資料集描述:ESTC資料集是在STC資料集的基礎上,使用一個訓練好的文字情感分類器得到,通過文字情感分類器,自動標註了6類情感標籤,常用於中文情感對話生成任務。
EMPATHETICDIALOGUES
釋出時間:2019年
論文連結:https://www.aclweb.org/anthology/P19-1534/
資料集連結:https://github.com/facebookresearch/EmpatheticDialogues
資料集語言:英文
資料集模態:文字
資料集描述:EMPATHETICDIALOGUES主要用於共情對話生成,由25000個對話組成,提供了32種情感標籤。
ESConv
釋出時間:2021年
論文連結:https://arxiv.org/abs/2106.01144
資料集連結:https://github.com/thu-coai/Emotional-Support-Conversation
資料集語言:英文
資料集模態:文字
資料集描述:ESConv包括了1053個對話、31410個語句,提供了7種負向情緒、5個負向情緒問題以及8種情感支援策略。伴隨著該資料集誕生的是首次出現的情感支援對話(ESC)任務。
CPED
釋出時間:2022年
論文連結:https://arxiv.org/pdf/2205.14727v1.pdf
資料集連結:https://github.com/scutcyr/CPED
資料集語言:中文
資料集模態:視訊、音訊、文字
資料集描述:該資料集來自論文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人類的語言表達是基於對情景的主觀識解,而不是客觀的真實條件,這意味著說話人的個性和情感經過認知處理後對會話有著重要的影響。為了在會話生成過程中同時考慮個性和情感,CPED由與情感和個性相關的多源知識組成。這些知識包括性別、大五人格特徵、13種情緒、19種對話行為和10個場景,包含超過12K段對話,將給中文對話理解與生成領域提供一個更有挑戰性的任務。任務設定見https://paperswithcode.com/dataset/cped。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模態:
資料集描述:
個性對話資料集
PERSONA-CHAT
釋出時間:2018年
論文連結:https://www.aclweb.org/anthology/P18-1205/
資料集連結:https://github.com/facebookresearch/ParlAI/tree/master/projects/personachat
資料集語言:英文
資料集模態:文字
資料集描述:PERSONA-CHAT包括10981個對話以及164356個語句,由1155個人參與對話,每個人指定了至少5句profile句子表示其個性。
PersonalDialog
釋出時間:2019年
論文連結:https://arxiv.org/abs/1901.09672
資料集連結:https://github.com/silverriver/PersonalDilaog
Please contact [zhengyinhe1@163.com] for the PersonalDialog dataset
資料集語言:中文
資料集模態:文字
資料集描述:該資料集包括20.83M個對話、56.25M個句子,對於每個說話人,提供了5種個性特徵(Age, Gender, Location, Interest, self descriptions)。
CPED
釋出時間:2022年
論文連結:https://arxiv.org/pdf/2205.14727v1.pdf
資料集連結:https://github.com/scutcyr/CPED
資料集語言:中文
資料集模態:視訊、音訊、文字
資料集描述:該資料集來自論文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人類的語言表達是基於對情景的主觀識解,而不是客觀的真實條件,這意味著說話人的個性和情感經過認知處理後對會話有著重要的影響。為了在會話生成過程中同時考慮個性和情感,CPED由與情感和個性相關的多源知識組成。這些知識包括性別、大五人格特徵、13種情緒、19種對話行為和10個場景,包含超過12K段對話,將給中文對話理解與生成領域提供一個更有挑戰性的任務。任務設定見https://paperswithcode.com/dataset/cped。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模態:
資料集描述:
策略控制對話生成
PsyQA
釋出時間:2021年
論文連結:https://arxiv.org/abs/2106.01702
資料集連結:https://github.com/thu-coai/PsyQA
資料集語言:中文
資料集模態:文字
資料集描述:一個用於生成心理健康支援長篇諮詢文字的中文資料集,該資料集主要收集了壹心理社群的問答資料,標註了6種助人策略,總共包括了22346個問題以及56063個回覆。
待更新
釋出時間:
論文連結:
資料集連結:
資料集語言:
資料集模態:
資料集描述:
個性情感對話生成
任務描述見:https://paperswithcode.com/task/personalized-and-emotional-conversation
CPED
釋出時間:2022年
論文連結:https://arxiv.org/pdf/2205.14727v1.pdf
資料集連結:https://github.com/scutcyr/CPED
資料集語言:中文
資料集模態:視訊、音訊、文字
資料集描述:該資料集來自論文CPED: A Large-Scale Chinese Personalized and Emotional Dialogue Dataset for Conversational AI。人類的語言表達是基於對情景的主觀識解,而不是客觀的真實條件,這意味著說話人的個性和情感經過認知處理後對會話有著重要的影響。為了在會話生成過程中同時考慮個性和情感,CPED由與情感和個性相關的多源知識組成。這些知識包括性別、大五人格特徵、13種情緒、19種對話行為和10個場景,包含超過12K段對話,將給中文對話理解與生成領域提供一個更有挑戰性的任務。任務設定見https://paperswithcode.com/dataset/cped。