DSTC10開放領域對話評估比賽冠軍方法總結

美團技術團隊發表於2022-01-15
本文介紹了國際競賽DSTC10開放領域對話評估賽道的冠軍方法MME-CRS,該方法設計了多種評估指標,並利用相關性重歸一化演算法來整合不同指標的打分,為對話評估領域設計更有效的評估指標提供了參考。相關方法已同步發表在AAAI 2022 Workshop上。希望能給從事該技術領域工作的同學一些啟發或幫助。

1 背景

對話系統技術挑戰賽DSTC(The Dialog System Technology Challenge)由微軟、卡內基梅隆大學的科學家於2013年發起,旨在帶動學術與工業界在對話技術上的提升,在對話領域具有極高的權威性和知名度。對話系統挑戰賽今年已舉辦至第十屆(DSTC10),吸引了微軟、亞馬遜、卡內基梅隆大學、Facebook、三菱電子研究實驗室、美團、百度等全球知名企業、頂尖大學和機構同臺競技。

DSTC10共包含5個Track,每個Track包含某一對話領域的數個子任務。其中Track5 Task1 Automatic Open-domain Dialogue Evaluation較為系統全面地將開放領域對話的自動評估任務引入DSTC10比賽中。開放領域對話自動評估是對話系統的重要組成部分,致力於自動化地給出符合人類直覺的對話質量評估結果。相比於速度慢、成本高的人工標註,自動化評估方法可以高效率、低成本地對不同對話系統進行打分,有力促進了對話系統的發展。

不同於任務型對話有一個固定的優化目標,開放領域對話更接近人類真實的對話,評估難度更大,因而吸引了廣泛的關注。DSTC10 Track5 Task1比賽共包含14個驗證資料集(共包含37種不同的對話評估維度)和5個測試資料集(共包含11個評估維度)。美團語音團隊最終以平均0.3104的相關性取得了該比賽的第一名,該部分工作已完成一篇論文MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue,並收錄在AAAI2022 Workshop。

圖1 DSTC10對話系統挑戰賽

2 賽題簡介

開放領域對話評估比賽收集了對話領域論文中的經典資料集,包括14個驗證資料集(12個Turn-Level級別資料集和2個Dialog-Level級別資料集)和5個測試資料集。

資料集中的每個對話主要包含以下資訊:

  • Context:對話中的提問,或者說對話的上下文。
  • Response:針對Context的回覆,也即評估的具體物件;對話資料集中的Response一般由不同對話生成模型產生,如GPT-2和T5。
  • Reference:人工給出的針對Context的參考回答,一般為5條左右。

每個對話包含多個評估維度,如Context和Response的相關性,Response本身的流暢度等。每個資料集的評估維度不同,14個驗證集總共包含37種不同的評估維度,具體包含Overall、Grammar、Relevance、Appropriateness、Interesting等。每個評估維度都有人工標註的打分,打分從1到5,分數越高表示當前評估維度的質量越高。

驗證集和測試集的統計資訊如圖2和圖3所示:

圖2 DSTC10 Track5 Task1驗證集資料統計資訊

圖3 DSTC10 Track5 Task1測試集資料統計資訊

其中Turns表示對應資料集中的對話輪數;Qualities表示資料集中每個對話的評估維度,每個評估維度都有對應的人工標註打分;Annos表示每個資料集的標註量。

在該比賽中,每個資料集每個對話每個評估維度都有人工標註的打分,打分範圍一般為1到5,一般求均值用於相關性計算。參賽隊伍需要設計評估指標用於預測每個對話不同評估維度的打分。每個資料集的每個評估維度的預測打分會和人工標註的打分計算Spearman相關性,最後的比賽結果基於全部測試資料集的評估維度求均值。

3 現有方法和問題

3.1 現有方法

開放領域對話的自動評估方法主要分為三類。

Overlap-based方法

早期研究人員將對話系統中Reference和Response類比於機器翻譯中的原句和翻譯句,借鑑機器翻譯的評價指標來評估對話質量。Overlap-based方法計算對話中Response和Reference之間的詞重疊情況,詞重疊越高打分越高。經典方法包括BLEU[1]和ROUGE[2]等,其中BLEU根據精確率衡量評估質量,而ROUGE根據召回率衡量質量。Response的評估依賴於給定的Reference,而開放領域下合適的Response是無限的,因此,Overlap-based方法並不適用於開放領域對話評估。

Embedding-based方法

隨著詞向量和預訓練語言模型的快速發展,Embedding-based評估方法取得了不錯的效能。基於深度模型分別編碼Response和Reference,並基於二者的編碼計算相關性打分。主要方法包括Greedy Matching[3]、Embedding Averaging[4]和BERTScore[5-6]等。Embedding-based方法相比Overlap-Based方法有較大的提升,但是同樣依賴於Reference,仍然存在較大的優化空間。

Learning-based方法

基於Reference的開放領域對話評估存在一個One-To-Many[7]困境:即開放領域對話合適的Response是無限的,但人為設計的Reference是有限的(一般為5條左右)。因此,基於對比Reference和Response的相似性(字面重疊或者語義相似)設計開放領域評估方法存在較大侷限性。相比已有的Overlap-based方法和Embedding-based方法,ADEM方法[8]首次使用層次化的編碼器來編碼Context和Reference,並對輸入的Response進行打分。ADEM方法基於模型打分和人工打分的均方誤差來優化模型引數,期望逼近人類的打分。ADEM模型相比Overlap-based方法和Embedding-based方法取得了很大的成功,Learning-based方法也逐漸成為了開放領域自動化評估的主流方法。

為了不斷提高對話評估的準確和全面性,各種不同的評估維度層出不窮。為了應對越來越多評估維度帶來的挑戰,USL-H[9]將評估維度分為Understandability、Sensibleness和Likeability三類,如圖4所示。USL-H針對性提出了VUP(Valid Utterance Prediction)、NUP(Next Utterance Prediction)和MLM(Mask Language Model)3種指標,分別衡量對話中:

  1. Response是否通順流暢。
  2. Context和Respose的相關程度。
  3. Response本身是否詳細,更像人類等。

圖4 USL-H評估演算法的分層次模型

3.2 問題

現有的評估方法主要有以下問題:

設計的對話指標不夠全面,難以綜合衡量對話的質量

現有的自動評估方法主要聚焦在個別資料集的部分評估維度上。以當前較為全面的USL-H為例,該方法考慮了Response的流暢度、豐富度以及Context-Response句子對的相關性,但是USL-H忽略了:

  1. 更細粒度的Context-Response句子對的主題一致性。
  2. 回覆者對當前對話的參與度。

實驗證明,這些指標的遺漏嚴重影響了評估方法的效能。為了更全面穩定地評估多個對話資料集,設計考慮更多評估維度的指標勢在必行。

缺乏有效的指標整合方法

現有方法大多傾向於為每種評估維度設計一種評估指標,這種思路面對越來越多的評估維度顯得力不從心(考慮下比賽測試集共包含37種不同的評估維度)。每種對話維度的評估可能依賴數種評估指標,如Logical評估維度需要對話:1)Response流暢;2)Response和Context是相關的。設計基本的評估子指標,再通過合適的整合方法整合多個子指標打分,可以更全面有效表示不同的對話評估維度。

4 我們的方法

針對評估指標不夠全面,本文設計了5類共7種評估指標(Multi-Metric Evaluation,MME)用於全面衡量對話的質量。基於設計的5類7種基礎指標,我們進一步提出了相關性重歸一化方法(Correlation Re-Scaling Method,CRS)來整合不同評估指標的打分。我們將提出的模型稱為MME-CRS,模型整體架構圖5所示:

圖5 模型總體架構設計圖

4.1 基礎指標

為了解決現有方法的第一個問題,即設計的對話指標不夠全面,我們在比賽中設計了5類共7種評估子指標。

4.1.1 Fluency Metric (FM)

目的:分析Response本身是否足夠流暢可理解。

內容:首先基於Dailydialog資料集[10]構建response流暢度資料集,流程如下:

  1. 在Dailydialog資料集中隨機選擇一個Response,並以0.5概率決定r是正樣本還是負樣本。
  2. 如果樣本r是正樣本,隨機選擇一種調整:a.不調整;b.對每一個停用詞,以0.5的概率刪除。
  3. 如果樣本r是負樣本,隨機選擇一種調整:a.隨機打亂詞序;b.隨機刪除一定比例的詞語;c.隨機選擇部分詞語並重復。

基於上述規則構建流暢度資料集後,在預訓練模型SimCSE模型[11]上微調。微調後的模型可以計算任一對話的Response流暢度打分,記為FM打分。

4.1.2 Relevance Metric (RM)

目的:分析Context和Response的相關程度。

內容:基於Dailydialog資料集構建Context-Response句子對形式的相關性資料集,其中句子對相關為正樣本,不相關則為負樣本。負樣本的通常構建思路是將Response隨機替換成其他對話的Response。PONE方法[12]指出隨機挑選的Respose和Context基本不相關,模型訓練收益很小。因此,這裡的做法是隨機選擇10條Response,並計算和真實Response的語義相關度,並選擇排名居中的句子作為偽樣本。構造資料集後再在SimCSE模型上微調,微調後的模型可用於計算對話中Context和Response的相關度打分,記為RM打分。

4.1.3 Topic Coherence Metric (TCM)

目的:分析Context和Response的主題一致性。

內容:GRADE方法[13]構建了Context和Response的主題詞級別的圖表示,並計算了Context和Response的主題詞級別的相關度。相比粗粒度的相關性指標,GRADE更加關注細粒度級別的主題相關程度,是相關性指標的有效補充。TCM指標借鑑GRADE方法。

具體流程如下:首先提取Context和Response中的關鍵詞構建圖,其中每個關鍵詞都是一個節點,只有Context和Response的關鍵詞之間存在邊。基於ConceptNet獲取每個節點的表示,再使用圖注意力網路(GATs)聚集關鍵詞鄰居節點的資訊並迭代每個節點的表示,最後綜合全部節點的表示得到對話的圖表示。在主題詞級別的圖表示上連線全連線層用於分類,微調後的模型即可用於計算對話的TCM打分。

4.1.4 Engagement Metric (EM)

目的:分析生成Response的人或對話模型有多大的意願參與當前對話。

內容:前面提到的指標都是從Context和Response視角評估對話質量,而使用者參與度則是基於使用者的視角來評估。使用者參與度打分一般是0~5,分數越大,表示使用者參與當前對話的興趣越大。我們將ConvAI資料集[10]的參與度打分從1~5縮放到0~1,作為參與度打分資料集。預訓練模型仍然使用SimCSE,用於預測對話的參與度打分。預訓練後的模型可用於預測對話的使用者參與度打分,記為EM。

4.1.5 Specificity Metric (SM)

目的:分析Response本身是否足夠細節。

內容:SM指標用於避免Response模稜兩可,缺乏資訊量。

具體做法如下:序列Mask掉Response中的每一個Token,並基於SimCSE模型的MLM任務計算Negative Log-Likelihood損失,得到的打分稱為SM-NLL。替換損失函式為Negative Cross-Entropy和Perplexity可以分別得到SM-NCE和SM-PPL打分,共3個SM指標打分。3個SM指標打分都需要分別歸一化到0和1之間。

4.2 整合方法CRS

整合不同評估指標的打分是提高自動化對話評估效果的有效手段。

對每一個待評估的對話,基於上述5類7種基礎指標可以得到7種不同的打分。對於待評估資料集的某個評估維度,需要綜合7種指標打分得到一個綜合打分,用於和人類打分計算相關性。我們的整合方法分為以下兩步。

4.2.1 不同評估維度權重分佈的計算

首先,計算驗證集上每個資料集每個評估維度7種評估指標的相關性打分,相關性打分越大,認為該指標對該評估維度越重要。對越重要的評估指標賦予一個更大的權重,並將得到的權重在指標維度重新歸一化,這樣則得到了每個資料集每個評估維度上不同評估指標的權重分佈:

其中$S_{ijk}$是第$i$個資料集第$j$個評估維度上第$k$個評估指標的相關性打分,$d_{ij}$是相關性打分的冪數,$d_{ij}$越大則相關性打分越高的指標的權重就越大。一般當max($S_{ijk}^{d_{ij}}$)在1/3到1/2之間時整合效果最好,這是計算$d_{ij}$的一種簡單有效手段。實驗中,將$d_{ij}$設定為常數可以獲得更好的泛化效果,我們將$d_{ij}$設定為2,並在驗證集上計算權重分佈,再遷移到測試集上,取得了比賽最優效能。

在資料集維度,將不同資料集中相同評估維度的權重求均值,得到每個評估維度在不同評估指標上的權重分佈:

注意這裡得到的權重分佈已經和具體資料集無關,可以將權重分佈遷移到測試集上。

4.2.2 計算指標打分的加權和

對每個測試集的每個評估維度,計算7種指標打分並基於第一步的權重求加權和,得到綜合打分:

加權得到的綜合打分和人工打分計算相關性,得到每種評估維度上的模型打分和人工打分的相關性打分。

我們的整合方法基於指標的相關性打分賦予權重並重新歸一化,所以將該整合方法稱為相關性重歸一化方法。在得到的MME指標上使用CRS整合方法,可得MME-CRS評估演算法。

5 實驗分析

5.1 實驗結果

我們的方法主要基於Dailydialog資料集預訓練(除了EM子指標是使用ConvAI2資料集),在比賽驗證集上計算整合方法的權重分佈,最終在測試集上取得了0.3104的Spearman相關性打分。

圖6展示了比賽基準模型Deep AM-FM[14]以及比賽Top5隊伍在測試集上不同資料集評估維度的效能。本文的方法以0.3104的平均Spearman相關性係數取得了第一,且在5個資料集全部11個評估維度中的6個取得了第一,證明了本文方法的優越效能。

圖6 測試集上Top 5隊伍的Spearman相關性打分對比(%)

為了方便展示,圖中方法採用了資料集-評估維度的展示方式。其中J、E、N、DT、DP分別表示JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona資料集,而A、C、G、R分別表示Appropriateness、Content、Grammar、Relevance評估維度。我們對每個評估維度上最好的效能進行了加粗。

5.2 消融實驗

在消融實驗部分,我們以本文方法MME-CRS評估為基準,在整合階段分別去除FM、RM、TCM、EM、SM、RM+TCM指標,對比不同指標在整合過程中的重要性。實驗效能如圖7所示:

圖7 測試集上不同評估指標的消融實驗(%)

相關性指標RM和主題一致性指標TCM都使用了對話中的Context和Response資訊,因此在實驗中同時去除這兩個指標,觀察對效能的影響。從圖7中的實驗結果可以看出:

  • TCM、RM和EM對於模型效能的貢獻最大,打分整合階段刪除這三個評估指標後,測試集上的平均Spearman相關性打分分別降低了3.26%、1.56%和1.01%。
  • 粗粒度的RM指標和細粒度的TCM指標是有益的互相補充。如果分別去除RM或TCM指標,效能會有稍微下降;如果同時去除RM和TCM指標,評估方法缺乏了Context相關的資訊,效能會大幅降低到11.07%。
  • SM指標在測試集上的提升基本可以忽略。我們分析原因是:測試集中用於生成Response的各個生成模型在測試集語料上過擬合較為嚴重,因此生成了很多非常詳細,但和Context不相關的Response。因此SM指標的優劣對於測試集質量的評估基本沒有作用。

5.3 CRS效果

為了分析整合演算法CRS的作用,本文對比了MME-CRS和MME-Avg(將MME多個指標打分簡單平均)兩個評估方法的效能,如圖8所示:

圖8 MME-CRS和MME-Avg在測試集上的效能對比(%)

從圖中可以看出,MME-CRS方法相比於MME-Avg高了3.49%,證明了CRS演算法在整合子指標打分方面的優越效能。

6 總結

在本次比賽中,我們總結了開放領域對話自動評估存在的兩個主要問題,即評估指標不夠全面和缺乏有效的指標整合方法。針對評估指標不夠全面的問題,本文設計了5類7種評估指標用於全面衡量對話的質量;基於7種基礎指標,提出了相關性重歸一化方法來計算每種對話評估維度的整合打分。

雖然本文方法在DSTC10比賽中取得了較好的成績,但後續我們將繼續探索其他更有效的評估指標和指標整合方法。我們正在嘗試將比賽中的技術應用到美團具體業務中,如語音互動中心的智慧外呼機器人、智慧營銷和智慧客服中,在多個不同維度評估機器、人工客服與使用者的對話質量,不斷優化對話效果,提升使用者的滿意度。

參考文獻

[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.

[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.

[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.

[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.

作者簡介

鵬飛,曉慧,凱東,汪建,春陽等,均為美團平臺/語音互動部工程師。

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞,可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品,著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容,敬請註明“內容轉載自美團技術團隊”。本文未經許可,不得進行商業性轉載或者使用。任何商用行為,請傳送郵件至tech@meituan.com申請授權。

相關文章