DSTC10開放領域對話評估比賽冠軍方法總結

本文介紹了國際競賽DSTC10開放領域對話評估賽道的冠軍方法MME-CRS，該方法設計了多種評估指標，並利用相關性重歸一化演算法來整合不同指標的打分，為對話評估領域設計更有效的評估指標提供了參考。相關方法已同步發表在AAAI 2022 Workshop上。希望能給從事該技術領域工作的同學一些啟發或幫助。

1 背景

對話系統技術挑戰賽DSTC（The Dialog System Technology Challenge）由微軟、卡內基梅隆大學的科學家於2013年發起，旨在帶動學術與工業界在對話技術上的提升，在對話領域具有極高的權威性和知名度。對話系統挑戰賽今年已舉辦至第十屆（DSTC10），吸引了微軟、亞馬遜、卡內基梅隆大學、Facebook、三菱電子研究實驗室、美團、百度等全球知名企業、頂尖大學和機構同臺競技。

DSTC10共包含5個Track，每個Track包含某一對話領域的數個子任務。其中Track5 Task1 Automatic Open-domain Dialogue Evaluation較為系統全面地將開放領域對話的自動評估任務引入DSTC10比賽中。開放領域對話自動評估是對話系統的重要組成部分，致力於自動化地給出符合人類直覺的對話質量評估結果。相比於速度慢、成本高的人工標註，自動化評估方法可以高效率、低成本地對不同對話系統進行打分，有力促進了對話系統的發展。

不同於任務型對話有一個固定的優化目標，開放領域對話更接近人類真實的對話，評估難度更大，因而吸引了廣泛的關注。DSTC10 Track5 Task1比賽共包含14個驗證資料集（共包含37種不同的對話評估維度）和5個測試資料集（共包含11個評估維度）。美團語音團隊最終以平均0.3104的相關性取得了該比賽的第一名，該部分工作已完成一篇論文MME-CRS: Multi-Metric Evaluation Based on Correlation Re-Scaling for Evaluating Open-Domain Dialogue，並收錄在AAAI2022 Workshop。

圖1 DSTC10對話系統挑戰賽

2 賽題簡介

開放領域對話評估比賽收集了對話領域論文中的經典資料集，包括14個驗證資料集（12個Turn-Level級別資料集和2個Dialog-Level級別資料集）和5個測試資料集。

資料集中的每個對話主要包含以下資訊：

Context：對話中的提問，或者說對話的上下文。
Response：針對Context的回覆，也即評估的具體物件；對話資料集中的Response一般由不同對話生成模型產生，如GPT-2和T5。
Reference：人工給出的針對Context的參考回答，一般為5條左右。

每個對話包含多個評估維度，如Context和Response的相關性，Response本身的流暢度等。每個資料集的評估維度不同，14個驗證集總共包含37種不同的評估維度，具體包含Overall、Grammar、Relevance、Appropriateness、Interesting等。每個評估維度都有人工標註的打分，打分從1到5，分數越高表示當前評估維度的質量越高。

驗證集和測試集的統計資訊如圖2和圖3所示：

圖2 DSTC10 Track5 Task1驗證集資料統計資訊

圖3 DSTC10 Track5 Task1測試集資料統計資訊

其中Turns表示對應資料集中的對話輪數；Qualities表示資料集中每個對話的評估維度，每個評估維度都有對應的人工標註打分；Annos表示每個資料集的標註量。

在該比賽中，每個資料集每個對話每個評估維度都有人工標註的打分，打分範圍一般為1到5，一般求均值用於相關性計算。參賽隊伍需要設計評估指標用於預測每個對話不同評估維度的打分。每個資料集的每個評估維度的預測打分會和人工標註的打分計算Spearman相關性，最後的比賽結果基於全部測試資料集的評估維度求均值。

3 現有方法和問題

3.1 現有方法

開放領域對話的自動評估方法主要分為三類。

Overlap-based方法

早期研究人員將對話系統中Reference和Response類比於機器翻譯中的原句和翻譯句，借鑑機器翻譯的評價指標來評估對話質量。Overlap-based方法計算對話中Response和Reference之間的詞重疊情況，詞重疊越高打分越高。經典方法包括BLEU^[1]和ROUGE^[2]等，其中BLEU根據精確率衡量評估質量，而ROUGE根據召回率衡量質量。Response的評估依賴於給定的Reference，而開放領域下合適的Response是無限的，因此，Overlap-based方法並不適用於開放領域對話評估。

Embedding-based方法

隨著詞向量和預訓練語言模型的快速發展，Embedding-based評估方法取得了不錯的效能。基於深度模型分別編碼Response和Reference，並基於二者的編碼計算相關性打分。主要方法包括Greedy Matching^[3]、Embedding Averaging^[4]和BERTScore^[5-6]等。Embedding-based方法相比Overlap-Based方法有較大的提升，但是同樣依賴於Reference，仍然存在較大的優化空間。

Learning-based方法

基於Reference的開放領域對話評估存在一個One-To-Many^[7]困境：即開放領域對話合適的Response是無限的，但人為設計的Reference是有限的（一般為5條左右）。因此，基於對比Reference和Response的相似性（字面重疊或者語義相似）設計開放領域評估方法存在較大侷限性。相比已有的Overlap-based方法和Embedding-based方法，ADEM方法^[8]首次使用層次化的編碼器來編碼Context和Reference，並對輸入的Response進行打分。ADEM方法基於模型打分和人工打分的均方誤差來優化模型引數，期望逼近人類的打分。ADEM模型相比Overlap-based方法和Embedding-based方法取得了很大的成功，Learning-based方法也逐漸成為了開放領域自動化評估的主流方法。

為了不斷提高對話評估的準確和全面性，各種不同的評估維度層出不窮。為了應對越來越多評估維度帶來的挑戰，USL-H^[9]將評估維度分為Understandability、Sensibleness和Likeability三類，如圖4所示。USL-H針對性提出了VUP（Valid Utterance Prediction）、NUP（Next Utterance Prediction）和MLM（Mask Language Model）3種指標，分別衡量對話中：

Response是否通順流暢。
Context和Respose的相關程度。
Response本身是否詳細，更像人類等。

圖4 USL-H評估演算法的分層次模型

3.2 問題

現有的評估方法主要有以下問題：

設計的對話指標不夠全面，難以綜合衡量對話的質量

現有的自動評估方法主要聚焦在個別資料集的部分評估維度上。以當前較為全面的USL-H為例，該方法考慮了Response的流暢度、豐富度以及Context-Response句子對的相關性，但是USL-H忽略了：

更細粒度的Context-Response句子對的主題一致性。
回覆者對當前對話的參與度。

實驗證明，這些指標的遺漏嚴重影響了評估方法的效能。為了更全面穩定地評估多個對話資料集，設計考慮更多評估維度的指標勢在必行。

缺乏有效的指標整合方法

現有方法大多傾向於為每種評估維度設計一種評估指標，這種思路面對越來越多的評估維度顯得力不從心（考慮下比賽測試集共包含37種不同的評估維度）。每種對話維度的評估可能依賴數種評估指標，如Logical評估維度需要對話：1）Response流暢；2）Response和Context是相關的。設計基本的評估子指標，再通過合適的整合方法整合多個子指標打分，可以更全面有效表示不同的對話評估維度。

4 我們的方法

針對評估指標不夠全面，本文設計了5類共7種評估指標（Multi-Metric Evaluation，MME）用於全面衡量對話的質量。基於設計的5類7種基礎指標，我們進一步提出了相關性重歸一化方法（Correlation Re-Scaling Method，CRS）來整合不同評估指標的打分。我們將提出的模型稱為MME-CRS，模型整體架構圖5所示：

圖5 模型總體架構設計圖

4.1 基礎指標

為了解決現有方法的第一個問題，即設計的對話指標不夠全面，我們在比賽中設計了5類共7種評估子指標。

4.1.1 Fluency Metric (FM)

目的：分析Response本身是否足夠流暢可理解。

內容：首先基於Dailydialog資料集^[10]構建response流暢度資料集，流程如下：

在Dailydialog資料集中隨機選擇一個Response，並以0.5概率決定r是正樣本還是負樣本。
如果樣本r是正樣本，隨機選擇一種調整：a.不調整；b.對每一個停用詞，以0.5的概率刪除。
如果樣本r是負樣本，隨機選擇一種調整：a.隨機打亂詞序；b.隨機刪除一定比例的詞語；c.隨機選擇部分詞語並重復。

基於上述規則構建流暢度資料集後，在預訓練模型SimCSE模型^[11]上微調。微調後的模型可以計算任一對話的Response流暢度打分，記為FM打分。

4.1.2 Relevance Metric (RM)

目的：分析Context和Response的相關程度。

內容：基於Dailydialog資料集構建Context-Response句子對形式的相關性資料集，其中句子對相關為正樣本，不相關則為負樣本。負樣本的通常構建思路是將Response隨機替換成其他對話的Response。PONE方法^[12]指出隨機挑選的Respose和Context基本不相關，模型訓練收益很小。因此，這裡的做法是隨機選擇10條Response，並計算和真實Response的語義相關度，並選擇排名居中的句子作為偽樣本。構造資料集後再在SimCSE模型上微調，微調後的模型可用於計算對話中Context和Response的相關度打分，記為RM打分。

4.1.3 Topic Coherence Metric (TCM)

目的：分析Context和Response的主題一致性。

內容：GRADE方法^[13]構建了Context和Response的主題詞級別的圖表示，並計算了Context和Response的主題詞級別的相關度。相比粗粒度的相關性指標，GRADE更加關注細粒度級別的主題相關程度，是相關性指標的有效補充。TCM指標借鑑GRADE方法。

具體流程如下：首先提取Context和Response中的關鍵詞構建圖，其中每個關鍵詞都是一個節點，只有Context和Response的關鍵詞之間存在邊。基於ConceptNet獲取每個節點的表示，再使用圖注意力網路（GATs）聚集關鍵詞鄰居節點的資訊並迭代每個節點的表示，最後綜合全部節點的表示得到對話的圖表示。在主題詞級別的圖表示上連線全連線層用於分類，微調後的模型即可用於計算對話的TCM打分。

4.1.4 Engagement Metric (EM)

目的：分析生成Response的人或對話模型有多大的意願參與當前對話。

內容：前面提到的指標都是從Context和Response視角評估對話質量，而使用者參與度則是基於使用者的視角來評估。使用者參與度打分一般是0~5，分數越大，表示使用者參與當前對話的興趣越大。我們將ConvAI資料集^[10]的參與度打分從1~5縮放到0~1，作為參與度打分資料集。預訓練模型仍然使用SimCSE，用於預測對話的參與度打分。預訓練後的模型可用於預測對話的使用者參與度打分，記為EM。

4.1.5 Specificity Metric (SM)

目的：分析Response本身是否足夠細節。

內容：SM指標用於避免Response模稜兩可，缺乏資訊量。

具體做法如下：序列Mask掉Response中的每一個Token，並基於SimCSE模型的MLM任務計算Negative Log-Likelihood損失，得到的打分稱為SM-NLL。替換損失函式為Negative Cross-Entropy和Perplexity可以分別得到SM-NCE和SM-PPL打分，共3個SM指標打分。3個SM指標打分都需要分別歸一化到0和1之間。

4.2 整合方法CRS

整合不同評估指標的打分是提高自動化對話評估效果的有效手段。

對每一個待評估的對話，基於上述5類7種基礎指標可以得到7種不同的打分。對於待評估資料集的某個評估維度，需要綜合7種指標打分得到一個綜合打分，用於和人類打分計算相關性。我們的整合方法分為以下兩步。

4.2.1 不同評估維度權重分佈的計算

首先，計算驗證集上每個資料集每個評估維度7種評估指標的相關性打分，相關性打分越大，認為該指標對該評估維度越重要。對越重要的評估指標賦予一個更大的權重，並將得到的權重在指標維度重新歸一化，這樣則得到了每個資料集每個評估維度上不同評估指標的權重分佈：

其中$S_{ijk}$是第$i$個資料集第$j$個評估維度上第$k$個評估指標的相關性打分，$d_{ij}$是相關性打分的冪數，$d_{ij}$越大則相關性打分越高的指標的權重就越大。一般當max（$S_{ijk}^{d_{ij}}$）在1/3到1/2之間時整合效果最好，這是計算$d_{ij}$的一種簡單有效手段。實驗中，將$d_{ij}$設定為常數可以獲得更好的泛化效果，我們將$d_{ij}$設定為2，並在驗證集上計算權重分佈，再遷移到測試集上，取得了比賽最優效能。

在資料集維度，將不同資料集中相同評估維度的權重求均值，得到每個評估維度在不同評估指標上的權重分佈：

注意這裡得到的權重分佈已經和具體資料集無關，可以將權重分佈遷移到測試集上。

4.2.2 計算指標打分的加權和

對每個測試集的每個評估維度，計算7種指標打分並基於第一步的權重求加權和，得到綜合打分：

加權得到的綜合打分和人工打分計算相關性，得到每種評估維度上的模型打分和人工打分的相關性打分。

我們的整合方法基於指標的相關性打分賦予權重並重新歸一化，所以將該整合方法稱為相關性重歸一化方法。在得到的MME指標上使用CRS整合方法，可得MME-CRS評估演算法。

5 實驗分析

5.1 實驗結果

我們的方法主要基於Dailydialog資料集預訓練（除了EM子指標是使用ConvAI2資料集），在比賽驗證集上計算整合方法的權重分佈，最終在測試集上取得了0.3104的Spearman相關性打分。

圖6展示了比賽基準模型Deep AM-FM^[14]以及比賽Top5隊伍在測試集上不同資料集評估維度的效能。本文的方法以0.3104的平均Spearman相關性係數取得了第一，且在5個資料集全部11個評估維度中的6個取得了第一，證明了本文方法的優越效能。

圖6 測試集上Top 5隊伍的Spearman相關性打分對比（%）

為了方便展示，圖中方法採用了資料集-評估維度的展示方式。其中J、E、N、DT、DP分別表示JSALT、ESL、NCM、DST10-Topical、DSTC10-Persona資料集，而A、C、G、R分別表示Appropriateness、Content、Grammar、Relevance評估維度。我們對每個評估維度上最好的效能進行了加粗。

5.2 消融實驗

在消融實驗部分，我們以本文方法MME-CRS評估為基準，在整合階段分別去除FM、RM、TCM、EM、SM、RM+TCM指標，對比不同指標在整合過程中的重要性。實驗效能如圖7所示：

圖7 測試集上不同評估指標的消融實驗（%）

相關性指標RM和主題一致性指標TCM都使用了對話中的Context和Response資訊，因此在實驗中同時去除這兩個指標，觀察對效能的影響。從圖7中的實驗結果可以看出：

TCM、RM和EM對於模型效能的貢獻最大，打分整合階段刪除這三個評估指標後，測試集上的平均Spearman相關性打分分別降低了3.26%、1.56%和1.01%。
粗粒度的RM指標和細粒度的TCM指標是有益的互相補充。如果分別去除RM或TCM指標，效能會有稍微下降；如果同時去除RM和TCM指標，評估方法缺乏了Context相關的資訊，效能會大幅降低到11.07%。
SM指標在測試集上的提升基本可以忽略。我們分析原因是：測試集中用於生成Response的各個生成模型在測試集語料上過擬合較為嚴重，因此生成了很多非常詳細，但和Context不相關的Response。因此SM指標的優劣對於測試集質量的評估基本沒有作用。

5.3 CRS效果

為了分析整合演算法CRS的作用，本文對比了MME-CRS和MME-Avg（將MME多個指標打分簡單平均）兩個評估方法的效能，如圖8所示：

圖8 MME-CRS和MME-Avg在測試集上的效能對比（%）

從圖中可以看出，MME-CRS方法相比於MME-Avg高了3.49%，證明了CRS演算法在整合子指標打分方面的優越效能。

6 總結

在本次比賽中，我們總結了開放領域對話自動評估存在的兩個主要問題，即評估指標不夠全面和缺乏有效的指標整合方法。針對評估指標不夠全面的問題，本文設計了5類7種評估指標用於全面衡量對話的質量；基於7種基礎指標，提出了相關性重歸一化方法來計算每種對話評估維度的整合打分。

雖然本文方法在DSTC10比賽中取得了較好的成績，但後續我們將繼續探索其他更有效的評估指標和指標整合方法。我們正在嘗試將比賽中的技術應用到美團具體業務中，如語音互動中心的智慧外呼機器人、智慧營銷和智慧客服中，在多個不同維度評估機器、人工客服與使用者的對話質量，不斷優化對話效果，提升使用者的滿意度。

參考文獻

[1] Papineni, K.; Roukos, S.; Ward, T.; and Zhu, W.-J. 2002. Bleu: A method for automatic evaluation of machine translation. In Proceedings of the 40th annual meeting of the Association for Computational Linguistics, 311–318.

[2] Lin C Y. Rouge: A package for automatic evaluation of summaries[C]//Text summarization branches out. 2004: 74-81.

[3] Rus, V.; and Lintean, M. 2012. An optimal assessment of natural language student input using word-to-word similarity metrics. In International Conference on Intelligent Tutoring Systems, 675–676. Springer.

[4] Wieting, J.; Bansal, M.; Gimpel, K.; and Livescu, K. 2016. Towards universal paraphrastic sentence embeddings. In 4th International Conference on Learning Representations.

[5] Zhang, T.; Kishore, V.; Wu, F.; Weinberger, K. Q.; and Artzi, Y. 2019. BERTScore: Evaluating text generation with BERT. In International Conference on Learning Representations.

[6] Liu C W, Lowe R, Serban I V, et al. How NOT To Evaluate Your Dialogue System: An Empirical Study of Unsupervised Evaluation Metrics for Dialogue Response Generation[C]//Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing. 2016: 2122-2132.

[7] Zhao, T.; Zhao, R.; and Eskenazi, M. 2017. Learning discourse-level diversity for neural dialog models using conditional variational autoencoders. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), 654–664.

[8] Lowe R, Noseworthy M, Serban I V, et al. Towards an Automatic Turing Test: Learning to Evaluate Dialogue Responses[C]//Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2017: 1116-1126.

[9] Phy, V.; Zhao, Y.; and Aizawa, A. 2020. Deconstruct to reconstruct a configurable evaluation metric for open-domain dialogue systems. In Proceedings of the 28th International Conference on Computational Linguistics, 4164–4178.

[10] Zhao, T.; Lala, D.; and Kawahara, T. 2020. Designing precise and robust dialogue response evaluators. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 26–33.

[11] Gao T, Yao X, Chen D. SimCSE: Simple Contrastive Learning of Sentence Embeddings[J]. arXiv preprint arXiv:2104.08821, 2021.

[12] Lan, T.; Mao, X.-L.; Wei, W.; Gao, X.; and Huang, H. 2020. Pone: A novel automatic evaluation metric for open-domain generative dialogue systems. ACM Transactions on Information Systems (TOIS), 39(1): 1–37.

[13] Huang, L.; Ye, Z.; Qin, J.; Lin, L.; and Liang, X. 2020. Grade: Automatic graph-enhanced coherence metric for evaluating open-domain dialogue systems. In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), 9230–9240.

[14] Zhang, C.; D’Haro, L. F.; Banchs, R. E.; Friedrichs, T.; and Li, H. 2021. Deep AM-FM: Toolkit for automatic dialogue evaluation. In Conversational Dialogue Systems for the Next Decade, 53–69. Springer.

作者簡介

鵬飛，曉慧，凱東，汪建，春陽等，均為美團平臺/語音互動部工程師。

閱讀美團技術團隊更多技術文章合集

前端 | 演算法 | 後端 | 資料 | 安全 | 運維 | iOS | Android | 測試

| 在公眾號選單欄對話方塊回覆【2020年貨】、【2019年貨】、【2018年貨】、【2017年貨】等關鍵詞，可檢視美團技術團隊歷年技術文章合集。

| 本文系美團技術團隊出品，著作權歸屬美團。歡迎出於分享和交流等非商業目的轉載或使用本文內容，敬請註明“內容轉載自美團技術團隊”。本文未經許可，不得進行商業性轉載或者使用。任何商用行為，請傳送郵件至tech@meituan.com申請授權。