論文摘要
《An Evaluation of Chinese Human-Computer Dialogue Technology》
近些年來,人機對話技術作為人工智慧領域的一個重要研究領域,受到了學術界和工業界的廣泛關注。但是目前大型的中文人機對話評測仍十分欠缺。本文的重點聚焦於使用者意圖的識別和響應問題,以科大訊飛股份有限公司提供的資料集為基礎,分別開展使用者意圖領域分類(任務一)和特定領域任務型人機對話線上評測(任務二)。本文介紹了評測任務以及評測資料集,並對評測結果和目前中文人機對話所存在的問題做出了簡析。
評測介紹
在任務型人機對話系統中,有兩個重要的研究方向。一個是聊天使用者的意圖領域分類,其目的在於區分使用者的聊天意圖,比如任務型垂類(訂票、查詢公交、查詢電影資訊等)、知識問答和閒聊等,是組成複雜人機對話系統的一個重要步驟。經過意圖分類可以將使用者輸入交給相應的模組處理並返回合適的回覆;另一個是特定域任務型人機對話,完善的人機對話系統應該具有理解使用者要完成的任務並協助使用者完成某項特定域任務的能力。
從以上兩個研究方向出發,我們在第七屆全國社會媒體處理大會(SMP2018)期間舉辦了第二屆中文人機對話技術評測。本次評測分為兩個任務:
1) 使用者意圖領域分類。包含閒聊和垂類兩大類,其中垂類又細分為30個垂直領域,參賽系統需要判定使用者的輸入所屬的類別。
2) 特定域任務型人機對話線上評測。參賽系統通過與測試人員實時線上對話完成相應的預定或查詢任務,完成測試人員的特定域需求。
本次評測與SMP2017人機對話技術評測相比,有以下特點:
我們分別為兩個任務加入了新的資料集,新加入的資料集都是由專業資料標註人員標註的,並且我們在測試集中加入了大量的干擾資料用於保證評測資料的隱蔽性。
本次評測任務一取消了封閉域的評測,只進行開放域評測,區別是使用者不僅可以使用我們提供的訓練資料,還可以自行收集資料。
我們在任務二的評價指標上做出了優化,更新了未完成任務對話輪數的計算方式,從而使統計出的平均對話輪數更加合理。
任務介紹
接下來將簡要介紹兩個評測任務。
任務一 使用者意圖領域分類
任務一具體描述如下:構建一個系統,使其能夠儘可能正確地將使用者輸入分類到相應的閒聊類或任務垂類共計31個類別中。
示例如表1所示,
其中任務型垂類共30個類別。本次評測任務一僅考慮單輪對話,無需考慮多輪任務型對話的整體意圖。另外,我們為參賽者們提供了一套系統搭建模板以便於統一介面。
對於任務一,我們根據精確率P、召回率R調和平均得到的F值對系統進行評價。其中對於精確率P和召回率R的計算,我們對31個類別構建混淆矩陣分別計算每個類別的P和R,對於所有類別計算平均值,最終取分數為,將此得分作為排名依據。
任務二 特定域任務型人機對話線上評測
任務二具體任務描述如下:對於一個查詢並預定機票、火車票或酒店的一個意圖或多個意圖的混合任務,根據給定的資料庫資料構建系統引導使用者完成相應的任務。本次評測我們仍採用人工線上評測的方式,一個完整意圖描述為:“預定明天從北京去上海的上午或者中午出發的機票”,其訂機票過程如表2所示:
表2 定機票人機對話流程示例
U | 查詢明天從北京去上海的機票 |
R | 請問您需要訂票嗎? |
U | 是的 |
R | 請問您要明天什麼時候出發呢? |
U | 上午或中午吧 |
R | 幫您查詢了明天從北京到上海的機票,沒有上午出發的航班,中午12:10出發是否可以?7.3折,910元 |
U | 也行,就訂這個吧 |
R | 已經幫您預訂該航班機票,將跳轉至付款頁面 |
這裡的“U”和“R”指的是使用者與系統的回應。為了保證任務型對話系統各方面的主觀和客觀效能,本次評測採用了以下指標:
任務完成率:每一個測試對話看做是一個任務,測試過程中完成的任務數佔任務總數的比率。
平均話輪數:完成一個任務所產生的對話句子(utterance)數,在完成任務的前提下越少越好。
使用者滿意度:評測員對系統的主觀打分,包含5個取值{-2,-1,0,1,2}
回覆流暢度:主觀打分,包含3個取值{-1,0,1}
未覆蓋資料引導能力:主觀打分,包含2個取值{0,1}
資料集介紹
本次評測任務一的資料集來自科大訊飛股份有限公司,全部由專業資料標註人員手寫生成。具體的資料集資料如表3所示:
表3 任務一資料集統計
訓練集 | 開發集 | 測試集 | |
數量 | 2299 | 770 | 1550 |
資料集的部分樣例如表4所示,共有31個類別這樣的人工手寫的資料。與SMP2017評測資料集不同的是,本次評測只有開放型評測,使用者可以自行收集各個類別的訓練資料。
任務二的資料庫資料仍來自科大訊飛股份有限公司,該資料集包括自系統日期起一個月的機票、火車票以及各地酒店資訊,此外,我們人工寫了若干個測試任務,包含訂機票、訂火車票、訂賓館三種簡單意圖任務或多意圖任務。
詳細資料集介紹及下載連結參見原文中的“EVALUATION OF DATA SETS”一節。
評測結果
在本節中,我們將會介紹兩個任務參賽隊伍評測結果,同時對結果進行分析,並對每個任務常見的問題作出總結。
任務一評測結果:
本次評測任務一我們共收到提交的系統21份,評測結果如圖1所示。
在提交的系統中,我們發現今年參賽系統前五名的平均F值(0.8079)要比去年(0.9268)低,經過我們分析,主要原因是今年的測試集是全新的,與釋出的訓練集和開發集不在同一分佈,而去年的測試集是從訓練集中抽出來的,所以今年綜合的評分要比去年低很多。
任務二評測結果:
由於任務二比任務一難度大了很多,所以提交的隊伍也相應較少,本次評測任務二共收到提交的系統10份,主要參考指標是任務完成率和平均話輪數,其中平均話輪數越小代表系統越好,在此任務中34.29為理論上的最大話論數,是任務完成率為0的情況下做出的最大懲罰。
圖2中的結果是優先根據任務完成率指標,然後再考慮平均話輪數給出的綜合排名,其中任務完成率C、使用者滿意度Sa、回覆流暢度F和未覆蓋資料應道能力G為人工完成標註,每個系統都有三位評測員針對21個特定任務進行評測打分,最終的任務完成率為三位評測員打分的均值。
總結
本文介紹了SMP2018中文人機對話技術評測,針對2017年首屆人機對話評測中存在的問題進行了一些調整和改進。文章首先分別介紹了本次評測的任務一和任務二,並解釋兩個任務更新後的指標及其計算方法。此外,我們還簡單介紹了兩個任務的資料集。最後,我們給出了完整的評測結果並分析了本次評測中存在的問題。