微軟機器閱讀理解超越人類水平,CoQA資料集得分重新整理記錄

機器之心發表於2019-05-04
今日,微軟部落格發文公佈他們在 CoQA 資料集上取得的最新成績。在此次挑戰賽中,微軟亞洲研究院 NLP 組與 SDRG(微軟雷德蒙德語音對話研究組)組成的團隊成為首個模型表現超越人類的參賽團隊。

微軟機器閱讀理解超越人類水平,CoQA資料集得分重新整理記錄

圖源:https://stanfordnlp.github.io/coqa/

在史丹佛大學舉辦的 CoQA(Conversational Question Answering)挑戰賽中,由微軟亞洲研究院(MSRA)NLP 組和微軟雷德蒙德語音對話研究組組成的團隊排名第一。

此挑戰賽衡量了機器理解文字、在對話中回答一系列相互聯絡的問題的能力。

CoQA 是一個大型對話問答資料集,由來自不同領域一系列文章中的對話問題組成。在此之前,MSRA NLP 團隊利用史丹佛問答資料集(SQuAD)在單輪問答中達到了人類水平,樹立了一個新的里程碑。與 SQuAD 相比,CoQA 中的問題對話性質更為明顯,答案形式自由,以確保對話中的答案更加自然。

CoQA 中的問題非常簡短,以模仿人類對話。除此之外,第一個問題之後的每一個問題都基於對話歷史,這加大了機器解析那些短問題的難度。

例如,假設你問系統,「微軟的創始人是誰?」,那麼在問下一個問題(「他的生日是什麼時候?」)的時候,你需要讓機器知道,這兩個問題中的物件是同一個人。

微軟機器閱讀理解超越人類水平,CoQA資料集得分重新整理記錄

圖注:來自 CoQA 資料集的一段對話,來自論文《CoQA: A Conversational Question Answering Challenge》

為了更好地測試已有模型的泛化能力,CoQA 資料集從 7 個不同領域收集資料:童話故事、文學作品、初中高中英語測試、新聞、Wikipedia、Reddit 和科學。前五個領域的資料用作訓練、開發和測試集,後面兩個只用作測試集。

CoQA 使用 F1 得分來評估模型表現。F1 得分衡量了預測與真實答案之間的單詞重合度。領域內 F1 得分是在與訓練集為同一領域的測試集上測試得到的,領域外 F1 得分是在不同領域的測試集上得到的。整體 F1 是在所有測試集上的最終得分。

據介紹,微軟研究團隊的方法使用了特殊的策略,也就是多個相關任務學習到的資訊被用於改進最終的機器閱讀理解任務。在此多階段、多工精調方法中,研究人員首先在多工環境下從相關任務中學習 MRC 關聯背景資訊,然後在目標任務上精調模型。在兩個階段,都使用語言建模作為輔助任務,幫助降低對話問答模型的過擬合

實驗證明了這種方法的有效性,在 CoQA 挑戰賽上的結果也進一步證明了該方法的強大之處。

微軟機器閱讀理解超越人類水平,CoQA資料集得分重新整理記錄

圖注:多階段、多工精調模型圖示

據 CoQA 榜單顯示,微軟研究團隊提交的整合系統分佈取得了 89.9 的領域內得分、88.0 的領域外得分、89.4 的整體 F1 得分,而在此資料集上人類的表現分別為 89.4/87.4/88.8。

這一成就標誌著搜尋引擎(如必應)和智慧助手(如 Cortana)在與人互動和以更自然的方式(類似人與人之間的交流)提供資訊方面取得了重大進展。然而,一般的機器閱讀理解和問答仍是自然語言處理中沒能解決的難題。為了進一步提高機器理解和生成自然語言的能力,該團隊將繼續努力開發更強大的預訓練模型。

原文連結:https://www.microsoft.com/en-us/research/blog/machine-reading-systems-are-becoming-more-conversational/

相關文章