近日,ACL 2018 公佈最佳論文名單,《Know What You Don't Know: Unanswerable Questions for SQuAD》榮獲這次大會的最佳短論文,Percy Liang等研究者介紹了機器閱讀理解問答資料集 SQuAD 的新版本 SQuAD 2.0,其引入了與 SQuAD 1.1 中可回答問題類似的不可回答問題,難度高於 SQuAD 1.1。
程式碼、資料、實驗地址:https://worksheets.codalab.org/worksheets/0x9a15a170809f4e2cb7940e1f256dee55/
機器閱讀理解已成為自然語言理解的中心任務,這得益於大量大規模資料集的建立(Hermann 等,2015;Hewlett 等,2016;Rajpurkar 等,2016;Nguyen 等,2016;trischler 等,2017;Joshi 等,2017)。反過來,這些資料集又促進各種模型架構的改進(Seo 等,2016;Hu 等,2017;Wang 等,2017;Clark 和 Gardner,2017;Huang 等,2018)。近期研究甚至在史丹佛問答資料集(SQuAD)上產生了超越人類水平精確匹配準確率的系統,SQuAD 是應用最廣泛的閱讀理解基準資料集之一(Rajpurkar 等,2016)。
儘管如此,這些系統還遠沒有真正地理解語言。最近的分析顯示,通過學習語境和型別匹配啟發式方法,模型可以在 SQuAD 資料集上實現良好的效能,而在 SQuAD 上的成功並不能保證模型在分散句子(distracting sentence)上的穩健性(Jia 和 Liang,2017)。造成這些問題的一個根本原因是 SQuAD 的重點是確保在語境文件中有正確答案的問題。因此,模型只需要選擇與問題最相關的文字範圍,而不需要檢查答案是否實際蘊涵在文字中。
在本論文研究中,研究者構建了一個新的資料集 SQuAD 2.0,它將以前版本的 SQuAD(SQuAD 1.1)上可回答的問題與 53775 個關於相同段落的、無法回答的新問題相結合。眾包工作人員精心設計這些問題,以便它們與段落相關,並且段落包含一個貌似合理的答案——與問題所要求的型別相同。圖 1 展示了兩個這樣的例子。
研究者證實 SQuAD 2.0 既有挑戰性又有高質量。一個當前最優的模型在 SQuAD 2.0 上訓練和測試時只獲得 66.3% 的 F1 得分,而人的準確率是 89.5% F1,高出整整 23.2 個百分點。同樣的模型在 SQuAD 1.1 上訓練時得到 85.8% F1,僅比人類低 5.4 個百分點。研究者還證明,無法回答的問題比通過遠端監督(Clark 和 Gardner,2017)或基於規則的方法(Jia 和 Liang,2017)自動生成的問題更具挑戰性。研究者公開發布 SQuAD 資料集新版本 SQuAD 2.0,並使之成為 SQuAD 排行榜的主要基準。他們樂觀地認為,這個新資料集將鼓勵開發閱讀理解系統,以瞭解其不知道的內容。
4 SQuAD 2.0
4.1 建立資料集
研究者在 Daemo 眾包平臺招募眾包工作者來寫無法回答的問題。每個任務包括 SQuAD 1.1 中的一整篇文章。對於文章中的每個段落,眾包工作者需要提出五個僅僅基於該段落不可能回答的問題,同時這些問題要引用該段落中的實體,且確保有一個貌似合理的答案。研究者還展示了 SQuAD 1.1 中每個段落的問題,這進一步鼓勵眾包工作者寫出與可回答問題看起來類似的不可回答問題。要求眾包工作者在每個段落上費時 7 分鐘,他們的時薪是 10.5 美元。
若工作者在一篇文章上只寫出 25 個或者更少問題,研究者將刪除這些問題,以去除不理解任務、並在完成整篇文章前就已經放棄的工作者所產生的噪聲。研究者將這一過濾機制應用於新資料和 SQuAD 1.1 中的已有可回答問題。為了生成訓練、開發和測試集,研究者使用和 SQuAD 1.1 相同的文章分割方法,並在每次分割時都結合已有資料和新資料。對於 SQuAD 2.0 開發集和測試集,研究者刪除了沒有收集到無法回答問題的文章。這導致在開發集和測試集分割中產生的可回答問題和不可回答問題的比例大致為 1:1,而訓練資料中可回答問題與不可回答問題的比例大致為 2:1。SQuAD 2.0 資料統計結果見表 2:
5 實驗
論文:Know What You Don't Know: Unanswerable Questions for SQuAD
論文連結:https://arxiv.org/pdf/1806.03822.pdf
摘要:提取式閱讀理解系統(Extractive reading comprehension system)通常在語境文件中定位問題的正確答案,但是它們可能會對正確答案不在語境文件內的問題進行不可靠的猜測。現有資料集要麼只關注可回答的問題,要麼使用自動生成的無法回答的問題,這些問題很容易識別。為了解決這些問題,我們建立了 SQuAD 2.0——史丹佛問答資料集(SQuAD)的最新版本。SQuAD 2.0 將已有的 SQuAD 資料和超過 5 萬個對抗性的無法回答的問題結合起來,後者是通過眾包工作者根據與可回答問題類似的方式寫成的。為了在 SQuAD 2.0 上實現良好的效能,系統不僅必須回答問題,還要確定何時語境段落中沒有答案、可以放棄回答問題。SQuAD 2.0 對現有模型來說是一個很有難度的自然語言處理任務:一個在 SQuAD 1.1 上得到 86% 的 F1 得分的強大神經系統在 SQuAD 2.0 上僅得到 66% 的 F1 得分。