引言
文字問答是自然語言處理中的一個重要領域,隨著一系列大規模高質量資料集的釋出和深度學習技術的快速發展,文字問答技術在近年來引起了學術界與工業界的廣泛關注。如圖 1 所示,近幾年文字問答相關論文數量增長迅速,同時問答任務的種類也越來越多樣化。
▲ 圖1. 近年來基於深度學習的文字問答學術論文數量隨年份變化情況統計(資料統計於ACL、EMNLP、NAACL、NIPS、AAAI等各大頂級學術會議)
機器閱讀理解(Machine Reading Comprehension)是文字問答的一個子類,旨在令機器閱讀並理解一段自然語言組成的文字,並回答相關問題。通過這種任務形式,我們可以對機器的自然語言理解水平進行評估,因此該任務具有重要的研究價值。
早期的閱讀理解研究受限於資料集規模以及自然語言處理技術的發展,進展較為緩慢。直到 2015 年,谷歌釋出首個大規模完形填空類閱讀理解資料集 CNN/Daily Mail [1],引發了基於神經網路的閱讀理解研究熱潮。2016 年,SQuAD 資料集 [2] 被史丹佛大學釋出,並迅速成為了抽取式閱讀理解的基準測試集。
隨後至今,機器閱讀理解領域發展迅速,各類任務如開放域式、多選式、聊天式和多跳式等不斷湧現。此外,閱讀理解模型效能也不斷重新整理記錄,在 SQuAD 資料集上甚至達到了超越人類的效能指標,如圖 2 所示。
▲ 圖2. SQuAD排行榜上代表性模型效能走勢圖
儘管取得了如此成就,機器閱讀理解仍然面臨著許多挑戰,如:1)當前方法的模型結構和訓練方法中存在著制約效能的問題;2)當前具備頂尖效能的整合模型在實際部署時效率低下;3)傳統方法無法有效處理原文中找不到答案的情況;4)當前大部分模型是針對單段落場景設計的,無法有效擴充套件至開放域問答;5)當前大部分模型無法有效支援離散推理和多答案預測等情況。
針對上述存在的挑戰,本文從以下五個方面開展研究:
強化助記閱讀器(Reinforced Mnemonic Reader)
針對抽取式閱讀理解任務,我們提出了強化助記閱讀器,如圖 3 所示。
▲ 圖3. 強化助記閱讀器總體架構示意圖
該模型主要包含兩點改進。第一,我們提出一個重關注機制(re-attention),該機制通過直接訪問歷史注意力來精煉當前注意力的計算,以避免注意力冗餘與缺乏的問題。第二,我們在訓練時採用動態-評估的強化學習(dynamic-critic reinforcement learning)方法,該方法總是鼓勵預測一個更被接受的答案來解決傳統強化學習演算法中的收斂抑制問題。在 SQuAD1.1 和兩個對抗資料集上的實驗顯示了我們的模型取得了提交時的先進效能。
注意力指導的答案蒸餾方法(Attention-Guided Answer Distillation)
針對當前閱讀理解整合模型效率低下的問題,我們提出了注意力-指導的答案蒸餾方法來進行閱讀理解模型壓縮,如圖 4 所示。
▲ 圖4. 注意力指導的答案蒸餾總體示意圖
我們發現在使用標準知識蒸餾過程中存在有偏蒸餾現象,為解決該問題,我們提出答案蒸餾(answer distillation)來懲罰模型對於迷惑答案的預測。為了進一步高效蒸餾中間表示,我們提出注意力蒸餾(attention distillation)來匹配教師與學生之間的注意力分佈。在 SQuAD1.1 上的實驗顯示學生單模型相比於教師整合模型只有 0.4% F1 的效能損失,卻獲得了 12 倍的推理加速。學生模型甚至在對抗 SQuAD 和 NarrativeQA 資料集上超過了教師模型效能。
閱讀+驗證架構(Read + Verify Architecture)
針對面向無答案問題的閱讀理解任務,我們提出了閱讀+驗證架構,如圖 5 所示。
▲ 圖5. 閱讀+驗證架構總體示意圖
該系統不僅利用一個神經網路閱讀器來抽取候選答案,還使用了一個答案驗證器(answer verifier)來判斷預測答案是否被輸入文字所蘊含。此外,我們引入了兩個輔助損失函式(auxiliary losses)來解決傳統方法採用共享歸一化操作時產生的概率互相干擾問題,並且探索了針對答案驗證任務的三種不同網路結構。在 SQuAD 2.0 資料集上的實驗顯示,我們的系統在提交時取得了先進效能。
檢索-閱讀-重排序網路(Retrieve-Read-Rerank Network)
在開放域問答任務中,傳統流水線方法面臨訓練-測試不一致以及重複編碼等問題。為解決這些問題,我們提出了檢索-閱讀-重排序網路,如圖 6 所示。
▲ 圖6. 檢索-閱讀-重排序網路示意圖
該模型包含一個早期停止的檢索器(early-stopped retriever)、一個遠端監督的閱讀器(distantly-supervised reader)、以及一個跨度級答案重排器(span-level answer reranker)。這些元件被整合到一個統一的神經網路中以便進行端到端訓練來緩解訓練-測試不一致問題。另外,編碼表示能在多個元件之間被複用以避免重複編碼。在四個開放域問答資料集上的實驗顯示,該模型相比流水線方法效能更優,同時效率更高。
多型別-多跨度網路(Multi-Type Multi-Span Network)
針對離散推理閱讀理解任務,當前方法通常面臨答案型別覆蓋不全、無法支援多答案預測以及孤立預測算術表示式等問題。為解決這些問題,我們提出了多型別-多跨度網路,如圖 7 所示。
▲ 圖7. 多型別-多跨度網路總體示意圖
該模型使用一個多型別答案預測器(multi-type answer predictor)以支援對四種答案型別的預測,採用一個多跨度抽取(multi-span extraction)方法以動態地抽取指定個數的文字跨度,並使用一個算術表示式重排名(arithmetic expression reranking)機制來對若干候選表示式進行排序以進一步確定預測。在 DROP 資料集上的實驗表明,該模型顯著提高了答案型別覆蓋度和多答案預測精度,相比之前方法效能獲得了大幅度提升。
研究展望
機器閱讀理解已經成為自然語言處理領域的熱門研究方向之一。雖然近幾年在該領域的研究進展迅速,但是該領域仍有大量未解決的問題與挑戰亟待研究人員探索。本文在此對未來研究工作提出幾點展望:
閱讀理解模型的常識推理能力
當前閱讀理解模型主要關注回答事實類問題(factoid questions),問題答案往往能直接在原文中找到。然而,如何基於常識和背景知識進行推理以獲得答案仍舊是一個巨大的挑戰。為了促進該方向的發展,若干資料集如 CommonsenseQA [3] 和 CosmosQA [4] 相繼被提出。在這些資料集中,機器需要結合常識知識來回答諸如“我可以站在河上的什麼地方看水流淌而不溼身?”這樣的問題,因此更具挑戰性。
閱讀理解模型的可解釋性
當前的閱讀理解模型往往是一個大的黑盒(black-box)神經網路,導致的問題是模型可解釋性差。一個好的閱讀理解系統應該不僅能提供最終答案,還要能夠提供做出該預測背後的邏輯。因此,如何推進閱讀理解模型的可解釋性也是未來很有前景的一個研究方向。幸運的是,我們已經看到有若干工作 [5-6] 在朝著這個方向努力。
開放域問答系統的實時性
構建一個快速響應的開放域問答系統對於實際部署線上應用至關重要。然而,由於開放域問答需要經歷檢索-閱讀的流水線過程,且需要為每個問題-文件樣例重新編碼,導致這些系統面臨實時性方面的嚴峻挑戰。雖然當前有工作 [7-8] 通過預先構建問題-無關的段落表示來節約運算開銷,然而這些方法普遍會導致不同程度的效能下降。因此,如何令開放域問答系統達到實時響應同時保持模型效能也是一個重要的研究方向。
跨語種機器閱讀理解
雖然當前機器閱讀理解取得了快速的發展,但是大部分工作都是在英語語料下開展的,其他語種因為缺乏足夠的語料而進展緩慢。因此,如何利用源語言如英語來輔助目標語言如中文的訓練就是一個亟待探索的方向。我們已經看到有初步的工作 [9-10] 在該方向上進行探索。
博士學位論文連結:https://github.com/huminghao16/thesis/blob/master/thesis.pdf
Reference
[1] Hermann K M, Kocisky T, Grefenstette E, et al. Teaching Machines to Read and Comprehend. NIPS 2015: 1693-1701.
[2] Rajpurkar P, Zhang J, Lopyrev K, et al. SQuAD: 100,000+ Questions for Machine Comprehension of Text. EMNLP 2016: 2383-2392.
[3] Talmor A, Herzig J, Lourie N, et al. CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge. NAACL 2019: 4149-4158.
[4] Huang L, Le Bras R, Bhagavatula C, et al. Cosmos QA: Machine Reading Comprehension with Contextual Commonsense Reasoning. EMNLP-IJCNLP 2019: 2391-2401.
[5] Gupta N, Lin K, Roth D, et al. Neural Module Networks for Reasoning over Text[J]. arXiv preprint arXiv:1912.04971, 2019.
[6] Jiang Y, Bansal M. Self-Assembling Modular Networks for Interpretable Multi-Hop Reasoning. EMNLP-IJCNLP 2019: 4464-4474.
[7] Seo M, Kwiatkowski T, Parikh A, et al. Phrase-Indexed Question Answering: A New Challenge for Scalable Document Comprehension. EMNLP 2018: 559-564.
[8] Seo M, Lee J, Kwiatkowski T, et al. Real-Time Open-Domain Question Answering with Dense-Sparse Phrase Index[J]. arXiv preprint arXiv:1906.05807, 2019.
[9] Lewis P, Oğuz B, Rinott R, et al. Mlqa: Evaluating cross-lingual extractive question answering[J]. arXiv preprint arXiv:1910.07475, 2019.
[10] Cui Y, Che W, Liu T, et al. Cross-Lingual Machine Reading Comprehension. EMNLP-IJCNLP 2019: 1586-1595.
後記
如果你對機器閱讀理解感興趣,想從事這方面的研究,那麼請不要猶豫,趕快聯絡我吧。
聯絡郵箱:huminghao16@gmail.com ; huminghao09@nudt.edu.cn。