閱讀理解不僅需要根據篇章準確回答問題,還要識別並拒絕無法回答的問題。當前機器閱讀理解系統主要得益於強大的預訓練語言模型,即編碼器模組。從閱讀理解角度而言,編碼器模組僅著眼於“閱讀”。本文致力於探索更好的“解碼”設計,重點關注判別器模組。啟發於人類的閱讀理解模式,提出一種回顧式閱讀器(Retrospective Reader),整合兩階段閱讀和驗證的模式。
該模型於 2020 年 1 月 10 日,在史丹佛大學發起的機器閱讀理解挑戰賽 SQuAD 2.0 (Stanford Question Answering Dataset 2.0) 中榮登榜首,重新整理了單模型和整合模型的最佳紀錄;模型在 NewsQA 資料集上也獲得了當前最高效能。此外,本文首次針對閱讀理解任務定義統計顯著性檢驗,並表明模該型顯著優於基準模型。
引言
機器閱讀理解(MRC)是自然語言理解(NLU)中的一項重要且長期的目標,旨在訓練機器理解文字後準確地回答問題。機器閱讀理解具有良好的應用前景,例如自動問答、對話系統等。前期閱讀理解工作假定所有問題均可回答,主要關注篇章和文字的建模和互動設計;近期,伴隨不可回答問題的閱讀理解成為一大熱點,後者更加接近真實應用。
對於伴隨不可回答問題的機器閱讀理解(本文關注型別),模型需具備兩方面的能力:1)判斷問題是否可回答;2)準確回答問題。為了進行可回答性判斷,需要對給定的文字有深入的理解和精巧的判別設計,並使得閱讀理解系統更接近於實際應用。相對應地,閱讀理解研究可大致分為兩個方面:1)構建強勁的語言模型作為文字編碼建模模組;2)設計精巧的“解碼”策略給出準確有效的回答。
*注:本文認為,自然語言處理任務通常可視為編碼-解碼模式。
在閱讀理解任務中,編碼器(即 PLM)的能力依然是壓倒性的,但是答案驗證器(verifier)的作用也變得重要,效能良好的驗證器對於強編碼器上的效能提升是決定性的。諸如 BERT、XLNet、ALBERT 等預訓練語言模型(PLM)已經在各種自然語言處理任務上取得了一系列成功,廣泛地發揮了強大的編碼器的作用。
然而,預訓練語言模型耗費大量的計算資源和計算時間。此外,當前相關研究針對閱讀理解任務相適應的解碼模組關注較少,而有效的解碼設計對閱讀理解具有重要影響,無論編碼模組本身有多強,均能獲得一致提升。
本文基於人類閱讀理解考試中的閱讀思路:首先,通讀全文和問題,掌握大意,初步判斷;其次,復讀全文,驗證答案,給出答案。受此啟發,提出一種回顧式閱讀器(Retrospective Reader, Retro-Reader),整合兩階段閱讀和驗證的模式。
模型
Retro-Reader 模型包括略讀模組(sketchy reading module)和精讀模組(intensive reading module)來模擬人類閱讀。略讀模組用於閱讀文章和問題,得到初步的判斷;精讀模組驗證可回答性,並給出候選。兩個模組的輸出彙總在一起,以做出最終決定。
略讀模組由編碼層、互動層和外部前置驗證器(E-FV)構成。編碼層用於將輸入文字編碼,進而輸入到多層 Transformer 互動層構建篇章和問題間的向量空間關係,得到的隱層向量表示在驗證器得到可回答性的初步預測。
精讀模組使用與略讀模組同樣的編碼和互動。在得到隱層向量表示後,在輸入線性層得到用於可回答問題的起止位置概率的同時,並行輸入到內部前置判別器(I-FV),得到不可回答的概率。
此外,在早期閱讀理解研究中,一大熱點為基於注意力機制顯性地構建篇章和問題關聯,受此啟發,本文在深層 Transformer 互動層後,探索了兩種基於問題導向的篇章上下文融合機制,來考察在強大的預訓練語言模型基礎上,此類注意力機制是否還能帶來提升。
最後,E-FV 和 I-FV 的不可回答概率在後置判別器中(RV)融合得到最終的回答決策。
統計顯著性分析
當前閱讀理解相關研究發展迅猛,模型效能已達到較高的水平。因此,統計顯著性測試對於評估模型效能的差異變得更加重要。
本文基於較為嚴苛的完全匹配(Exact Match)指標進行顯著性測試,並將測試建模成一個二分類問題:評估模型的每個預測完全正確與否。基於任務特點,使用一種配對樣本的非引數檢驗--麥克尼馬爾檢驗(McNemar’s test)來測試結果顯著性,其零假設為:兩個模型的預測結果(正確或錯誤)的總體分佈無顯著差異。
該測試採用二項分佈檢驗,針對兩個模型預測的結果變化頻率,計算二項分佈的概率值,大樣本下有近似為 1 的卡方統計量:
在顯著性測試中,p 值定義為在零假設下獲得等於或大於觀察到的極端結果的概率。p 值越小,顯著性越大。常用可靠性水平為 95%,即 p = 0.05。
實驗結果
實驗結果表明,本文提出的 Retro-Reader 不僅顯著優於基準模型 ALBERT,並且在 SQuAD2.0 排行榜超越了所有模型,重新整理了單模型和整合模型的最佳紀錄。
此外,模型在 NewsQA 資料上同樣達到了一致的提升,並取得了資料集上的最高結果。
答案分析
首先是判別器消融分析,對比使用不同的答案判斷模式。
我們觀察到,任何一個前置判別器(FV)都可以提高基線效能,並且將兩者整合在一起作為後置判別(RV)效能最佳。
對於問題導向的篇章上下文融合機制,可以看到,在較強的預訓練語言模型後端增加額外的顯性互動層只能帶來微弱的結果變化,驗證了語言模型捕獲段落和問題之間關係的強大能力。相比之下,答案判別模組可以帶來更加實質性的提升,表明了答案判別的研究潛力。
為了直觀地觀察預測結果差異,我們給出了基準 ALBERT 和 Retro-Reader 模型給出了有關 SQuAD2.0 的預測示例。
上述結果表明我們的模型在判斷問題是否可回答方面更有效,能有效避免給出似是而非的“陷阱答案”。
本文總結
答案的可回答性是閱讀理解任務中的關鍵目標之一。本文針對閱讀理解任務特點,受人類閱讀模式的啟發,提出回顧式閱讀器,結合了略讀和精讀兩階段閱讀和理解模式。使用最新的預訓練語言模型作為基準模型,在兩個關鍵基準閱讀理解資料集 SQuAD2.0 和 NewsQA 上取得了新的最佳結果,並在新引入的統計顯著性分析中,顯著優於基線模型,並驗證了答案判別對閱讀理解的重要性和有效性。
上海交通大學自然語言處理實驗室-機器閱讀理解團隊
上海交通大學自然語言處理實驗室是國內外最早開展機器閱讀理解研究的團隊之一,持續投入機器閱讀理解核心技術研究。團隊由趙海教授主持指導,近年來團隊斬獲了多項國際比賽與評測榮譽:
1. 多次榮獲國際權威機器閱讀理解評測 SQuAD 2.0 冠軍,首次以單模型超越人類基準,首次在 F1 指標上超過 90%;
2. 2019 年榮獲國際大型考試類閱讀理解任務資料集 RACE 挑戰賽冠軍(聯合雲從科技);
3. 2019 年榮獲國際自然語言推理 SNLI 排行榜第一名;
4. 2017 年榮獲首屆“訊飛杯”全國中文機器閱讀理解評測(CMRC2017)單模型第一名。
延伸閱讀
語義感知BERT(SemBERT):
基於句法指導的閱讀理解模型(SG-Net):
https://arxiv.org/abs/1908.05147
增強雙向匹配網路(DCMN++):
https://arxiv.org/abs/1908.11511