1)基於機器閱讀理解的開放域問答
開放域問答(open-domain question answering)技術旨在給定任意型別的問題後,從任意資源中取得答案。傳統的開放域問答大多采用pipeline的方式,即先通過檢索系統找到跟問題相關的文件,再通過問答技術從文件中產生答案。最近幾年,隨著機器閱讀理解技術的發展,越來越多開放域問答的方法引入機器閱讀理解技術來抽取答案。例如,在ACL2017上史丹佛大學提出了一種神經開放域問答框架,如下圖:
以往的基於機器閱讀理解的技術往往存在兩個問題:首先,以往的方法大多是弱監督地根據問題找到的相關文件,然後將包含有正確答案的文件當做真正的文件來訓練,而通過這種弱監督獲取到的資料往往包含有錯誤的文件(false positive),例如下面這個例子:
其中文件一包含了正確答案(Lebron James),但是卻和問題不相關。文件二雖然包含了多個正確答案的,但是其中很多都不能用來回答問題。
其次,很多以前的方法都沒有考慮到答案概率的歸一化:每一篇文件單獨抽出來一個答案,以及這個答案的概率,最後各個文章的中的答案直接比較概率得到最終的答案,然而,這種過程會存在嚴重的答案概率偏置問題,如下面這個例子:
1是真正可以回答問題的。而且,文件選擇模型給出的文件1的概率也大於文件2的概率(0.7>0.3)。但是,由於文件1相對較長,所以其中的最佳答案概率在經過文件歸一化之後變得相對較低,而由於文件2比較短,並且其中的候選答案很少,所以答案2的概率在歸一化後相對較高。這樣,在經過了文件檢索和閱讀理解兩個步驟之後,答案2的概率會大於答案1的概率。這種現象稱為答案概率的偏置。
這兩篇文章中,雖然文件2)基於文件門控機制的閱讀器
首先,針對答案概率偏置問題,本文設計了一種專門針對開放域問答對文件門控機制的閱讀器。這個模型建立在傳統機器閱讀理解模型上,引入了文件控制器來控制最終答案的輸出,整體模型如下圖:
LSTM。包含有詞表示層,低階表示層,問題關注層,高階表示層以及答案輸出層。
其中,文件和問題的建模過程和傳統的機器閱讀理解模型類似,是基於關注機制的雙向和以往的模型不同,在表示的過程中, 我們加入了一個文件控制門(Document Gate),用以將文件選擇資訊引入到最終的結果中去。這個文件控制門會輸出一個0-1的分數,用以影響最後生成的答案的概率。
其中的文件控制器作用在問題的低階表示和文件的高階表示之上,如下圖:
K為候選文件的個數。可以看到,通過最上層的雙向LSTM,各個文件之間的資訊也聯絡了起來。最後的文件分數g是包含有上下文文件的得分,因而表示相關效能力更強。
其中最後,在訓練的時候,為了避免答案概率的偏置問題,本文采用了一種全域性歸一化的目標函式:
可以看到正確答案的得分和所有答案的得分進行了比較,所以這種優化目標會使最終正確答案的分數是全域性最高的。
3)基於自舉法的弱監督資料生成
為了解決傳統弱監督資料中存在的噪聲較大的問題,我們使用了一種基於自舉法(bootstrapping)的資料生成方法。具體來說,我們首先根據一些置信度較高的資料當成種子資料,例如,在SQuAD中種子資料可以是提供的最佳答案,在一些其他型別資料中可以是經過檢索模型打分最高的。然後,在這個種子模型中我們預訓練我們的模型,然後依靠上述的文件控制器的得分可以從未標註的弱監督資料中選擇出分數較高的文件,加入到訓練集裡面繼續訓練。整個過程如下:
4)實驗
本文采用了四個被經常使用的資料用以評估所提出的模型,分別是 SQuAD, SearchQA, WebQuestions, WikiMovies。關於這幾個資料集的一些資訊如下表:
本文提出的模型和以往的一些模型的效果對比如下圖:
可以看出來,本文提出的模型的在所有資料上都取得了較以往模型顯著的提升。
為了評估引入的文件控制門對文件選擇的作用,我們在SQuAD資料上來評估我們模型的效果。通過兩個指標可以判斷出文件選擇的效果:P@N:即通過文件選擇的前N個文件中是否包含最佳文件。AR:在返回的文件中最佳文件的平均位置。各種模型的文件選擇結果如下圖:
可以看到,對於文件選擇來說,我們提出的文件控制器能夠有效地選擇出正確文件,選擇的效果大大優於以往的方法。
本文的一個貢獻是在訓練目標中使用了全域性歸一化因子,因此,我們對這個全域性歸一化因子進行衡量,我們評估不同的模型在加入不同數目的噪聲後的表現,其結果如下圖:
可以看到,不同的模型在加入噪聲文件之後,沒有用全域性歸一化的模型效果顯著地降低,這個現象也被很多以前的多文件問答工作所證實。而由於我們使用了全域性歸一化進行訓練,因此模型受噪聲影響較小。
最後,為了評估本文所提出的自舉法的資料效果,我們評估在自舉法不斷進行的過程中模型的表現,其結果如下圖:
可以看到,在新資料不斷加入之後,模型的效果不斷提升,這也從另一方面說明了當模型效果很好的時候,基於模型選擇出的資料包含有更豐富的模式,使在其上訓練的模型表現更好。
總結:
本文提出了一種基於文件門控選擇的開放域問答模型。針對以往方法中存在的答案偏置問題本文提出了一種文件門控選擇器用以確定文件分數,並且使用全域性歸一化目標進行優化。針對傳統方法中存在弱監督資料噪聲過多的問題,我們使用了一種基於自舉法的資料增強方法用以改進擴充套件訓練資料,在實驗中我們發現本文提出的方法能夠有效地選擇出相應文件,並且對噪聲文件的地抗能力更強,在很多開放域問答資料中本文提出的方法都取得了最好的效果。