在實現通用人工智慧的道路上,機器閱讀理解是一個必須要攻克的難題。針對這一難題,北京大學計算語言學教育部重點實驗室與百度的研究者提出了一種能幫助機器更好地從多篇文章中挑選出正確答案的方法。該研究的論文已被將於當地時間 7 月 15-20 日在澳大利亞墨爾本舉辦的 ACL 2018 會議接收。
機器閱讀理解(MRC)是指讓計算機具備通過文字資料獲取知識和回答問題的能力,人們相信這是構建通用智慧體的一個關鍵步驟(Chen et al., 2016)。MRC 社群近些年來增長迅速。隨著各種資料集的推出,MRC 任務也已經從早期的完形填空式的測試(Hermann et al., 2015; Hill et al., 2015)發展成了從單篇文章中提取答案(Rajpurkar et al.,2016),並且最近還發展成了更復雜的基於網路資料的問答(Nguyen et al., 2016; Dunn et al., 2017; He et al., 2017)。
在為這些 MRC 任務開發模型方面也已經取得了很不錯的進展,尤其是基於單篇文章提取答案方面(Wang and Jiang, 2016; Seo et al., 2016; Pan et al., 2017)。一個顯著的里程碑是好幾個 MRC 模型在 SQuAD 資料集上的表現已經超越了人類標註者(Rajpurkar et al., 2016)。但是,考慮到閱讀整個網路的終極目標,這種在單篇維基百科文章上取得成功仍還不夠。因此,幾個最新的資料集(Nguyen et al., 2016; He et al., 2017; Dunn et al., 2017)試圖通過納入搜尋引擎而以更接近真實情況的設定來設計 MRC 任務。對於每個問題,他們都會使用搜尋引擎來檢索多篇文章,並且讓 MRC 模型閱讀這些文章以給出最終答案。
這種多文章 MRC 的一大固有難題是:因為所有文章都與問題相關但通常是獨立寫出的,所以可能存在多個讓人困惑的候選答案(正確或不正確都可能)。表 1 給出了一個來自 MS-MARCO 的案例。我們可以看到所有的候選答案與問題都語義匹配,但它們在字面上是不一樣的,甚至有些還是不正確的。如 Jia and Liang (2017) 展示的那樣,這些讓人困惑的候選答案可能會讓 MRC 模型非常難以區分。因此,這樣的多文章 MRC 問題需要特別的考慮。
表 1:一個來自 MS-MARCO 的示例。粗體文字是根據邊界模型從每篇文章預測得到的候選答案。來自 [1] 的候選答案被這個模型選作了最終答案,而正確答案來自 [6] 並且可以通過來自 [3]、[4]、[5] 的答案驗證。
在本論文中,我們提出利用不同文章的候選答案來驗證最終的正確答案以及排除有噪聲的不正確的答案。我們的假設是:正確答案在這些文章中會出現得更加頻繁,並且通常具有一些共同點,而不正確的答案通常彼此各不相同。表 1 給出的示例就展示了這種現象。我們可以看到,從最後四篇文章中提取出的候選答案全都是該問題的可行答案且它們的語義彼此近似,而來自其它兩篇文章的候選答案是不正確的且沒有來自其它文章的資訊提供支援。因為人類通常會比較不同來源的候選答案以推斷最終答案,所以我們希望 MRC 模型也能受益於這種跨文章的答案驗證過程。
我們的模型的整體框架如圖 1 所示,其由三個模組組成。第一個模組,我們遵照基於邊界的 MRC 模型(Seo et al., 2016; Wang and Jiang, 2016),通過確定答案的起始位置和終止位置來尋找每篇文章的候選答案。第二個模組,我們建模從這些文章中提取的候選答案的含義,然後使用內容分數從另一個角度來衡量候選答案的質量。第三個模組,我們通過讓每個候選答案有能力基於其它候選答案的表徵關注其它答案而執行答案驗證。我們希望候選答案能根據它們的語義相似度彼此收集支援資訊並進一步決定每個候選答案是否正確。
圖 1:我們的多文章機器閱讀理解方法概覽
圖 2:一篇文章中詞的邊界概率和內容概率
因此,最終答案是由三個因素決定的:邊界、內容和跨文章的答案驗證。這三個步驟使用了不同的模組建模,可以在我們的端到端框架中聯合訓練。
我們在 MS-MARCO(Nguyen et al., 2016)和 DuReader(He et al., 2017)資料集上進行了廣泛的實驗。結果表明我們的答案驗證型 MRC 模型的表現顯著優於基準模型,並且在這兩個資料集上都實現了當前最佳的表現。
表 3:我們的方法與競爭模型在 MS-MARCO 測試集上的表現
表 4:在 DuReader 測試集上的表現
表 6:我們的模型為表 1 中給出的候選答案所預測的分數。儘管候選答案 [1] 得到了很高的邊界分數和內容分數,但驗證模型更偏向正確答案 [6] 並將其選作了最終答案。
使用跨文章答案驗證的多文章機器閱讀理解(Multi-Passage Machine Reading Comprehension with Cross-Passage Answer Verification)
論文地址:https://arxiv.org/abs/1805.02220
在真實網路資料上的機器閱讀理解(MRC)在回答一個問題時通常需要機器分析搜尋引擎檢索到的多篇文章。相比於在單篇文章上的 MRC,多文章 MRC 的難度更大,因為我們很可能會從不同的文章得到多個讓人困惑的候選答案。為了解決這個問題,我們提出了一種端到端的神經模型,能讓這些來自不同文章的候選答案基於它們的內容表徵彼此驗證。具體來說,我們是基於三個因素聯合訓練三個模組來預測最終答案:答案邊界、答案內容和跨文章答案驗證。實驗結果表明我們的方法的表現顯著優於基準,並且在英語的 MS-MARCO 資料集和漢語的 DuReader 資料集(這兩個資料集都是為真實環境中的 MRC 設計的)上都實現了當前最佳的表現。