學好機器學習,這裡有想要的一切

PaperWeekly發表於2018-06-08

本期推薦的論文筆記來自 PaperWeekly 社群使用者 @wutong_SEUDeepMind 提出了一個全新閱讀理解資料集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文字中找到最相關的段落並且總結出問題的答案。

關於作者:吳桐,東南大學碩士生,研究方向知識圖譜

■ 論文 | The NarrativeQA Reading Comprehension Challenge

■ 連結 | https://www.paperweekly.site/papers/1397

■ 原始碼 | https://github.com/deepmind/narrativeqa

論文導讀

相比於資訊抽取,閱讀理解任務要求機器能夠整合篇幅較長的上下文資訊(如整篇文章)並能夠對事件進行推理。但是現階段的閱讀理解任務仍然能夠以一種投機取巧的方法,利用淺層的語言形態學資訊(如問答對之間的文字相似性以及整個文章內的統計詞頻)從問題中直接找到關於答案的蛛絲馬跡。

因此文中提出了一個新的閱讀理解資料集,旨在迫使機器必須通篇閱讀書籍或者電影指令碼(遠遠長於一篇文章)才能回答問題。該資料集更側重於發掘機器閱讀理解對於含蓄的敘述的理解能力而不是基於淺層的模式匹配就能夠直接得到答案。

工作動機

人在閱讀的時候往往通讀全篇,並不一定能夠記住書中的每一點細節,但是一定能夠注意到書中有哪些關鍵的實體,並且記住這些實體的關係是怎麼樣的。

但是,現在的閱讀理解任務的 benchmark 資料集並不能夠針對這點進行測評,相反,多數問題可以通過 question 和 paragraph 之間的 pattern match 得到答案。

因此 DeepMind 提出了這個新的資料集 NarrativeQA,機器需要面對的是一整部書籍或電影劇本,在沒有限定答案範圍的前提下,機器需要從文字中找到最相關的段落並且總結出問題的答案。該任務十分具有挑戰性。

那麼,這個新的資料集理論上應該具備以下特徵: 

  • 資料量足夠大,用以滿足神經網路的訓練需求;

  • 問題和答案最好都是自然語言,且答案最好和多個片段相關或者需要從一大段話中總結出來;

  • 標註者要自己總結答案,從更高的層面理解文章中實體之間的關係,而且最好使用個性化的語言描述而不是從文中直接擷取答案;

  • 從判別器的角度上講,最好能夠從答案的流暢性和正確性等兩個角度進行判斷;

  • 資料量需要控制在對於當前既有的模型來說十分困難,但仍處在人可以解決的範圍內。

相關工作

主要提一下三個,SQuADMS MARCO SearchQA

學好機器學習,這裡有想要的一切

SQuAD 的場景比較侷限,給定的來源於維基百科短文字,眾包標註的問題以及從短文字中直接擷取的答案。 MS MARCO 提出了更開放的資料集,文字來自搜尋引擎,真實的使用者問題以及眾包標註的答案,但是多數答案仍然不可避免的是文字中的原文,多數在 SQuAD 測評中取得不錯成績的模型在 MS MARCO 上仍然能夠取得不俗的結果。SearchQA 的文字來自搜素引擎,問題來自 Jeopardy,對,就是當年 Watson 一戰成名的那個節目,然後統計發現,資料集中 80% 的答案少於兩個單詞,99% 的答案少於 5 個單詞,抽樣調查發現 72% 的問題答案是命名實體。論文作者似乎對這種很不屑,但我想說命名實體是我們這些知識圖譜人的心頭愛啊。

資料集分析

資料集的問答對中主要會出現 Title,Question,Answer,Summary snippet,Story snippet 等欄位,其中 title 確定了問答對的出處,即圍繞著哪本書或劇本來進行閱讀。其中相關片段由人工標註得出,但並不建議在訓練中作為標註語料使用,且最終的測試集中不會出現該類片段,需要程式自行設計文字段落的定位方案。 

學好機器學習,這裡有想要的一切

資料集的主體是小說以及電影劇本,問答集主要根據小說或電影的摘要資訊進行提問,如果問答集同時提供了摘要,那麼和現在的閱讀理解任務也就沒有什麼不同了,但是,在沒有提供摘要及標明相關段落的基礎上,回答此類問題需要程式通讀整部書籍,整理分析所有相關段落以進行閱讀理解。

任務 

提供一組測試任務:分別以摘要和全文作為 context,測試基於答案生成和答案選擇的兩類閱讀理解問題。測試指標包括 Bleu-1,Bleu-4,Rouge—L 以及基於答案排序的 MRR。

學好機器學習,這裡有想要的一切

學好機器學習,這裡有想要的一切

Baseline實驗結果

文中提出了三類對比,一將其視為 IR 任務,二直接應用 LSTM 預測字尾詞,三在全書範圍內 IR+BiDAF。 最終的實驗結果證明在全書範圍內的閱讀理解任務上,暫沒有演算法能夠取得很好的結果。

相關文章