資源:10份機器閱讀理解資料集

PaperWeekly發表於2017-09-16

Teaching Machines to Read and ComprehendPaperWeekly 推薦

#資料集

經典的機器閱讀理解資料集 CNN/Daily Mail。

論文連結:http://www.paperweekly.site/papers/490


The LAMBADA dataset: Word prediction requiring a broad discourse context

PaperWeekly 推薦

#資料集


大型資料集是深度學習技術發展的重要基礎,資料集的質量和難度也直接關係著模型的質量和實用性。機器閱讀理解的資料集有很多,包括中文和英文的資料集,每一個的構建都會帶來模型的創新,隨著難度不斷增加,對模型也提出了更高的要求。本文在構建資料集過程中為了保證任務的難度所採取的方法是值得借鑑的。


論文連結:http://www.paperweekly.site/papers/488


The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations

PaperWeekly 推薦

#資料集


經典的機器閱讀理解資料集 Children’s Book Test (CBT)。


論文連結:http://www.paperweekly.site/papers/489



SQuAD: 100,000+ Questions for Machine Comprehension of Text

PaperWeekly 推薦

#資料集


非常有名的機器閱讀理解資料集,並且舉辦了一個相關的比賽。


論文連結:http://www.paperweekly.site/papers/408




RACE: Large-scale ReAding Comprehension Dataset From Examinations

PaperWeekly 推薦

#資料集


Machine Reading Comprehension 這個領域非常活躍,尤其是經常分享出大規模的資料集。本文開放出的資料集為中國中學生英語閱讀理解題目,給定一篇文章和 5 道 4 選 1 的題目,包括了 28000+ passages 和 100,000 問題。


論文連結:http://www.paperweekly.site/papers/361


Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue SystemsPaperWeekly 推薦

#資料集


Maluuba 放出的對話資料集。


論文連結:http://www.paperweekly.site/papers/407


Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推薦

#資料集


分享一個 QA 大型資料集,資料來自 Stack Overflow。


論文連結:http://www.paperweekly.site/papers/354


NewsQA: A Machine Comprehension Dataset

PaperWeekly 推薦

#資料集


這篇文章來自於 Maluuba Research,介紹了一個新的資料集 NewsQA 用於機器閱讀理解 (Machine Reading Comprehension),NewQA 提供了超過 10 萬經過人工標註得到的問題-答案 (question-answer) 對。 這些問題和答案來自於美國 CNN 的 10,000 多篇新聞文章,答案還包括了相應文章以及文欄位落。資料集的收集包含了 4 個階段,旨在得到那些經過推理 (reasoning) 才能回答的問題。 


文中的分析也支援了 NewsQA 的問題回答超出了簡單的語言匹配和文字識別。 最後文章測量了人類在這個資料集上的表現,並將其與幾個神經模型進行了比較,機器與人類之間的差距 (0.198 in F1 score) 表明現有模型仍有很大的進步空間。

 

Machine Reading Comprehension 最近兩年在 NLP 領域得到了大量關注,這篇文章在 Related work 部分詳細介紹了目前主流的幾個資料集以及它們的優缺點,比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是,相比較於由 Stanford NLP Group 整理的 SQuAD,NewsQA 包含了更多的文章和問題,而且需要複雜推理的問題也比 SQuAD 更多 (33.9% v.s 20.5%)。


論文連結:http://www.paperweekly.site/papers/359



MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

PaperWeekly 推薦

#資料集


微軟放出的機器閱讀理解資料集。


論文連結:http://www.paperweekly.site/papers/406



Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推薦

#資料集


本文提出閱讀理解領域的一個新的資料集,稱為 triviaQA, 文章從 14 個問答網站收集問答對,然後根據問答對,將 bing 的搜尋結果和維基百科的相關頁融合出文章, 從而形成文章-問題-答案的資料樣本。 


資料集包括 650k 的 document-query-answer 對,95k 的問答對,在規模上超出了之前閱讀理解的主流資料集。在對資料集進行取樣分析得出,資料集中約 69% 的問題與文章具有不同的句法結構,41% 具有多義詞或者短語,40% 的答案需要多句聯合推斷才能得出答案,答案並不完全是文章中的子文字串,在這個資料集的基礎上,作者實現了三個模型,隨機實體模型,實體分類器,和 BiDAF 網路(其中 BiDAF 網路在 Squad 資料集中取得較好的成績,當前排第六名,EM 分與人類相比差 9 個點),在 triviaQA 上分別取得了約 15%,20%,40% 的效果,遠低於人類的表現 80%,這個巨大的鴻溝也意味著資料集對領域有著較大的推動作用。 

本文還對模型的表現進行分析, 可以看出, 在長文字, 文字資訊冗餘, 聯合推斷等情況下, 當前模型的表現都還不夠好。 這也意味著在閱讀理解領域, 還有很多工作有待探索。


論文連結:http://www.paperweekly.site/papers/293

資源:10份機器閱讀理解資料集

相關文章