資源：10份機器閱讀理解資料集

PaperWeekly發表於2017-09-16

❶

Teaching Machines to Read and ComprehendPaperWeekly 推薦

#資料集

經典的機器閱讀理解資料集 CNN/Daily Mail。

論文連結：http://www.paperweekly.site/papers/490

❷

The LAMBADA dataset: Word prediction requiring a broad discourse context

PaperWeekly 推薦

#資料集

大型資料集是深度學習技術發展的重要基礎，資料集的質量和難度也直接關係著模型的質量和實用性。機器閱讀理解的資料集有很多，包括中文和英文的資料集，每一個的構建都會帶來模型的創新，隨著難度不斷增加，對模型也提出了更高的要求。本文在構建資料集過程中為了保證任務的難度所採取的方法是值得借鑑的。

論文連結：http://www.paperweekly.site/papers/488

❸

The Goldilocks Principle: Reading Children's Books with Explicit Memory Representations

PaperWeekly 推薦

#資料集

經典的機器閱讀理解資料集 Children’s Book Test (CBT)。

論文連結：http://www.paperweekly.site/papers/489

❹

SQuAD: 100,000+ Questions for Machine Comprehension of Text

PaperWeekly 推薦

#資料集

非常有名的機器閱讀理解資料集，並且舉辦了一個相關的比賽。

論文連結：http://www.paperweekly.site/papers/408

❺

RACE: Large-scale ReAding Comprehension Dataset From Examinations

PaperWeekly 推薦

#資料集

Machine Reading Comprehension 這個領域非常活躍，尤其是經常分享出大規模的資料集。本文開放出的資料集為中國中學生英語閱讀理解題目，給定一篇文章和 5 道 4 選 1 的題目，包括了 28000+ passages 和 100,000 問題。

論文連結：http://www.paperweekly.site/papers/361

❻

Frames: A Corpus for Adding Memory to Goal-Oriented Dialogue SystemsPaperWeekly 推薦

#資料集

Maluuba 放出的對話資料集。

論文連結：http://www.paperweekly.site/papers/407

❼

Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推薦

#資料集

分享一個 QA 大型資料集，資料來自 Stack Overflow。

論文連結：http://www.paperweekly.site/papers/354

❽

NewsQA: A Machine Comprehension Dataset

PaperWeekly 推薦

#資料集

這篇文章來自於 Maluuba Research，介紹了一個新的資料集 NewsQA 用於機器閱讀理解 (Machine Reading Comprehension)，NewQA 提供了超過 10 萬經過人工標註得到的問題-答案 (question-answer) 對。這些問題和答案來自於美國 CNN 的 10,000 多篇新聞文章，答案還包括了相應文章以及文欄位落。資料集的收集包含了 4 個階段，旨在得到那些經過推理 (reasoning) 才能回答的問題。

文中的分析也支援了 NewsQA 的問題回答超出了簡單的語言匹配和文字識別。最後文章測量了人類在這個資料集上的表現，並將其與幾個神經模型進行了比較，機器與人類之間的差距 (0.198 in F1 score) 表明現有模型仍有很大的進步空間。

Machine Reading Comprehension 最近兩年在 NLP 領域得到了大量關注，這篇文章在 Related work 部分詳細介紹了目前主流的幾個資料集以及它們的優缺點，比如 MCTest, CNN/Daily Mail, Children’s Book Test, SQuAD。值得一提的是，相比較於由 Stanford NLP Group 整理的 SQuAD，NewsQA 包含了更多的文章和問題，而且需要複雜推理的問題也比 SQuAD 更多 (33.9% v.s 20.5%)。

論文連結：http://www.paperweekly.site/papers/359

❾

MS MARCO: A Human Generated MAchine Reading COmprehension Dataset

PaperWeekly 推薦

#資料集

微軟放出的機器閱讀理解資料集。

論文連結：http://www.paperweekly.site/papers/406

❿

Quasar: Datasets for Question Answering by Search and Reading

PaperWeekly 推薦

#資料集

本文提出閱讀理解領域的一個新的資料集，稱為 triviaQA, 文章從 14 個問答網站收集問答對，然後根據問答對，將 bing 的搜尋結果和維基百科的相關頁融合出文章，從而形成文章-問題-答案的資料樣本。

資料集包括 650k 的 document-query-answer 對，95k 的問答對，在規模上超出了之前閱讀理解的主流資料集。在對資料集進行取樣分析得出，資料集中約 69% 的問題與文章具有不同的句法結構，41% 具有多義詞或者短語，40% 的答案需要多句聯合推斷才能得出答案，答案並不完全是文章中的子文字串，在這個資料集的基礎上，作者實現了三個模型，隨機實體模型，實體分類器，和 BiDAF 網路（其中 BiDAF 網路在 Squad 資料集中取得較好的成績，當前排第六名，EM 分與人類相比差 9 個點），在 triviaQA 上分別取得了約 15%，20%，40% 的效果，遠低於人類的表現 80%，這個巨大的鴻溝也意味著資料集對領域有著較大的推動作用。

本文還對模型的表現進行分析，可以看出，在長文字，文字資訊冗餘，聯合推斷等情況下，當前模型的表現都還不夠好。這也意味著在閱讀理解領域，還有很多工作有待探索。

論文連結：http://www.paperweekly.site/papers/293

資源：10份機器閱讀理解資料集

微軟機器閱讀理解超越人類水平，CoQA資料集得分重新整理記錄
2019-05-04
微軟
百度發起機器閱讀理解競賽，提供中文資料集，獲勝團隊獎10萬
2018-03-02
機器閱讀理解Match-LSTM模型
2021-09-09
模型
機器閱讀理解Attention-over-Attention模型
2021-09-09
模型
用Keras搞一個閱讀理解機器人
2017-02-27
Keras機器人
ACL2018最佳短論文：史丹佛大學釋出的機器閱讀理解問答資料集SQuAD 2.0
2018-06-13
資料探勘資料集下載資源
2015-08-18
5 個開源 RSS 訂閱閱讀器
2017-04-10
大資料叢集修機器名
2017-10-25
大資料
機器閱讀理解模型Stanford Attentive Reader原始碼
2021-09-09
模型原始碼
EasyNLP帶你實現中英文機器閱讀理解
2022-09-28
Laravel 文件閱讀：資料庫起步
2017-08-24
Laravel資料庫
【資源】史上最全資料集彙總
2018-04-24
《Effective C++》閱讀總結（三）:資源管理
2022-05-29
C++
PHPer 面試指南-擴充套件閱讀資源整理
2018-01-24
PHP面試套件
伺服器ODBC資料來源備份恢復
2012-07-07
伺服器
如何從資料、模型和訓練角度提升閱讀理解系統效能？
2018-10-29
模型
可商用的手機app《9秒小說閱讀器》開源
2014-06-26
APP
清華 NLP 團隊推薦：必讀的77篇機器閱讀理解論文
2018-11-01
機器閱讀理解打破人類記錄，解讀阿里iDST SLQA 技術
2018-01-14
阿里
Win10資源管理器資料夾錯亂
2024-07-28
Win10
影像處理開源資料集
2020-06-08
C#與資料庫訪問技術總結（十二）資料閱讀器（DataReader）2
2014-11-03
C#資料庫
論文推薦：機器閱讀理解，文字摘要，Seq2Seq加速
2017-05-14
資源 | 25個深度學習開源資料集，have fun !
2018-04-18
深度學習
大資料行業人士必知10大資料思維原理，可以讓機器人讀懂你！
2018-12-31
大資料行業機器人
機器閱讀理解 / 知識庫 / 深度學習 / 對話系統 / 神經機器翻譯 | 本週值得讀
2018-03-21
深度學習
教你如何閱讀Oracle資料庫官方文件
2017-04-02
Oracle資料庫
大資料解讀上海市民閱讀習慣
2015-05-07
大資料
C#與資料庫訪問技術總結（十一）之資料閱讀器（DataReader）1
2014-11-03
C#資料庫
Laravel 文件閱讀：資料庫之查詢語句構造器（上篇）
2017-08-26
Laravel資料庫
網頁資料採集器
2010-03-18
網頁
機器閱讀理解與文字問答技術研究 | 博士學位論文
2019-12-20
中國人工智慧大賽機器閱讀理解任務冠軍方案出爐~
2020-09-14
人工智慧
中國人工智慧大賽機器閱讀理解任務冠軍方案出爐
2020-09-15
人工智慧
2、資源編輯器篇 -- 資源分析器(ResourceAnalyzer) 讀取資源依賴資訊基於GF (EllanJiang / GameFramework)
2020-10-02
GAMFramework
這是一份非常全面的開源資料集，你，真的不想要嗎？
2018-09-05
主機日常效能資料採集
2015-08-17

資源：10份機器閱讀理解資料集

相關文章