資料至上的人工智慧時代，最好的公開資料集有哪些？

思源發表於2017-02-14

現如今構建人工智慧或機器學習系統比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark，再加上通過 AWS 的大規模計算力、Google Cloud 或其他供應商的雲端計算，這些都意味著你可以在下午休閒時間使用膝上型電腦去訓練出最前沿的機器學習模型。

雖然不算是人工智慧訓練的最前沿，但人工智慧的無名英雄確實就是資料，許多許多標註或未標註的資料。研究部門和公司也都認識到資料民主化是加快人工智慧的必要步驟。

然而，涉及到機器學習或人工智慧的大多數產品強烈依賴於那些通常沒有開放的私有資料集，而本文將指出解決這種困境的辦法。

事實上，我們很難用一篇文章來說明哪些開放資料集是有用的，因為那些有用的開放資料集必須是可概念證明的，而什麼資料集對產品或確認特徵是有用的，在你收集你自己所有資料之前是不知道的。

重要的是，如果資料集有良好的表現並不能保證其訓練的機器學習系統在實際產品場景中表現良好。許多人在構建人工智慧系統時常常忘了構建一個新人工智慧解決方案或產品最困難的部分不是人工智慧本身或演算法，通常最困難的地方是資料收集和標註。標準資料集可以作為驗證或構建更優良解決辦法的良好起點。

在這個星期，我和一些機器學習專家們討論的都是有關標準資料集的問題。為了讓你能更輕鬆地構建人工智慧系統，我們蒐集了一些開源資料集，這些開源資料集是我們認為在人工智慧的世界裡你所需要了解的。

計算機視覺

MNIST: 最通用的健全檢查。25x25 的資料集，中心化，B&W 手寫數字。這是個容易的任務——但是在 MNIST 有效，不等同於其本身是有效的。
地址：http://pjreddie.com/projects/mnist-in-csv/
CIFAR 10 & CIFAR 100: 32x32 彩色影像。雖不再常用，但還是用了一次，可以是一項有趣的健全檢查。
地址：https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet: 新演算法實際上的影像資料集。很多圖片 API 公司從其 REST 介面獲取標籤，這些標籤被懷疑與 ImageNet 的下一級 WordNet 的 1000 個範疇很接近。
地址：http://image-net.org/
LSUN: 場景理解具有很多輔助任務（房間佈置評估、顯著性預測等）和一個相關競爭。
地址：http://lsun.cs.princeton.edu/2016/
PASCAL VOC: 通用影像分割／分類：對於構建真實世界的影像註釋毫無用處，對於基線則意義重大。
地址：http://host.robots.ox.ac.uk/pascal/VOC/
SVHN: 來自谷歌街景檢視（Google Street View）的房屋數量。把這想象成荒野之中的週期性 MNIST。
地址：http://ufldl.stanford.edu/housenumbers/
MS COCO: 帶有一個相關性競爭的通用影像理解／字幕。
地址：http://mscoco.org/
Visual Genome: 非常詳細的視覺知識庫，並帶有 100K 影像的深字幕。
地址：http://visualgenome.org/
Labeled Faces in the Wild:通過名稱識別符號，已經為被裁剪的面部區域（用 Viola-Jones）打了標籤。現有人類的子集在資料集中有兩個影像。對於這裡做面部匹配系統訓練的人來說，這很正常。
地址：http://vis-www.cs.umass.edu/lfw/

自然語言

文字分類資料集（2015 年來自 Zhang 等人）：一個用於文字分類的合 8 個資料集為 1 個的大型資料集。這些是用於新文字分類的最常被報導的基線。樣本大小從 120K 到 3.6M, 問題從 2 級到 14 級。資料集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText：來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語言建模語料庫。
地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs：從包含重複／語義相似性標籤的 Quora 釋放出來的第一個資料集。
地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD: 史丹佛大學問答資料集（The Stanford Question Answering Dataset）——一個被廣泛應用於問題回答和閱讀理解的資料集，其中每個問題的答案形式是文字的一個片段或碎片。
地址：https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset: 手動生成的模擬陳述問題／回答與維基百科文章的難度評級相對應。
地址：http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets: 用於狀態性自然語言理解研究的人工生成的精密資料集。
地址：https://datasets.maluuba.com/
Billion Words: 大型，有統一目標的語言建模資料集。常被用來訓練諸如 word2vec 或 Glove 的分散式詞表徵。
地址：http://www.statmt.org/lm-benchmark/
Common Crawl: PB 級規模的網路爬行——常被用來學習詞嵌入。可從 Amazon S3 上免費獲取。由於它是 WWW 的抓取，同樣也可以作為網路資料集來使用。
地址：http://commoncrawl.org/the-data/
bAbi: 來自 FAIR（Facebook AI Research）的合成式閱讀理解與問答資料集。
地址：https://research.fb.com/projects/babi/
The Children’s Book Test：從來自古登堡計劃的童書中提取（問題+上下文，回答）組的基線。這對問題回答、閱讀理解和模擬陳述查詢有用。
地址：https://research.fb.com/projects/babi/
Stanford Sentiment Treebank: 標準的情感資料集，在每一個句子解析樹的節點上帶有細膩的情感註解。
地址：http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups: 文字分類經典資料集中的一個。通常可用作純分類或任何 IR／索引演算法的基準。
地址：http://qwone.com/~jason/20Newsgroups/
Reuters: 舊的，純粹基於分類的資料集與來自新聞專線的文字。常用於教程。
地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB:一個用於二元情感分類的更舊更小的資料集。
地址：http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase: 來自著名的 UCI 機器學習庫較久的經典垃圾電子郵件資料集。由於資料集的策劃細節，這可以是一個學習個性化過濾垃圾郵件的有趣基線。
地址：https://archive.ics.uci.edu/ml/datasets/Spambase

語音

大多數語音識別資料集是有所有權的，這些資料為收集它們的公司帶來了大量的價值，但在這一領域裡，許多可用的資料集都是比較舊的。

2000 HUB5 English: 僅僅只包含英語的語音資料，最近百度發表的論文《深度語音：擴充套件端對端語音識別（Deep Speech: Scaling up end-to-end speech recognition）》就是使用了該語音資料集。
地址：https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech：包括文字和語音的有聲讀物資料集。它是近 500 小時由多人朗讀清晰的各類有聲讀物資料集，且由包含文字和語音的書籍章節組織起結構。
地址：http://www.openslr.org/12/
VoxForge：帶口音的語音清潔資料集，特別是對於如期望對不同口音或腔調的語音有魯棒性需求的系統很有用。
地址：http://www.voxforge.org/
TIMIT：只包含英語的語音識別資料集。
地址：https://catalog.ldc.upenn.edu/LDC93S1
CHIME：包含噪聲的語音識別資料集。該資料集包含真實、模擬和清潔的語音記錄。實際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄，模擬資料是在結合話語行為和清潔無噪語音記錄的多環境下生成的。
地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM：TED 演講的語音轉錄資料集。1495 份 TED 演講的語音記錄，並且這些語音記錄有對應的全文字。
地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

推薦和排序系統

Netflix Challenge：第一個主要 Kaggle 風格的資料庫。因為存在隱私問題，只能非正式地獲得授權。
地址：http://www.netflixprize.com/
MovieLens：各種電影的評論資料庫，通常用於基線協同過濾（collaborative filtering baselines）。
地址：https://grouplens.org/datasets/movielens/
Million Song Dataset：在 Kaggle 上大量、富後設資料（metadata-rich）、開源的資料集，有利於人們試驗混合推薦系統（hybrid recommendation systems）。
地址：https://www.kaggle.com/c/msdchallenge
Last.fm：音樂推薦資料集，該資料集能有權訪問底層社交網路和其他後設資料，而這樣的資料集正對混合系統有巨大的作用。
地址：http://grouplens.org/datasets/hetrec-2011/

網路和圖表

Amazon Co-Purchasing 和 Amazon Reviews：從亞馬遜以及相關產品評論資料網路爬取的如「使用者買了這個同時也會買哪個」這樣的語句。適合在網際網路中進行推薦系統的測試。
地址：http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset：在 Friendster 的重心轉入到遊戲網站之前，這家網站釋出了包含 103,750,348 個使用者好友列表的匿名資料集。
地址：https://archive.org/details/friendster-dataset-201107

地理測繪資料庫

OpenStreetMap：免費許可的全球向量資料集。其包含了舊版的美國人口統計局的 TIGER 資料。
地址：http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8：整個地球表面的衛星拍攝資料，每隔幾週會更新一次。
地址：https://landsat.usgs.gov/landsat-8
NEXRAD：多普雷達掃描的美國大氣環境。
地址：https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

人們常常認為解決一個資料集上的問題就相當於對產品進行了一次完整的審視。因為我們可以使用這些資料集進行驗證或證明一個概念，但是也不要忘了測試模型或原型是如何獲取新的和更實際的資料來提高運算效果，獲得優良產品的。資料驅動的成功公司通常從他們收集新資料、私有資料的能力中獲得力量，從而以一種具有競爭力的方式提高他們的表現。

最後的話

好資料集還有很多，這份列表當然不可能完全覆蓋，如果你知道還有很好的資料集值得推薦，請通過評論與我們分享。

資料採集的方法有哪些
2019-06-12
2021，國產資料庫人的最好時代
2021-05-06
資料庫
大資料時代的資料治理！
2023-12-14
大資料
新一代開源時序資料庫TDengine有哪些優勢？
2022-09-15
資料庫
資料為王安全至上
2019-07-03
資料清洗的方法有哪些？
2019-03-08
圖資料庫——大資料時代的高鐵
2021-09-09
資料庫大資料
雲和恩墨蓋國強：2020，這是資料庫最好的時代！
2020-11-25
資料庫
資料探勘的步驟有哪些？
2023-12-08
python常用的資料庫有哪些?
2020-10-28
Python資料庫
Rust的資料DataFrame庫有哪些？
2022-10-06
Rust
資料治理的價值有哪些
2022-03-21
資料探勘的過程有哪些
2021-11-29
資料探勘的辦法有哪些
2022-03-16
未經同意便“被公開” 大資料時代個人隱私資料如何保護？
2018-06-20
大資料
Oracle資料倉儲的實時資料採集XS
2022-03-21
Oracle
網路安全公開資料集Maple-IDS，惡意流量檢測資料集開放使用！
2024-08-31
常見的資料整合有哪些方法？有哪些分類？
2022-07-13
大資料開發有哪些難點？
2019-06-04
大資料
有哪些常見的資料探勘方法？
2023-11-22
常用的資料分析方法論有哪些？
2023-12-11
硬碟資料恢復的神器有哪些？
2019-01-28
硬碟資料恢復
大資料分析的誤區有哪些
2021-12-20
大資料
vuejs傳遞資料的方法有哪些
2021-09-11
VueJS
大資料的就業方向有哪些?
2021-05-25
大資料就業
資料治理的重要性有哪些
2022-12-15
大資料分析的型別有哪些
2022-12-12
大資料型別
資料型別: 資料型別有哪些？
2021-02-01
資料型別
時序資料庫的叢集方案？
2022-05-18
資料庫
大資料時代，怎樣才能獲得真正有價值的資訊
2018-07-23
大資料
mysql資料庫查詢時用到的分頁方法有哪些
2024-08-02
MySql資料庫
雲端計算時代，資料庫架構設計有哪些改變？
2018-05-07
資料庫架構
大資料data開發有哪些好的輔助工具?
2019-05-26
大資料
時序資料庫-01-時序資料庫有哪些？為什麼要使用
2024-07-19
資料庫
物件代理資料庫：大資料時代下的應需之作
2018-08-15
物件資料庫大資料
蛛網時代：資料大爆炸下的資料視覺化
2018-09-10
視覺化
Bond——大資料時代的資料交換和儲存格式
2024-07-08
大資料
大資料時代，資料倉儲究竟是幹嘛的？
2022-12-12
大資料
奈學：資料湖和資料倉儲的區別有哪些？
2020-06-28

資料至上的人工智慧時代，最好的公開資料集有哪些？

相關文章