這是一份非常全面的開源資料集，你，真的不想要嗎？

机器之心發表於2018-09-05

原文網址 : http://www.jiqizhixin.com/articles/2018-09-05-2

近期，skymind.ai 釋出了一份非常全面的開源資料集。內容包括生物識別、自然影像以及深度學習影像等資料集，現機器之心將其整理如下：（內附連結哦~）

最近新增資料集

開源生物識別資料：http://openbiometrics.org/

Google Audioset：擴充套件了 632 個音訊分類樣本，並從 YouTube 影片中提取了 2，084，320 個人類標記的 10 秒聲音片段。
地址：https://research.google.com/audioset/

Uber 2B trip data：首次展示 2 百萬公里的出行資料。
地址：https://movement.uber.com/cities

Yelp Open Dataset：Yelp 資料集是用於 NLP 的 Yelp 業務、評論和使用者資料的子集。
地址：https://www.yelp.com/dataset

Core50：用於連續目標識別的新資料集和基準。
地址：https://vlomonaco.github.io/core50/

Kaggle 資料集：https://www.kaggle.com/datasets

Data Portal：http://dataportals.org/

Open Data Monitor：https://opendatamonitor.eu/

Quandl Data Portal：https://www.quandl.com/

Mut1ny 頭部/面部分割資料集：http://www.mut1ny.com/face-headsegmentation-dataset

Github 上的優秀公共資料集：https://www.kdnuggets.com/2015/04/awesome-public-datasets-github.html

頭部 CT 掃描資料集：491 次掃描的 CQ500 資料集。
地址：http://headctstudy.qure.ai/

自然影像資料集

MNIST：手寫數字影像。最常用的可用性檢查。格式 25x25、居中、黑白手寫數字。這是一項簡單的任務——僅某部分適用於 MNIST，不意味著它有效。
地址：http://yann.lecun.com/exdb/mnist/

CIFAR10 / CIFAR100：32x32 彩色影像，10/100 類。雖然仍有趣卻不再常用的可用性檢查。
地址：http://www.cs.utoronto.ca/~kriz/cifar.html

Caltech 101：101 類物體的圖片。
地址：http://www.vision.caltech.edu/Image_Datasets/Caltech101/

Caltech 256：256 類物體的圖片。
地址：http://www.vision.caltech.edu/Image_Datasets/Caltech256/

STL-10 資料集：用於開發無監督特徵學習、深度學習、自學習演算法的影像識別資料集。像修改過的 CIFAR-10。
地址：http://cs.stanford.edu/~acoates/stl10/

The Street View House Numbers (SVHN)：Google 街景中的門牌號碼。可以把它想象成復現的戶外 MNIST。
地址：http://ufldl.stanford.edu/housenumbers/

NORB：玩具擺件在各種照明和姿勢下的雙目影像。
地址：http://www.cs.nyu.edu/~ylclab/data/norb-v1.0/

Pascal VOC：通用影像分割/分類——對於構建真實世界影像註釋不是非常有用，但對基線很有用。
地址：http://pascallin.ecs.soton.ac.uk/challenges/VOC/

Labelme：帶註釋影像的大型資料集。
地址：http://labelme.csail.mit.edu/Release3.0/browserTools/php/dataset.php

ImageNet：新演算法的客觀影像資料集（de-facto image dataset）。許多影像 API 公司都有來自其 REST 介面的標籤，這些標籤近 1000 類;WordNet; ImageNet 的層次結構。
地址：http://image-net.org/

LSUN：具有很多輔助任務的場景理解（房間佈局估計，顯著性預測（saliency prediction）等），有關聯競賽。（associated competition）。
地址：http://lsun.cs.princeton.edu/2016/

MS COCO：通用影像理解/說明，有關聯競賽。
地址：http://mscoco.org/

COIL 20：不同物體在 360 度旋轉中以每個角度成像。
地址：http://www.cs.columbia.edu/CAVE/software/softlib/coil-20.php

COIL100：不同物體在 360 度旋轉中以每個角度成像。
地址：http://www1.cs.columbia.edu/CAVE/software/softlib/coil-100.php

Google 開源影像：有 900 萬張影像的網址集合，這些影像透過知識共享（Creative Commons）被標註成 6000 多個類別。
地址：https://research.googleblog.com/2016/09/introducing-open-images-dataset.html

地理空間資料

OpenStreetMap：免費提供整個星球的向量資料。它包含（舊版）美國人口普查局的資料。
地址：http://wiki.openstreetmap.org/wiki/Planet.osm

Landsat8：整個地球表面的衛星視角圖，每隔幾周更新一次。
地址：https://landsat.usgs.gov/landsat-8

NEXRAD：美國大氣層的多普勒雷達掃描圖。
地址： https://www.ncdc.noaa.gov/data-access/radar-data/nexrad

————————我是深度學習影像的分割線————————

人工資料集

Arcade Universe：一個人工資料集生成器，影像包含街機遊戲 sprite，如 tetris pentomino / tetromino。該生成器基於 O. Breleux 的 bugland 資料集生成器。
地址：https://github.com/caglar/Arcade-Universe

以 Baby AI School 為靈感的資料集集合。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAISchool

Baby AI Shapes Dataset：區分 3 種簡單形狀。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIShapesDatasets

Baby AI Image And Question Dataset：一個問題-影像-答案資料集。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BabyAIImageAndQuestionDatasets

Deep Vs Shallow Comparison ICML2007：為實證評估深層架構而生成的資料集。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/DeepVsShallowComparisonICML2007

MnistVariations：在 MNIST 中引入受控變化。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/MnistVariations

RectanglesData：區分寬矩形和垂直矩形。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/RectanglesData

ConvexNonConvex：區分凸形和非凸形狀。
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/ConvexNonConvex

BackgroundCorrelation：嘈雜 MNIST 背景下相關度的控制
地址：http://www.iro.umontreal.ca/~lisa/twiki/bin/view.cgi/Public/BackgroundCorrelation

人臉資料集

Labelled Faces in the Wild：13000 個經過裁剪的人臉區域（使用已經用名稱識別符號標記過的 Viola-Jones）。資料集中每個人員的子集裡包含兩個影像——人們常用此資料集訓練面部匹配系統。
地址：http://vis-www.cs.umass.edu/lfw/

UMD Faces：有 8501 個主題的 367，920 個面孔的帶註釋資料集。
地址：http://www.umdfaces.io/

CASIA WebFace：超過 10，575 個人經面部檢測的 453，453 張影像的面部資料集。需要一些質量過濾。
地址：http://www.cbsr.ia.ac.cn/english/CASIA-WebFace-Database.html

MS-Celeb-1M：100 萬張全世界的名人圖片。需要一些過濾才能在深層網路上獲得最佳結果。
地址：https://www.microsoft.com/en-us/research/project/ms-celeb-1m-challenge-recognizing-one-million-celebrities-real-world/

Olivetti：一些人類的不同影像。
地址：http://www.cs.nyu.edu/~roweis/data.html

Multi-Pie：The CMU Multi-PIE Face 資料庫。
地址：http://www.multipie.org/

Face-in-Action：http://www.flintbox.com/public/project/5486/

JACFEE：日本和白種人面部情緒表達的影像。
地址：http://www.humintell.com/jacfee/

FERET：面部識別技術資料庫。
地址：http://www.itl.nist.gov/iad/humanid/feret/feret_master.html

mmifacedb：MMI 面部表情資料庫。
地址：http://www.mmifacedb.com/

IndianFaceDatabase：http://vis-www.cs.umass.edu/~vidit/IndianFaceDatabase/

耶魯人臉資料庫：http://vision.ucsd.edu/content/yale-face-database

耶魯人臉資料庫 B：http://vision.ucsd.edu/~leekc/ExtYaleDatabase/ExtYaleB.html

Mut1ny 頭部/面部分割資料集：畫素超過 16K 的面部/頭部分割影像
地址：http://www.mut1ny.com/face-headsegmentation-dataset

————————我是深度學習影片的分割線————————

影片資料集

Youtube-8M：用於影片理解研究的大型多樣化標記影片資料集。
地址：https://research.googleblog.com/2016/09/announcing-youtube-8m-large-and-diverse.html

文字資料集

20 newsgroups：分類任務，將出現的單詞對映到新聞組 ID。用於文字分類的經典資料集之一，通常可用作純分類的基準或任何 IR /索引演算法的驗證。
地址：http://qwone.com/~jason/20Newsgroups/

路透社新聞資料集：（較舊）純粹基於分類的資料集，包含來自新聞專線的文字。常用於教程。
地址：https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection

賓州樹庫：用於下一個單詞或字元預測。
地址：http://www.cis.upenn.edu/~treebank/

UCI‘s Spambase：來自著名的 UCI 機器學習庫的（舊版）經典垃圾郵件資料集。根據資料集的組織細節，可以將它作為學習私人垃圾郵件過濾的基線。
地址：https://archive.ics.uci.edu/ml/datasets/Spambase

Broadcast News：大型文字資料集，通常用於下一個單詞預測。
地址：http://www.ldc.upenn.edu/Catalog/CatalogEntry.jsp?catalogId=LDC97S44

文字分類資料集：來自 Zhang et al., 2015。用於文字分類的八個資料集合集。這些是用於新文字分類基線的基準。樣本大小從 120K 至 3.6M 不等，範圍從二進位制到 14 個分類問題。資料集來自 DBPedia、亞馬遜、Yelp、Yahoo！和 AG。
地址：https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M

WikiText：來自維基百科高質量文章的大型語言建模語料庫，由 Salesforce MetaMind 策劃。
地址：http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/

SQuAD：史丹佛問答資料集——應用廣泛的問答和閱讀理解資料集，其中每個問題的答案都以文字形式呈現。
地址：https://rajpurkar.github.io/SQuAD-explorer/

Billion Words 資料集：一種大型通用語言建模資料集。通常用於訓練分散式單詞表徵，如 word2vec。
地址：http://www.statmt.org/lm-benchmark/

Common Crawl：網路的位元組級抓取——最常用於學習單詞嵌入。可從 Amazon S3 上免費獲取。也可以用作網路資料集，因為它可在全球資訊網進行抓取。
地址：http://commoncrawl.org/the-data/

Google Books Ngrams：來自 Google book 的連續字元。當單詞首次被廣泛使用時，提供一種簡單的方法來探索。
地址：https://aws.amazon.com/datasets/google-books-ngrams/

Yelp 開源資料集：Yelp 資料集是用於 NLP 的 Yelp 業務、評論和使用者資料的子集。
地址：https://www.yelp.com/dataset

————————我是深度學習文字的分割線————————

問答資料集

Maluuba News QA 資料集：CNN 新聞文章中的 12 萬個問答對。
地址：https://datasets.maluuba.com/NewsQA

Quora 問答對：Quora 釋出的第一個資料集，包含重複/語義相似性標籤。
地址：https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs

CMU Q / A 資料集：手動生成的模擬問/答對，維基百科文章對其難度評分很高。
地址：http://www.cs.cmu.edu/~ark/QA-data/

Maluuba 面向目標的對話：程式性對話資料集，對話旨在完成任務或做出決定。常用於聊天機器人。
地址：https://datasets.maluuba.com/Frames

bAbi：來自 Facebook AI Research（FAIR）的綜合閱讀理解和問答資料集。
地址：https://research.fb.com/projects/babi/

The Children’s Book Test：Project Gutenberg 提供的兒童圖書中提取的（問題+背景、答案）對的基線。用於問答（閱讀理解）和模擬查詢。
地址：http://www.thespermwhale.com/jaseweston/babi/CBTest.tgz

情感資料集

多領域情緒分析資料集：較舊的學術資料集。
地址：http://www.cs.jhu.edu/~mdredze/datasets/sentiment/

IMDB：用於二元情感分類的較舊、較小資料集。對文獻中的基準測試無法支援更大的資料集。
地址：http://ai.stanford.edu/~amaas/data/sentiment/

Stanford Sentiment Treebank：標準情感資料集，在每個句子解析樹的每個節點都有細粒度的情感註釋。
地址：http://nlp.stanford.edu/sentiment/code.html

推薦和排名系統

Movielens：來自 Movielens 網站的電影評分資料集，各類大小都有。
地址：https://grouplens.org/datasets/movielens/

Million Song 資料集：Kaggle 上後設資料豐富的大型開源資料集，可以幫助人們使用混合推薦系統。
地址：https://www.kaggle.com/c/msdchallenge

Last.fm：音樂推薦資料集，可訪問深層社交網路和其它可用於混合系統的後設資料。
地址：http://grouplens.org/datasets/hetrec-2011/

Book-Crossing 資料集：來自 Book-Crossing 社群。包含 278,858 位使用者提供的約 271,379 本書的 1,149,780 個評分。
地址：http://www.informatik.uni-freiburg.de/~cziegler/BX/

Jester：來自 73,421 名使用者對 100 個笑話的 410 萬個連續評分（分數從-10 至 10）。
地址：http://www.ieor.berkeley.edu/~goldberg/jester-data/

Netflix Prize：Netflix 釋出了他們的電影評級資料集的匿名版；包含 480,000 名使用者對 17,770 部電影的 1 億個評分。首個主要的 Kaggle 風格資料挑戰。隨著隱私問題的出現，只能提供非正式版。
地址：http://www.netflixprize.com/

————————我是深度學習圖表的分割線————————

網路和圖形

Amazon Co-Purchasing：亞馬遜評論從「購買此產品的使用者也購買了……」這一部分抓取資料，以及亞馬遜相關產品的評論資料。適合在網路中試行推薦系統。
地址：http://snap.stanford.edu/data/#amazon

Friendster 社交網路資料集：在變成遊戲網站之前，Friendster 以朋友列表的形式為 103,750,348 名使用者釋出了匿名資料。
地址：https://archive.org/details/friendster-dataset-201107

語音資料集

2000 HUB5 English：最近在 Deep Speech 論文中使用的英語語音資料，從百度獲取。
地址：https://catalog.ldc.upenn.edu/LDC2002T43

LibriSpeech：包含文字和語音的有聲讀物資料集。由多個朗讀者閱讀的近 500 小時的各種有聲讀物演講內容組成，包含帶有文字和語音的章節。
地址：http://www.openslr.org/12/

VoxForge：帶口音的清晰英語語音資料集。適用於提升不同口音或語調魯棒性的案例。
地址：http://www.voxforge.org/

TIMIT：英語語音識別資料集。
地址：https://catalog.ldc.upenn.edu/LDC93S1

CHIME：嘈雜的語音識別挑戰資料集。資料集包含真實、模擬和乾淨的錄音。真實錄音由 4 個揚聲器在 4 個嘈雜位置的近 9000 個錄音構成，模擬錄音由多個語音環境和清晰的無噪聲錄音結合而成。
地址：http://spandh.dcs.shef.ac.uk/chime_challenge/data.html

TED-LIUM：TED 演講的音訊轉錄。1495 個 TED 演講錄音以及這些錄音的文字轉錄。
地址：http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus

————————我是深度學習音訊的分割線————————

音符音樂資料集

Piano-midi.de: 古典鋼琴曲
地址：http://www.piano-midi.de/

Nottingham : 超過 1000 首民謠
地址：http://abc.sourceforge.net/NMD/

MuseData: 古典音樂評分的電子圖書館
地址：http://musedata.stanford.edu/

JSB Chorales: 四部協奏曲
地址：http://www.jsbchorales.net/index.shtml

其它資料集

CMU 動作抓取資料集：http://mocap.cs.cmu.edu/

Brodatz dataset：紋理建模。
地址：http://www.ux.uis.no/~tranden/brodatz.html

來自歐洲核子研究中心的大型強子對撞機（LHC）的 300TB 高質量資料。
地址：http://opendata.cern.ch/search?ln=en&p=Run2011A+AND+collection:CMS-Primary-Datasets+OR+collection:CMS-Simulated-Datasets+OR+collection:CMS-Derived-Datasets

紐約計程車資料集：由 FOIA 請求而獲得的紐約計程車資料，導致隱私問題。
地址：http://www.nyc.gov/html/tlc/html/about/trip_record_data.shtml

Uber FOIL 資料集：來自 Uber FOIL 請求的紐約 4.5M 拾取資料。
地址：https://github.com/fivethirtyeight/uber-tlc-foil-response

Criteo 點選量資料集：來自歐盟重新定位的大型網際網路廣告資料集。
地址：http://research.criteo.com/outreach/

健康 &生物資料

歐盟傳染病監測圖集：http://ecdc.europa.eu/en/data-tools/atlas/Pages/atlas.aspx

默克分子活動挑戰：http://www.kaggle.com/c/MerckActivity/data

Musk dataset: Musk dataset 描述了以不同構造出現的分子。每個分子都是 musk 或 non-musk，且其中一個構造決定了這一特性。
地址：https://archive.ics.uci.edu/ml/datasets/Musk+(Version+2)

政府&統計資料

Data USA: 最全面的視覺化美國公共資料。
地址：http://datausa.io/

歐盟性別統計資料庫：http://eige.europa.eu/gender-statistics

荷蘭國家地質研究資料：http://www.nationaalgeoregister.nl/geonetwork/srv/dut/search#fast=index&from=1&to=50&any_OR_geokeyword_OR_title_OR_keyword=landinrichting*&relation=within

聯合國開發計劃署專案：http://open.undp.org/#2016

1400小時開源語音資料集，你想要都在這兒
2019-03-01
「資料庫、資料庫連線池、資料來源」這些概念你真的理解了嗎？
2023-04-22
資料庫
今年測試這工資是認真的嗎？
2024-11-11
資料字典真的有用嗎？--開源軟體誕生12
2020-09-21
這些開源CMS，你敢用嗎？
2021-12-21
Serverless：這真的是未來嗎？
2021-05-15
Server
JS的資料型別你真的懂了嗎
2020-07-08
JS資料型別
你真的會使用資料庫的索引嗎？
2021-10-18
資料庫索引
Serverless：這真的是未來嗎？（二）
2021-05-19
Server
Serverless：這真的是未來嗎？（一）
2021-05-14
Server
java web開發這些細節你真的掌握了嗎
2019-04-26
JavaWeb
你的資料庫真的需要遷移到雲嗎？
2022-11-02
資料庫
單測無用論，這是真的嗎？
2023-03-09
你真的理解什麼是死鎖嗎？
2019-02-23
這應該是你們想要的 DOS 命令
2019-03-03
這些併發模型你真的懂了嗎？未必
2019-08-19
模型
銀行資料庫選型需求，你真的清楚嗎？
2022-07-13
資料庫
你真的理解this嗎
2019-03-29
你真的知道Python的字串是什麼嗎？
2018-11-19
Python字串
你真的知道什麼是系統呼叫嗎？
2019-02-17
你是真的程式猿嗎—>測試認證
2021-11-04
面試帶你飛：這是一份全面的計算機網路基礎總結攻略
2019-03-03
面試計算機網路
庫、教程、論文實現，這是一份超全的PyTorch資源列表（Github 2.2K星）
2018-10-22
PyTorchGithub
Java：這是一份詳細&全面的HashMap 1.7 原始碼分析
2018-03-14
JavaHashMap原始碼
TCP/IP、HTTP、socket 這些，你真的瞭解嗎？
2018-06-08
TCPHTTP
作為產品經理，你真的有資料 sense 嗎？
2019-03-25
你真的懂Redis的5種基本資料結構嗎？
2021-11-19
Redis資料結構
影像處理開源資料集
2020-06-08
這有一份 git 日常使用清單，你需要嗎
2019-08-20
Git
這有一份 Git 日常使用清單，你需要嗎？
2020-04-06
Git
你真的瞭解python嗎?這篇文章帶你快速瞭解!
2020-08-24
Python
JavaScript基礎——你真的清楚JavaScript是什麼嗎？
2018-12-12
JavaScript
你以為的中臺真的是中臺嗎？
2022-06-06
你真的知道協程是怎麼來的嗎？
2021-05-11
你真的理解setState嗎？
2019-03-04
WebView你真的熟悉嗎？
2018-03-29
WebView
你真的理解==和===嗎
2021-09-09
想成為不禿頭的資料工程師！你得擁有這樣一份修煉指南
2019-01-02
工程師

這是一份非常全面的開源資料集，你，真的不想要嗎？

相關文章