深度學習常用的資料集,包括各種資料跟影象資料

查志強發表於2018-09-13

【原文:https://blog.csdn.net/yangdashi888/article/details/70503874

              1、   免費資料集下載(持續更新中...)

    2、[導讀] “大資料時代”,資料為王!無論是資料探勘還是目前大熱的深度學習領域都離不開“大資料”。大公司們一般會有自己的資料,但對於創業公司或是高校老師、學生來說,“Where can I get large datasets open to the public?”是不得不面對的一個問題。

本文結合筆者在研究生學習、科研期間使用過以及閱讀文獻了解到的深度學習視覺領域常用的開源資料集,進行介紹和彙總。

MNIST

深度學習領域的“Hello World!”,入門必備!MNIST是一個手寫數字資料庫,它有60000個訓練樣本集和10000個測試樣本集,每個樣本影象的寬高為28*28。此資料集是以二進位制儲存的,不能直接以影象格式檢視,不過很容易找到將其轉換成影象格式的工具。

最早的深度卷積網路LeNet便是針對此資料集的,當前主流深度學習框架幾乎無一例外將MNIST資料集的處理作為介紹及入門第一教程,其中Tensorflow關於MNIST的教程非常詳細。

資料集大小:~12MB
下載地址:
http://yann.lecun.com/exdb/mnist/index.html

Imagenet

MNIST將初學者領進了深度學習領域,而Imagenet資料集對深度學習的浪潮起了巨大的推動作用。深度學習領域大牛Hinton在2012年發表的論文《ImageNet Classification with Deep Convolutional Neural Networks》在計算機視覺領域帶來了一場“革命”,此論文的工作正是基於Imagenet資料集。

Imagenet資料集有1400多萬幅圖片,涵蓋2萬多個類別;其中有超過百萬的圖片有明確的類別標註和影象中物體位置的標註,具體資訊如下:
1)Total number of non-empty synsets: 21841
2)Total number of images: 14,197,122
3)Number of images with bounding box annotations: 1,034,908
4)Number of synsets with SIFT features: 1000
5)Number of images with SIFT features: 1.2 million

Imagenet資料集是目前深度學習影象領域應用得非常多的一個領域,關於影象分類、定位、檢測等研究工作大多基於此資料集展開。Imagenet資料集文件詳細,有專門的團隊維護,使用非常方便,在計算機視覺領域研究論文中應用非常廣,幾乎成為了目前深度學習影象領域演算法效能檢驗的“標準”資料集。

與Imagenet資料集對應的有一個享譽全球的“ImageNet國際計算機視覺挑戰賽(ILSVRC)”,以往一般是google、MSRA等大公司奪得冠軍,今年(2016)ILSVRC2016中國團隊包攬全部專案的冠軍。

Imagenet資料集是一個非常優秀的資料集,但是標註難免會有錯誤,幾乎每年都會對錯誤的資料進行修正或是刪除,建議下載最新資料集並關注資料集更新。

資料集大小:~1TB(ILSVRC2016比賽全部資料)
下載地址:
http://www.image-net.org/about-stats

COCO

COCO(Common Objects in Context)是一個新的影象識別、分割和影象語義資料集,它有如下特點:
1)Object segmentation
2)Recognition in Context
3)Multiple objects per image
4)More than 300,000 images
5)More than 2 Million instances
6)80 object categories
7)5 captions per image
8)Keypoints on 100,000 people

COCO資料集由微軟贊助,其對於影象的標註資訊不僅有類別、位置資訊,還有對影象的語義文字描述,COCO資料集的開源使得近兩三年來影象分割語義理解取得了巨大的進展,也幾乎成為了影象語義理解演算法效能評價的“標準”資料集。

Google開源的開源了圖說生成模型show and tell就是在此資料集上測試的,想玩的可以下下來試試哈。

資料集大小:~40GB
下載地址:http://mscoco.org/

PASCAL VOC

PASCAL VOC挑戰賽是視覺物件的分類識別和檢測的一個基準測試,提供了檢測演算法和學習效能的標準影象註釋資料集和標準的評估系統。PASCAL VOC圖片集包括20個目錄:人類;動物(鳥、貓、牛、狗、馬、羊);交通工具(飛機、自行車、船、公共汽車、小轎車、摩托車、火車);室內(瓶子、椅子、餐桌、盆栽植物、沙發、電視)。PASCAL VOC挑戰賽在2012年後便不再舉辦,但其資料集影象質量好,標註完備,非常適合用來測試演算法效能。

資料集大小:~2GB
下載地址:
http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html

CIFAR

CIFAR-10包含10個類別,50,000個訓練影象,彩色影象大小:32x32,10,000個測試影象。CIFAR-100與CIFAR-10類似,包含100個類,每類有600張圖片,其中500張用於訓練,100張用於測試;這100個類分組成20個超類。影象類別均有明確標註。CIFAR對於影象分類演算法測試來說是一個非常不錯的中小規模資料集。

資料集大小:~170MB
下載地址:
http://www.cs.toronto.edu/~kriz/cifar.html

Open Image

過去幾年機器學習的發展使得計算機視覺有了快速的進步,系統能夠自動描述圖片,對共享的圖片創造自然語言迴應。其中大部分的進展都可歸因於 ImageNet 、COCO這樣的資料集的公開使用。谷歌作為一家偉大的公司,自然也要做出些表示,於是乎就有了Open Image。

Open Image是一個包含~900萬張影象URL的資料集,裡面的圖片通過標籤註釋被分為6000多類。該資料集中的標籤要比ImageNet(1000類)包含更真實生活的實體存在,它足夠讓我們從頭開始訓練深度神經網路。

谷歌出品,必屬精品!唯一不足的可能就是它只是提供圖片URL,使用起來可能不如直接提供圖片方便。

此資料集,筆者也未使用過,不過google出的東西質量應該還是有保障的。

資料集大小:~1.5GB(不包括圖片)
下載地址:
https://github.com/openimages/dataset

Youtube-8M

Youtube-8M為谷歌開源的視訊資料集,視訊來自youtube,共計8百萬個視訊,總時長50萬小時,4800類。為了保證標籤視訊資料庫的穩定性和質量,谷歌只採用瀏覽量超過1000的公共視訊資源。為了讓受計算機資源所限的研究者和學生也可以用上這一資料庫,谷歌對視訊進行了預處理,並提取了幀級別的特徵,提取的特徵被壓縮到可以放到一個硬碟中(小於1.5T)。

此資料集的下載提供下載指令碼,由於國內網路的特殊原因,下載此資料經常斷掉,不過還好下載指令碼有續傳功能,過一會兒重新連線就能再連上。可以寫一個指令碼檢測到下載中斷後就sleep一段時間然後再重新請求下載,這樣就不用一直守著了。(截至發文,斷斷續續的下載,筆者表示還沒下完呢……)

資料集大小:~1.5TB
下載地址:https://research.google.com/youtube8m/

以上是筆者根據學習科研和文獻閱讀經歷總結的目前深度學習視覺領域研究人員常用資料集。由於個人學識有限,難免有疏漏和不當的地方,望讀者朋友們不吝賜教。

如果以上資料集還不能滿足你的需求的話,不妨從下面找找吧。

1.深度學習資料集收集網站

http://deeplearning.net/datasets/**
收集大量的各深度學習相關的資料集,但並不是所有開源的資料集都能在上面找到相關資訊。

2、Tiny Images Dataset
http://horatio.cs.nyu.edu/mit/tiny/data/index.html
包含8000萬的32x32影象,CIFAR-10和CIFAR-100便是從中挑選的。

3、CoPhIR
http://cophir.isti.cnr.it/whatis.html
雅虎釋出的超大Flickr資料集,包含1億多張圖片。

4、MirFlickr1M
http://press.liacs.nl/mirflickr/Flickr資料集中挑選出的100萬影象集。

5、SBU captioned photo dataset
http://dsl1.cewit.stonybrook.edu/~vicente/sbucaptions/Flickr的一個子集,包含100萬的影象集。

6、NUS-WIDE
http://lms.comp.nus.edu.sg/research/NUS-WIDE.htmFlickr中的27萬的影象集。

7、Large-Scale Image Annotation using Visual Synset(ICCV 2011)
http://cpl.cc.gatech.edu/projects/VisualSynset/機器標註的一個超大規模資料集,包含2億影象。

8、SUN dataset
http://people.csail.mit.edu/jxiao/SUN/包含13萬的影象的資料集。

9、MSRA-MM
http://research.microsoft.com/en-us/projects/msrammdata/ 包含100萬的影象,23000視訊;微軟亞洲研究院出品,質量應該有保障。

中國是一個“資料大國”,中國的資料開放在政府部門以北京、上海等地為首,陸續開放了交通、天氣等資料集;在企業中以新浪微博等為首,開放了真實、有效的資料給研究人員提供了極大的便利;但就計算機視覺領域來說,國內資料集的開放水平和國外相比仍有一定差距。希望國內相關企業和組織能夠開放更多優秀的資料集,促進相關行業研究進展,提升中國在相關研究領域的影響力,為推動全人類科學技術的進步貢獻自己的一份力量。

參考文獻:
[1] http://yann.lecun.com/exdb/mnist/index.html
[2] http://www.image-net.org/about-stats
[3] http://mscoco.org/
[4] http://host.robots.ox.ac.uk/pascal/VOC/voc2012/index.html
[5] http://www.cs.toronto.edu/~kriz/cifar.html
[6] https://github.com/openimages/dataset
[7] https://research.google.com/youtube8m/
[8] http://blog.csdn.net/qq_26898461/article/details/50593328

作者介紹:
劉念巨集:清華大學微電子系在讀碩士研究生,清華大學“大資料碩士”,現任清華大學學生大資料協會會長。
主要研究方向:深度學習影象檢測。
聯絡方式:
lnh15@mails.tsinghua.edu.cn。

付睿:清華大學自動化系在讀碩士研究生,清華大學“大資料碩士”,前任清華大學學生大資料協會會長。
主要研究方向:智慧交通。
聯絡方式:freefor_ever@163.com。

作者:劉念巨集、付睿
校對:洪舒越
編輯:劉文清、張夢

相關文章