影象識別及處理相關資料集介紹

木偶winner發表於2019-03-09

原文連結:http://blog.csdn.NET/qq_14845119/article/details/51913171

ImageNet

         ImageNet是一個計算機視覺系統識別專案,是目前世界上影象識別最大的資料庫。是美國史丹佛的電腦科學家李飛飛模擬人類的識別系統建立的。能夠從圖片識別物體。目前已經包含14197122張影象,是已知的最大的影象資料庫。每年的ImageNet大賽更是魂縈夢牽著國內外各個名校和大型IT公司以及網路巨頭的心。影象如下圖所示,需要註冊ImageNet帳號才可以下載,下載連結為http://www.image-net.org/


PASCAL VOC

         PASCALVOC 資料集是視覺物件的分類識別和檢測的一個基準測試,提供了檢測演算法和學習效能的標準影象註釋資料集和標準的評估系統。影象如下圖所示,包含VOC2007(430M),VOC2012(1.9G)兩個下載版本。下載連結為http://pjreddie.com/projects/pascal-voc-dataset-mirror/



Labelme

         Labelme是史丹佛一個學生的母親利用休息時間幫兒子做的標註,後來便發展為一個資料集。該資料集的主要特點包括

(1)專門為物體分類識別設計,而非僅僅是例項識別

(2)專門為學習嵌入在一個場景中的物件而設計

(3)高質量的畫素級別標註,包括多邊形框(polygons)和背景標註(segmentation masks)

(4)物體類別多樣性大,每種物體的差異性,多樣性也大。

(5)所有影象都是自己通過相機拍攝,而非copy

(6)公開的,免費的

         影象如下圖所示,需要通過matlab來下載,一種奇特的下載方式,下載連結為http://labelme2.csail.mit.edu/Release3.0/index.php

COCO

       COCO是一種新的影象識別,分割和加字幕標註的資料集。主要由Tsung-Yi Lin(Cornell Tech),Genevieve Patterson (Brown),MatteoRuggero Ronchi (Caltech),Yin Cui (Cornell Tech),Michael Maire (TTI Chicago),Serge Belongie (Cornell Tech),Lubomir Bourdev (UC Berkeley),Ross Girshick (Facebook AI), James Hays (Georgia Tech),PietroPerona (Caltech),Deva Ramanan (CMU),Larry Zitnick (Facebook AI), Piotr Dollár (Facebook AI)等人收集而成。其主要特徵如下

(1)目標分割

(2)通過上下文進行識別

(3)每個影象包含多個目標物件

(4)超過300000個影象

(5)超過2000000個例項

(6)80種物件

(7)每個影象包含5個字幕

(8)包含100000個人的關鍵點

         影象如下圖所示,支援Matlab和Python兩種下載方式,下載連結為http://mscoco.org/

SUN

         SUN資料集包含131067個影象,由908個場景類別和4479個物體類別組成,其中背景標註的物體有313884個。影象如下圖所示,下載連結為http://groups.csail.mit.edu/vision/SUN/

Caltech

         Caltech是加州理工學院的影象資料庫,包含Caltech101和Caltech256兩個資料集。該資料集是由Fei-FeiLi, Marco Andreetto, Marc 'Aurelio Ranzato在2003年9月收集而成的。Caltech101包含101種類別的物體,每種類別大約40到800個影象,大部分的類別有大約50個影象。Caltech256包含256種類別的物體,大約30607張影象。影象如下圖所示,下載連結為http://www.vision.caltech.edu/Image_Datasets/Caltech101/

Corel5k

         這是Corel5K影象集,共包含科雷爾(Corel)公司收集整理的5000幅圖片,故名:Corel5K,可以用於科學影象實驗:分類、檢索等。Corel5k資料集是影象實驗的事實標準資料集。請勿用於商業用途。私底下學習交流使用。Corel影象庫涵蓋多個主題,由若干個CD組成,每個CD包含100張大小相等的影象,可以轉換成多種格式。每張CD代表一個語義主題,例如有公共汽車、恐龍、海灘等。Corel5k自從被提出用於影象標註實驗後,已經成為影象實驗的標準資料集,被廣泛應用於標註演算法效能的比較。Corel5k由50張CD組成,包含50個語義主題。

         Corel5k影象庫通常被分成三個部分:4000張影象作為訓練集,500張影象作為驗證集用來估計模型引數,其餘500張作為測試集評價演算法效能。使用驗證集尋找到最優模型引數後4000張訓練集和500張驗證集混合起來組成新的訓練集。

         該影象庫中的每張圖片被標註1~5個標註詞,訓練集中總共有374個標註詞,在測試集中總共使用了263個標註詞。影象如下圖所示,很遺憾本人也未找到官方下載路徑,於是github上傳了一份,下載連結為https://github.com/watersink/Corel5K


CIFARCanada Institude For Advanced Research

      CIFAR是由加拿大先進技術研究院的AlexKrizhevsky, Vinod Nair和Geoffrey Hinton收集而成的80百萬小圖片資料集。包含CIFAR-10和CIFAR-100兩個資料集。 Cifar-10由60000張32*32的RGB彩色圖片構成,共10個分類。50000張訓練,10000張測試(交叉驗證)。這個資料集最大的特點在於將識別遷移到了普適物體,而且應用於多分類。CIFAR-100由60000張影象構成,包含100個類別,每個類別600張影象,其中500張用於訓練,100張用於測試。其中這100個類別又組成了20個大的類別,每個影象包含小類別和大類別兩個標籤。官網提供了Matlab,C,Python三個版本的資料格式。影象如下圖所示,下載連結為http://www.cs.toronto.edu/~kriz/cifar.html


人臉資料庫:

AFLWAnnotated Facial Landmarks in the Wild

       AFLW人臉資料庫是一個包括多姿態、多視角的大規模人臉資料庫,而且每個人臉都被標註了21個特徵點。此資料庫資訊量非常大,包括了各種姿態、表情、光照、種族等因素影響的圖片。AFLW人臉資料庫大約包括25000萬已手工標註的人臉圖片,其中59%為女性,41%為男性,大部分的圖片都是彩色,只有少部分是灰色圖片。該資料庫非常適合用於人臉識別、人臉測、人臉對齊等方面的究,具有很高的研究價值。影象如下圖所示,需要申請帳號才可以下載,下載連結為http://lrs.icg.tugraz.at/research/aflw/

LFWLabeled Faces in the Wild

       LFW是一個用於研究無約束的人臉識別的資料庫。該資料集包含了從網路收集的13000張人臉影象,每張影象都以被拍攝的人名命名。其中,有1680個人有兩個或兩個以上不同的照片。這些資料集唯一的限制就是它們可以被經典的Viola-Jones檢測器檢測到(a hummor)。影象如下圖所示,下載連結為http://vis-www.cs.umass.edu/lfw/index.html#download

AFWAnnotated Faces in the Wild

       AFW資料集是使用Flickr(雅虎旗下圖片分享網站)影象建立的人臉影象庫,包含205個影象,其中有473個標記的人臉。對於每一個人臉都包含一個長方形邊界框,6個地標和相關的姿勢角度。資料庫雖然不大,額外的好處是作者給出了其2012 CVPR的論文和程式以及訓練好的模型。影象如下圖所示,下載連結為http://www.ics.uci.edu/~xzhu/face/


FDDBFace Detection Data Set and Benchmark

       FDDB資料集主要用於約束人臉檢測研究,該資料集選取野外環境中拍攝的2845個影象,從中選擇5171個人臉影象。是一個被廣泛使用的權威的人臉檢測平臺。影象如下圖所示,下載連結為http://vis-www.cs.umass.edu/fddb/

WIDER FACE

   WIDER FACE是香港中文大學的一個提供更廣泛人臉資料的人臉檢測基準資料集,由YangShuo, Luo Ping ,Loy ,Chen Change ,Tang Xiaoou收集。它包含32203個影象和393703個人臉影象,在尺度,姿勢,閉塞,表達,裝扮,關照等方面表現出了大的變化。WIDER FACE是基於61個事件類別組織的,對於每一個事件類別,選取其中的40%作為訓練集,10%用於交叉驗證(cross validation),50%作為測試集。和PASCAL VOC資料集一樣,該資料集也採用相同的指標。和MALF和Caltech資料集一樣,對於測試影象並沒有提供相應的背景邊界框。影象如下圖所示,下載連結為http://mmlab.ie.cuhk.edu.hk/projects/WIDERFace/

CMU-MIT

     CMU-MIT是由卡內基梅隆大學和麻省理工學院一起收集的資料集,所有圖片都是黑白的gif格式。裡面包含511個閉合的人臉影象,其中130個是正面的人臉影象。影象如下圖所示,沒有找到官方連結,Github下載連結為https://github.com/watersink/CMU-MIT

GENKI

         GENKI資料集是由加利福尼亞大學的機器概念實驗室收集。該資料集包含GENKI-R2009a,GENKI-4K,GENKI-SZSL三個部分。GENKI-R2009a包含11159個影象,GENKI-4K包含4000個影象,分為“笑”和“不笑”兩種,每個圖片的人臉的尺度大小,姿勢,光照變化,頭的轉動等都不一樣,專門用於做笑臉識別。GENKI-SZSL包含3500個影象,這些影象包括廣泛的背景,光照條件,地理位置,個人身份和種族等。影象如下圖所示,下載連結為http://mplab.ucsd.edu,如果進不去可以,同樣可以去下面的github下載,連結https://github.com/watersink/GENKI

IJB-A (IARPA JanusBenchmark A)

       IJB-A是一個用於人臉檢測和識別的資料庫,包含24327個影象和49759個人臉。影象如下圖所示,需要郵箱申請相應帳號才可以下載,下載連結為http://www.nist.gov/itl/iad/ig/ijba_request.cfm

MALF (Multi-Attribute Labelled Faces)

       MALF是為了細粒度的評估野外環境中人臉檢測模型而設計的資料庫。資料主要來源於Internet,包含5250個影象,11931個人臉。每一幅影象包含正方形邊界框,俯仰、蜷縮等姿勢等。該資料集忽略了小於20*20的人臉,大約838個人臉,佔該資料集的7%。同時,該資料集還提供了性別,是否帶眼鏡,是否遮擋,是否是誇張的表情等資訊。影象如下圖所示,需要申請才可以得到官方的下載連結,連結為http://www.cbsr.ia.ac.cn/faceevaluation/

MegaFace

    MegaFace資料集包含一百萬張圖片,代表690000個獨特的人。所有資料都是華盛頓大學從Flickr(雅虎旗下圖片分享網站)組織收集的。這是第一個在一百萬規模級別的面部識別演算法測試基準。 現有臉部識別系統仍難以準確識別超過百萬的資料量。為了比較現有公開臉部識別演算法的準確度,華盛頓大學在去年年底開展了一個名為“MegaFace Challenge”的公開競賽。這個專案旨在研究當資料庫規模提升數個量級時,現有的臉部識別系統能否維持可靠的準確率。影象如下圖所示,需要郵箱申請才可以下載,下載連結為http://megaface.cs.washington.edu/dataset/download.html

300W

       300W資料集是由AFLW,AFW,Helen,IBUG,LFPW,LFW等資料集組成的資料庫。影象如下圖所示,需要郵箱申請才可以下載,下載連結為http://ibug.doc.ic.ac.uk/resources/300-W/

IMM Data Sets

       IMM人臉資料庫包括了240張人臉圖片和240個asf格式檔案(可以用UltraEdit開啟,記錄了58個點的地標),共40個人(7女33男),每人6張人臉圖片,每張人臉圖片被標記了58個特徵點。所有人都未戴眼鏡,影象如下圖所示,下載連結為http://www2.imm.dtu.dk/~aam/datasets/datasets.html

MUCT Data Sets

         MUCT人臉資料庫由3755個人臉影象組成,每個人臉影象有76個點的地標(landmark),圖片為jpg格式,地標檔案包含csv,rda,shape三種格式。該影象庫在種族、關照、年齡等方面表現出更大的多樣性。具體影象如下圖所示,下載連結為http://www.milbo.org/muct/

ORL  (AT&T Dataset)

         ORL資料集是劍橋大學AT&T實驗室收集的一個人臉資料集。包含了從1992.4到1994.4該實驗室的成員。該資料集中影象分為40個不同的主題,每個主題包含10幅影象。對於其中的某些主題,影象是在不同的時間拍攝的。在關照,面部表情(張開眼睛,閉合眼睛,笑,非笑),面部細節(眼鏡)等方面都變現出了差異性。所有影象都是以黑色均勻背景,並且從正面向上方向拍攝。

         其中圖片都是PGM格式,影象大小為92*102,包含256個灰色通道。具體影象如下圖所示,下載連結為http://www.cl.cam.ac.uk/research/dtg/attarchive/facedatabase.html


行人檢測資料庫

INRIA Person Dataset

         Inria資料集是最常使用的行人檢測資料集。其中正樣本(行人)為png格式,負樣本為jpg格式。裡面的圖片分為只有車,只有人,有車有人,無車無人四個類別。圖片畫素為70*134,96*160,64*128等。具體影象如下圖所示,下載連結為http://pascal.inrialpes.fr/data/human/

CaltechPedestrian Detection Benchmark

         加州理工學院的步行資料集包含大約包含10個小時640x480 30Hz的視訊。其主要是在一個在行駛在鄉村街道的小車上拍攝。視訊大約250000幀(在137個約分鐘的長段),共有350000個邊界框和2300個獨特的行人進行了註釋。註釋包括包圍盒和詳細的閉塞標籤之間的時間對應關係。更多資訊可在其PAMI 2012 CVPR 2009標杆的論文獲得。具體影象如下圖所示,下載連結為http://www.vision.caltech.edu/Image_Datasets/CaltechPedestrians/


MIT cbcl (center for biological and computational learning)Pedestrian Data 

         該資料集主要包含2個部分,一部分為128*64的包含924個圖片的ppm格式的圖片,另一部分為從打圖中分別切割而出的小圖,主要包含胳膊,腦袋,腳,腿,頭肩,身體等。具體影象如下圖所示,下載連結為http://cbcl.mit.edu/software-datasets/PedestrianData.html,需要翻牆才可以。

年齡,性別資料庫

Adience

         該資料集來源為Flickr相簿,由使用者使用iPhone5或者其它智慧手機裝置拍攝,同時具有相應的公眾許可。該資料集主要用於進行年齡和性別的未經過濾的面孔估計。同時,裡面還進行了相應的landmark的標註。是做性別年齡估計和人臉對齊的一個資料集。圖片包含2284個類別和26580張圖片。具體影象如下圖所示,下載連結為http://www.openu.ac.il/home/hassner/Adience/data.html#agegender

車輛資料庫

KITTIKarlsruhe Institute ofTechnology and Toyota Technological Institute

         KITTI包含7481個訓練圖片和7518個測試圖片。所有圖片都是真彩色png格式。該資料集中標註了車輛的型別,是否截斷,遮擋情況,角度值,2維和3維box框,位置,旋轉角度,分數等重要的資訊,絕對是做車載導航的不可多得的資料集。具體影象如下圖所示,下載連結為http://www.cvlibs.net/datasets/kitti/

字元資料庫

MNISTMixed National Instituteof Standards and Technology

         MNIST是一個大型的手寫數字資料庫,廣泛用於機器學習領域的訓練和測試,由紐約大學的Yann LeCun整理。MNIST包含60000個訓練集,10000個測試集,每張圖都進行了尺度歸一化和數字居中處理,固定尺寸大小為28*28。具體影象如下圖所示,下載連結為http://yann.lecun.com/exdb/mnist/

相關文章