ImageNet歷年冠軍和相關CNN模型

PilgrimHui發表於2018-09-08

ImageNet

  1. 是一個超過15 million的影像資料集,大約有22,000類。
  2. 是由李飛飛團隊從2007年開始,耗費大量人力,通過各種方式(網路抓取,人工標註,亞馬遜眾包平臺)收集製作而成,它作為論文在CVPR-2009釋出。當時人們還很懷疑通過更多資料就能改進演算法的看法。
  3. 深度學習發展起來有幾個關鍵的因素,一個就是龐大的資料(比如說ImageNet),一個是GPU的出現。(還有更優的深度模型,更好的優化演算法,可以說資料和GPU推動了這些的產生,這些產生繼續推動深度學習的發展)。

ILSVRC

  1. 是一個比賽,全稱是ImageNet Large-Scale Visual Recognition Challenge,平常說的ImageNet比賽指的是這個比賽。
  2. 使用的資料集是ImageNet資料集的一個子集,一般說的ImageNet(資料集)實際上指的是ImageNet的這個子集,總共有1000類,每類大約有1000張影像。具體地,有大約1.2 million的訓練集,5萬驗證集,15萬測試集。
  3. ILSVRC從2010年開始舉辦,到2017年是最後一屆。ILSVRC-2012的資料集被用在2012-2014年的挑戰賽中(VGG論文中提到)。ILSVRC-2010是唯一提供了test set的一年。
  4. ImageNet可能是指整個資料集(15 million),也可能指比賽用的那個子集(1000類,大約每類1000張),也可能指ILSVRC這個比賽。需要根據語境自行判斷。
  5. 12-15年期間在ImageNet比賽上提出了一些經典網路,比如AlexNet,ZFNet,OverFeat,VGG,Inception,ResNet。我在CNN經典結構1中做了相應介紹。
  6. 16年之後也有一些經典網路,比如WideResNet,FractalNet,DenseNet,ResNeXt,DPN,SENet。我在CNN經典結構2中做了相應介紹。

ImageNet的分類結果(加粗為冠軍)

網路/隊名 val top-1 val top-5 test top-5 備註
2012 AlexNet 38.1% 16.4% 16.42% 5 CNNs
2012 AlexNet 36.7% 15.4% 15.32% 7CNNs。用了2011年的資料
2013 OverFeat 14.18% 7 fast models
2013 OverFeat 13.6% 賽後。7 big models
2013 ZFNet 13.51% ZFNet論文上的結果是14.8
2013 Clarifai 11.74%
2013 Clarifai 11.20% 用了2011年的資料
2014 VGG 7.32% 7 nets, dense eval
2014 VGG(亞軍) 23.7% 6.8% 6.8% 賽後。2 nets
2014 GoogleNet v1 6.67% 7 nets, 144 crops
GoogleNet v2 20.1% 4.9% 4.82% 賽後。6 nets, 144 crops
GoogleNet v3 17.2% 3.58% 賽後。4 nets, 144 crops
GoogleNet v4 16.5% 3.1% 3.08% 賽後。v4+Inception-Res-v2
2015 ResNet 3.57% 6 models
2016 Trimps-Soushen 2.99% 公安三所
2016 ResNeXt(亞軍) 3.03% 加州大學聖地亞哥分校
2017 SENet 2.25% Momenta 與牛津大學

ImageNet的定位結果(加粗為冠軍)

網路/隊名 val top-5 test top-5 備註
2012 AlexNet 34.19% 多倫多大學Hinton和他學生
2012 AlexNet 33.55% 用了2011年的資料
2013 OverFeat 30.0% 29.87% 紐約大學Lecun團隊
2014 GoogleNet 26.44% 谷歌
2014 VGG 26.9% 25.32% 牛津大學
2015 ResNet 8.9% 9.02% 微軟
2016 Trimps-Soushen 7.71% 公安三所,以Inception, resNet, WRN等為基礎
2017 DPN 6.23% 新加坡國立大學與奇虎360

ImageNet的檢測結果(加粗為冠軍)

網路/隊名 mAP(%) 備註
2013 OverFeat 19.40 使用了12年的分類資料預訓練
2013 UvA 22.58
2013 OverFeat 24.3 賽後。使用了12年的分類資料預訓練
2014 GoogleNet 43.93 R-CNN
2015 ResNet 62.07 Faster R-CNN
2016 CUImage 66.28 商湯和港中文,以GBD-Net等為基礎
2017 BDAT 73.41 南京資訊工程大學和帝國理工學院

其它
HikVision(海康威視):2016年的場景分類第一

相關文章