21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

机器之心發表於2019-08-08
60+模型架構,歷年十幾個 SOTA 模型,這 21 秒帶你縱覽影像識別的演進歷史。

ImageNet 是 計算機視覺領域常用的資料集之一。在 影像分類、目標分割和 目標檢測中有著無法撼動的地位。ImageNet 最初是由 李飛飛等人在 CVPR 2009 年發表的論文——「ImageNet: A Large-Scale Hierarchical Image Database」中釋出的。多年來,ImageNet 的相關論文對業內有極大的影響。截至到當前,Google Scholar 上展示該論文有 12224 的引用量。這篇論文在 ImageNet 釋出十週年之際,於 CVPR 2019 大會上獲得了經典論文獎。

ImageNet 本身則是一個海量的帶標註影像資料集。通過眾包等方式進行標註,從 2007 年開始直到 2009 年完成。ImageNet 有超過 1500 萬張圖片,僅汽車影像的數量達到了 70 萬張,類別數量為 2567 個。如此巨量、 標註錯誤極低且免費的資料集,已經成為 影像處理領域研究者首先接觸的資料集之一。

毫不誇張的說,ImageNet 是 影像處理演算法的試金石。從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。2017 年後的比賽由 Kaggle 社群主持。自 2012 年 Hinton 等的團隊提出 AlexNet 開始,每年都有層出不窮的模型希望在 ImageNet 排行榜上取得一席之地。

近日,PaperWithCode 網站釋出了一段 21 秒的視訊,在 ImageNet 釋出十年的時刻,總結了歷年來排行榜上取得一定效果的模型。

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

如上展示了 13 到 19 年的分類任務 SOTA 效果演進,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 結構、殘差模組等等。

Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet

機器之心根據視訊和網站內容進行了整理。以下為一些著名的模型、釋出時間、Top-1 準確率引數量,以及相關的論文連結。釋出時取得 SOTA 的模型名以紅色字型標出。

這是一堆耳熟能詳的模型

  • AlexNet

  • 提出時間:2012/9

  • Top-1 準確率:62.5%

  • 引數量:60M

  • 論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

AlexNet 的架構示意圖。

  • ZFNet

  • 提出時間:2013/11

  • Top-1 準確率:64%

  • 論文地址:https://arxiv.org/pdf/1311.2901v3.pdf

  • Inception V1

  • 提出時間:2014/9

  • Top-1 準確率:69.8%

  • 引數量:5M

  • 論文地址:https://arxiv.org/pdf/1409.4842v1.pdf

  • VGG-19

  • 提出時間:2014/9

  • Top-1 準確率:74%

  • 引數量:144M

  • 論文地址:https://arxiv.org/pdf/1409.1556v6.pdf

  • PReLU-Net

  • 提出時間:2015/2

  • Top-1 準確率:75.73%

  • 論文地址:https://arxiv.org/pdf/1502.01852v1.pdf


  • Inception V3

  • 提出時間:2015/12

  • Top-1 準確率:78.8%

  • 引數量:23.8M

  • 論文地址:https://arxiv.org/pdf/1512.00567v3.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

Inception V3。

  • ResNet 152

  • 提出時間:2015/12

  • Top-1 準確率:78.6%

  • 論文地址:https://arxiv.org/pdf/1512.03385v1.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

ResNet 的基本模組。

  • Inception ResNet V2

  • 提出時間:2016/2

  • Top-1 準確率:80.1%

  • 論文地址:https://arxiv.org/pdf/1602.07261v2.pdf


  • DenseNet-264

  • 提出時間:2016/8

  • Top-1 準確率:79.2%

  • 論文地址:https://arxiv.org/pdf/1608.06993v5.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

增長率為 4 的 DenseNet 架構。

  • ResNeXt-101 64×4

  • 提出時間:2016/11

  • Top-1 準確率:80.9%

  • 引數量:83.6M

  • 論文地址:https://arxiv.org/pdf/1611.05431v2.pdf


  • PolyNet

  • 提出時間:2016/11

  • Top-1 準確率:81.3%

  • 引數量:92M

  • 論文地址 https://arxiv.org/pdf/1611.05725v2.pdf


  • DPN-131

  • 提出時間:2017/7

  • Top-1 準確率:81.5%

  • 引數量:80M

  • 論文地址:https://arxiv.org/pdf/1707.01629v2.pdf


  • NASNET-A(6)

  • 提出時間:2017/7

  • Top-1 準確率:82.7%

  • 引數量:89M

  • 論文地址:https://arxiv.org/pdf/1707.07012v4.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

利用神經架構搜尋(NAS)方法獲得的模型(右圖),相比左邊的模型減少了引數量,效果得到了提升。

  • PNASNet-5

  • 提出時間:2017/12

  • Top-1 準確率:82.9%

  • 引數量:86.1M

  • 論文地址:https://arxiv.org/pdf/1712.00559v3.pdf

  • MobileNetV2

  • 提出時間:2018/1

  • Top-1 準確率:74.7%

  • 引數量:6.9M

  • 論文地址:https://arxiv.org/pdf/1801.04381v4.pdf

  • AmoebaNet-A

  • 提出時間:2018/2

  • Top-1 準確率:83.9%

  • 引數量:469M

  • 論文地址:https://arxiv.org/pdf/1802.01548v7.pdf

  • ResNeXt-101 32×48d

  • 提出時間:2018/5

  • Top-1 準確率:85.4%

  • 引數量:829M

  • 論文地址:https://arxiv.org/pdf/1805.00932v1.pdf

  • ShuffleNet V2 2×

  • 提出時間:2018/7

  • Top-1 準確率:75.4%

  • 引數量:7.4M

  • 論文地址:https://arxiv.org/pdf/1807.11164v1.pdf

  • EfficientNet

  • 提出時間:2019/5

  • Top-1 準確率:84.4%

  • 引數量:66M

  • 論文地址:https://arxiv.org/pdf/1905.11946v2.pdf

21秒看盡ImageNet屠榜模型,60+模型架構同臺獻藝

EfficientNet 論文中的架構對比。a)基線模型;b)- d)分別為對影像寬度、深度和解析度的掃描架構;e)論文提出的可以將所有掃描架構融合在一起的網路結構。

  • FixResNeXt-101 32×48d

  • 提出時間:2019/6

  • Top-1 準確率:86.4%

  • 引數量:829M

  • 論文地址:https://arxiv.org/pdf/1906.06423v2.pdf

你發現了某些規律?

從屠榜模型來看,取得 SOTA 的模型 引數量在逐年增加。從有 60M 引數量的 AlexNet 到有著 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。

但是也有很意外的情況,比如 DenseNet 獲得了 CVPR 2017 的最佳論文,但是 DenseNet 並沒有達到 SOTA 的效果。此外,名聲在外的 ResNet 也僅僅是接近 2015 年的 SOTA 模型 Inception V3。但是,沒有取得 SOTA 並不代表這些模型不好。它們給了後續工作很大的啟發。

值得注意的是,從 2018 年開始,縮小模型 引數量的研究逐漸增多。可以看到有 MobileNet、ShuffleNet 等,可惜在效能上犧牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,僅有 66M 的 引數量,但已經接近目前的 SOTA 分數了。

瞭解模型架構可以看這裡

機器之心也曾經介紹過很多部落格與論文,它們是理解這些模型架構的好資源。以下都是一些綜述性文章,它們非常適合全面瞭解架構的演變:

影像領域研究的未來

從近年來影像研究領域的論文主題來看,現在有幾大研究方向值得關注。

首先,在演算法領域, 生成對抗網路(GAN)的研究呈現井噴的趨勢。越來越多的研究者嘗試使用 GAN 進行影像方面的研究,如影像識別、 對抗樣本攻擊和防禦,以及生成高清晰度影像、影像風格轉換、直接生成新影像等方面的研究。也有部分學者嘗試用 GAN 進行 目標檢測

其次,在任務領域,有更多由靜態影像轉變為動態的視訊影像、由 2D 影像研究轉向 3D 影像和三維資料方面的研究。近年來,有更多的嘗試研究視訊領域中的 影像分類、目標分割和檢測方面的演算法出現,實現了諸如行人檢測、人體姿態追蹤等方面的應用。同時研究人員嘗試使用 深度學習模型探究 3D 建模方面的表現。

最後,在模型方面,出現了模型 引數縮減和模型壓縮方面的多種研究。很多學者研究在不影響模型效能的前提下進行模型 剪枝和壓縮方面的技術,希望能夠將效能優異模型部署在移動端或物聯網裝置上,實現本地化的模型推斷。

相關文章