21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

机器之心發表於2019-08-08

原文網址 : https://www.jiqizhixin.com/articles/2019-08-08-4

60+模型架構，歷年十幾個 SOTA 模型，這 21 秒帶你縱覽影像識別的演進歷史。

ImageNet 是計算機視覺領域常用的資料集之一。在影像分類、目標分割和目標檢測中有著無法撼動的地位。ImageNet 最初是由李飛飛等人在 CVPR 2009 年發表的論文——「ImageNet: A Large-Scale Hierarchical Image Database」中釋出的。多年來，ImageNet 的相關論文對業內有極大的影響。截至到當前，Google Scholar 上展示該論文有 12224 的引用量。這篇論文在 ImageNet 釋出十週年之際，於 CVPR 2019 大會上獲得了經典論文獎。

ImageNet 本身則是一個海量的帶標註影像資料集。通過眾包等方式進行標註，從 2007 年開始直到 2009 年完成。ImageNet 有超過 1500 萬張圖片，僅汽車影像的數量達到了 70 萬張，類別數量為 2567 個。如此巨量、標註錯誤極低且免費的資料集，已經成為影像處理領域研究者首先接觸的資料集之一。

毫不誇張的說，ImageNet 是影像處理演算法的試金石。從 2010 年起，每年 ImageNet 官方會舉辦挑戰賽。2017 年後的比賽由 Kaggle 社群主持。自 2012 年 Hinton 等的團隊提出 AlexNet 開始，每年都有層出不窮的模型希望在 ImageNet 排行榜上取得一席之地。

近日，PaperWithCode 網站釋出了一段 21 秒的視訊，在 ImageNet 釋出十年的時刻，總結了歷年來排行榜上取得一定效果的模型。

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

如上展示了 13 到 19 年的分類任務 SOTA 效果演進，真正有大幅度提升的方法很多都在 13 到 15 年提出，例如 Inception 結構、殘差模組等等。

Leaderboard 地址：https://www.paperswithcode.com/sota/image-classification-on-imagenet

機器之心根據視訊和網站內容進行了整理。以下為一些著名的模型、釋出時間、Top-1 準確率、引數量，以及相關的論文連結。釋出時取得 SOTA 的模型名以紅色字型標出。

這是一堆耳熟能詳的模型

AlexNet
提出時間：2012/9
Top-1 準確率：62.5%
引數量：60M
論文地址：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

AlexNet 的架構示意圖。

ZFNet
提出時間：2013/11
Top-1 準確率：64%
論文地址：https://arxiv.org/pdf/1311.2901v3.pdf
Inception V1
提出時間：2014/9
Top-1 準確率：69.8%
引數量：5M
論文地址：https://arxiv.org/pdf/1409.4842v1.pdf
VGG-19
提出時間：2014/9
Top-1 準確率：74%
引數量：144M
論文地址：https://arxiv.org/pdf/1409.1556v6.pdf
PReLU-Net
提出時間：2015/2
Top-1 準確率：75.73%
論文地址：https://arxiv.org/pdf/1502.01852v1.pdf

Inception V3
提出時間：2015/12
Top-1 準確率：78.8%
引數量：23.8M
論文地址：https://arxiv.org/pdf/1512.00567v3.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

Inception V3。

ResNet 152
提出時間：2015/12
Top-1 準確率：78.6%
論文地址：https://arxiv.org/pdf/1512.03385v1.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

ResNet 的基本模組。

Inception ResNet V2
提出時間：2016/2
Top-1 準確率：80.1%
論文地址：https://arxiv.org/pdf/1602.07261v2.pdf

DenseNet-264
提出時間：2016/8
Top-1 準確率：79.2%
論文地址：https://arxiv.org/pdf/1608.06993v5.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

增長率為 4 的 DenseNet 架構。

ResNeXt-101 64×4
提出時間：2016/11
Top-1 準確率：80.9%
引數量：83.6M
論文地址：https://arxiv.org/pdf/1611.05431v2.pdf

PolyNet
提出時間：2016/11
Top-1 準確率：81.3%
引數量：92M
論文地址 https://arxiv.org/pdf/1611.05725v2.pdf

DPN-131
提出時間：2017/7
Top-1 準確率：81.5%
引數量：80M
論文地址：https://arxiv.org/pdf/1707.01629v2.pdf

NASNET-A(6)
提出時間：2017/7
Top-1 準確率：82.7%
引數量：89M
論文地址：https://arxiv.org/pdf/1707.07012v4.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

利用神經架構搜尋（NAS）方法獲得的模型（右圖），相比左邊的模型減少了引數量，效果得到了提升。

PNASNet-5
提出時間：2017/12
Top-1 準確率：82.9%
引數量：86.1M
論文地址：https://arxiv.org/pdf/1712.00559v3.pdf
MobileNetV2
提出時間：2018/1
Top-1 準確率：74.7%
引數量：6.9M
論文地址：https://arxiv.org/pdf/1801.04381v4.pdf
AmoebaNet-A
提出時間：2018/2
Top-1 準確率：83.9%
引數量：469M
論文地址：https://arxiv.org/pdf/1802.01548v7.pdf
ResNeXt-101 32×48d
提出時間：2018/5
Top-1 準確率：85.4%
引數量：829M
論文地址：https://arxiv.org/pdf/1805.00932v1.pdf
ShuffleNet V2 2×
提出時間：2018/7
Top-1 準確率：75.4%
引數量：7.4M
論文地址：https://arxiv.org/pdf/1807.11164v1.pdf
EfficientNet
提出時間：2019/5
Top-1 準確率：84.4%
引數量：66M
論文地址：https://arxiv.org/pdf/1905.11946v2.pdf

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

EfficientNet 論文中的架構對比。a）基線模型；b）- d）分別為對影像寬度、深度和解析度的掃描架構；e）論文提出的可以將所有掃描架構融合在一起的網路結構。

FixResNeXt-101 32×48d
提出時間：2019/6
Top-1 準確率：86.4%
引數量：829M
論文地址：https://arxiv.org/pdf/1906.06423v2.pdf

你發現了某些規律？

從屠榜模型來看，取得 SOTA 的模型引數量在逐年增加。從有 60M 引數量的 AlexNet 到有著 829M 的 FixResNeXt-101 32×48d，模型一年比一年更大了。

但是也有很意外的情況，比如 DenseNet 獲得了 CVPR 2017 的最佳論文，但是 DenseNet 並沒有達到 SOTA 的效果。此外，名聲在外的 ResNet 也僅僅是接近 2015 年的 SOTA 模型 Inception V3。但是，沒有取得 SOTA 並不代表這些模型不好。它們給了後續工作很大的啟發。

值得注意的是，從 2018 年開始，縮小模型引數量的研究逐漸增多。可以看到有 MobileNet、ShuffleNet 等，可惜在效能上犧牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet，僅有 66M 的引數量，但已經接近目前的 SOTA 分數了。

瞭解模型架構可以看這裡

機器之心也曾經介紹過很多部落格與論文，它們是理解這些模型架構的好資源。以下都是一些綜述性文章，它們非常適合全面瞭解架構的演變：

影像領域研究的未來

從近年來影像研究領域的論文主題來看，現在有幾大研究方向值得關注。

首先，在演算法領域，生成對抗網路（GAN）的研究呈現井噴的趨勢。越來越多的研究者嘗試使用 GAN 進行影像方面的研究，如影像識別、對抗樣本攻擊和防禦，以及生成高清晰度影像、影像風格轉換、直接生成新影像等方面的研究。也有部分學者嘗試用 GAN 進行目標檢測。

其次，在任務領域，有更多由靜態影像轉變為動態的視訊影像、由 2D 影像研究轉向 3D 影像和三維資料方面的研究。近年來，有更多的嘗試研究視訊領域中的影像分類、目標分割和檢測方面的演算法出現，實現了諸如行人檢測、人體姿態追蹤等方面的應用。同時研究人員嘗試使用深度學習模型探究 3D 建模方面的表現。

最後，在模型方面，出現了模型引數縮減和模型壓縮方面的多種研究。很多學者研究在不影響模型效能的前提下進行模型剪枝和壓縮方面的技術，希望能夠將效能優異模型部署在移動端或物聯網裝置上，實現本地化的模型推斷。

Tomcat 架構模型
2020-10-28
Tomcat架構模型
Hadoop的架構模型
2020-10-06
Hadoop架構模型
那個屠榜的T5模型，現在可以在中文上玩玩了
2020-11-17
模型
ImageNet歷年冠軍和相關CNN模型
2018-09-08
CNN模型
秒殺架構模型設計
2019-08-04
架構模型
java之JVM的架構模型
2021-09-11
JavaJVM架構模型
區塊鏈的架構模型
2022-03-22
區塊鏈架構模型
基於Go的語義解析開源庫FMR，“屠榜”模型外的NLP利器
2019-09-30
Go模型
LNMP架構下的程式模型分析
2018-10-14
LNMP架構模型
逆向工程 O1模型架構
2024-09-16
模型架構
RabbitMQ架構詳解(7大架構原理模型圖解)
2023-05-16
MQ架構模型圖解
一文理解Netty模型架構
2018-11-01
Netty模型架構
Google釋出pQRNN新NLP模型：基於投影的高效模型架構
2020-09-22
GoRNN模型架構
研發協同平臺架構演進
2019-07-14
架構
C4模型的軟體架構圖
2024-06-16
模型架構
容器雲架構–瞭解 Kubernetes 網路模型
2022-05-22
架構模型
【靜態頁面架構】CSS之盒子模型
2018-08-28
架構CSS模型
伸縮架構原理也適用於大模型
2024-04-22
架構大模型
架構師應該具備哪些思維模型？
2020-06-06
架構模型
Deep Crossing模型——經典的深度學習架構
2020-10-31
ROS模型深度學習架構
雙親委派模型與Tomcat類載入架構
2019-03-22
模型Tomcat架構
JuiceFS 在多雲架構中加速大模型推理
2024-08-23
UI架構大模型
分散式機器學習中的模型架構
2021-12-05
分散式機器學習模型架構
C4 模型 - 視覺化架構設計
2020-12-22
模型視覺化架構
因果模型：邊緣結構模型MSM
2020-11-01
模型
Facebook模型FixResNeXt升級，再次重新整理ImageNet影象分類記錄
2019-07-31
模型
NeurIPS放榜：華人貢獻42%，谷歌170篇屠榜；清華騰訊國內領先
2019-09-11
谷歌
知識蒸餾、輕量化模型架構、剪枝…幾種深度學習模型壓縮方法
2023-03-13
模型架構深度學習
微服務架構設計基礎之立方體模型
2019-04-15
微服務架構模型
第一節：關注模型架構設計與落地
2024-04-08
模型架構
基於bert架構的精準知識表徵模型
2019-12-12
架構模型
經典的CNN模型架構-LeNet、AlexNet、VGG、GoogleLeNet、ResNet
2020-05-06
CNN模型架構Go
IM 去中心化概念模型與架構設計
2019-03-03
中心化模型架構
我懂了，原來這就是4+1架構模型！
2022-12-02
架構模型
NLP領域的ImageNet時代：詞嵌入已死，語言模型當立
2018-07-09
模型
愛奇藝平臺的架構設計與演進之路
2018-05-04
架構
JVM的藝術—JAVA記憶體模型
2020-12-17
JVMJava記憶體模型
LLM大模型向量資料庫技術架構淺析
2023-11-10
大模型資料庫架構

21秒看盡ImageNet屠榜模型，60+模型架構同臺獻藝

相關文章