60+模型架構,歷年十幾個 SOTA 模型,這 21 秒帶你縱覽影像識別的演進歷史。
ImageNet 是 計算機視覺領域常用的資料集之一。在 影像分類、目標分割和 目標檢測中有著無法撼動的地位。ImageNet 最初是由 李飛飛等人在 CVPR 2009 年發表的論文——「ImageNet: A Large-Scale Hierarchical Image Database」中釋出的。多年來,ImageNet 的相關論文對業內有極大的影響。截至到當前,Google Scholar 上展示該論文有 12224 的引用量。這篇論文在 ImageNet 釋出十週年之際,於 CVPR 2019 大會上獲得了經典論文獎。
ImageNet 本身則是一個海量的帶標註影像資料集。通過眾包等方式進行標註,從 2007 年開始直到 2009 年完成。ImageNet 有超過 1500 萬張圖片,僅汽車影像的數量達到了 70 萬張,類別數量為 2567 個。如此巨量、 標註錯誤極低且免費的資料集,已經成為 影像處理領域研究者首先接觸的資料集之一。
毫不誇張的說,ImageNet 是 影像處理演算法的試金石。從 2010 年起,每年 ImageNet 官方會舉辦挑戰賽。2017 年後的比賽由 Kaggle 社群主持。自 2012 年 Hinton 等的團隊提出 AlexNet 開始,每年都有層出不窮的模型希望在 ImageNet 排行榜上取得一席之地。
近日,PaperWithCode 網站釋出了一段 21 秒的視訊,在 ImageNet 釋出十年的時刻,總結了歷年來排行榜上取得一定效果的模型。
如上展示了 13 到 19 年的分類任務 SOTA 效果演進,真正有大幅度提升的方法很多都在 13 到 15 年提出,例如 Inception 結構、殘差模組等等。
Leaderboard 地址:https://www.paperswithcode.com/sota/image-classification-on-imagenet
機器之心根據視訊和網站內容進行了整理。以下為一些著名的模型、釋出時間、Top-1 準確率、 引數量,以及相關的論文連結。釋出時取得 SOTA 的模型名以紅色字型標出。
這是一堆耳熟能詳的模型
AlexNet
提出時間:2012/9
Top-1 準確率:62.5%
引數量:60M
論文地址:https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf
AlexNet 的架構示意圖。
ZFNet
提出時間:2013/11
Top-1 準確率:64%
論文地址:https://arxiv.org/pdf/1311.2901v3.pdf
Inception V1
提出時間:2014/9
Top-1 準確率:69.8%
引數量:5M
論文地址:https://arxiv.org/pdf/1409.4842v1.pdf
VGG-19
提出時間:2014/9
Top-1 準確率:74%
引數量:144M
論文地址:https://arxiv.org/pdf/1409.1556v6.pdf
PReLU-Net
提出時間:2015/2
Top-1 準確率:75.73%
論文地址:https://arxiv.org/pdf/1502.01852v1.pdf
Inception V3
提出時間:2015/12
Top-1 準確率:78.8%
引數量:23.8M
論文地址:https://arxiv.org/pdf/1512.00567v3.pdf
Inception V3。
ResNet 152
提出時間:2015/12
Top-1 準確率:78.6%
論文地址:https://arxiv.org/pdf/1512.03385v1.pdf
ResNet 的基本模組。
Inception ResNet V2
提出時間:2016/2
Top-1 準確率:80.1%
論文地址:https://arxiv.org/pdf/1602.07261v2.pdf
DenseNet-264
提出時間:2016/8
Top-1 準確率:79.2%
論文地址:https://arxiv.org/pdf/1608.06993v5.pdf
增長率為 4 的 DenseNet 架構。
ResNeXt-101 64×4
提出時間:2016/11
Top-1 準確率:80.9%
引數量:83.6M
論文地址:https://arxiv.org/pdf/1611.05431v2.pdf
PolyNet
提出時間:2016/11
Top-1 準確率:81.3%
引數量:92M
論文地址 https://arxiv.org/pdf/1611.05725v2.pdf
DPN-131
提出時間:2017/7
Top-1 準確率:81.5%
引數量:80M
論文地址:https://arxiv.org/pdf/1707.01629v2.pdf
NASNET-A(6)
提出時間:2017/7
Top-1 準確率:82.7%
引數量:89M
論文地址:https://arxiv.org/pdf/1707.07012v4.pdf
利用神經架構搜尋(NAS)方法獲得的模型(右圖),相比左邊的模型減少了引數量,效果得到了提升。
PNASNet-5
提出時間:2017/12
Top-1 準確率:82.9%
引數量:86.1M
論文地址:https://arxiv.org/pdf/1712.00559v3.pdf
MobileNetV2
提出時間:2018/1
Top-1 準確率:74.7%
引數量:6.9M
論文地址:https://arxiv.org/pdf/1801.04381v4.pdf
AmoebaNet-A
提出時間:2018/2
Top-1 準確率:83.9%
引數量:469M
論文地址:https://arxiv.org/pdf/1802.01548v7.pdf
ResNeXt-101 32×48d
提出時間:2018/5
Top-1 準確率:85.4%
引數量:829M
論文地址:https://arxiv.org/pdf/1805.00932v1.pdf
ShuffleNet V2 2×
提出時間:2018/7
Top-1 準確率:75.4%
引數量:7.4M
論文地址:https://arxiv.org/pdf/1807.11164v1.pdf
EfficientNet
提出時間:2019/5
Top-1 準確率:84.4%
引數量:66M
論文地址:https://arxiv.org/pdf/1905.11946v2.pdf
EfficientNet 論文中的架構對比。a)基線模型;b)- d)分別為對影像寬度、深度和解析度的掃描架構;e)論文提出的可以將所有掃描架構融合在一起的網路結構。
FixResNeXt-101 32×48d
提出時間:2019/6
Top-1 準確率:86.4%
引數量:829M
論文地址:https://arxiv.org/pdf/1906.06423v2.pdf
你發現了某些規律?
從屠榜模型來看,取得 SOTA 的模型 引數量在逐年增加。從有 60M 引數量的 AlexNet 到有著 829M 的 FixResNeXt-101 32×48d,模型一年比一年更大了。
但是也有很意外的情況,比如 DenseNet 獲得了 CVPR 2017 的最佳論文,但是 DenseNet 並沒有達到 SOTA 的效果。此外,名聲在外的 ResNet 也僅僅是接近 2015 年的 SOTA 模型 Inception V3。但是,沒有取得 SOTA 並不代表這些模型不好。它們給了後續工作很大的啟發。
值得注意的是,從 2018 年開始,縮小模型 引數量的研究逐漸增多。可以看到有 MobileNet、ShuffleNet 等,可惜在效能上犧牲了很多。今年最著名的小型化模型是谷歌提出的 EfficientNet,僅有 66M 的 引數量,但已經接近目前的 SOTA 分數了。
瞭解模型架構可以看這裡
機器之心也曾經介紹過很多部落格與論文,它們是理解這些模型架構的好資源。以下都是一些綜述性文章,它們非常適合全面瞭解架構的演變:
影像領域研究的未來
從近年來影像研究領域的論文主題來看,現在有幾大研究方向值得關注。
首先,在演算法領域, 生成對抗網路(GAN)的研究呈現井噴的趨勢。越來越多的研究者嘗試使用 GAN 進行影像方面的研究,如影像識別、 對抗樣本攻擊和防禦,以及生成高清晰度影像、影像風格轉換、直接生成新影像等方面的研究。也有部分學者嘗試用 GAN 進行 目標檢測。
其次,在任務領域,有更多由靜態影像轉變為動態的視訊影像、由 2D 影像研究轉向 3D 影像和三維資料方面的研究。近年來,有更多的嘗試研究視訊領域中的 影像分類、目標分割和檢測方面的演算法出現,實現了諸如行人檢測、人體姿態追蹤等方面的應用。同時研究人員嘗試使用 深度學習模型探究 3D 建模方面的表現。
最後,在模型方面,出現了模型 引數縮減和模型壓縮方面的多種研究。很多學者研究在不影響模型效能的前提下進行模型 剪枝和壓縮方面的技術,希望能夠將效能優異模型部署在移動端或物聯網裝置上,實現本地化的模型推斷。