在計算機視覺領域,影像分類是非常重要的基本問題,是影像目標檢測、影像分割、影像檢索、視訊理解、物體跟蹤、行為分析等其他高層視覺任務的基礎,在實際場景中,有著廣泛應用。飛槳(PaddlePaddle)視覺模型庫影像分類持續提供業內領先的分類網路結構訓練方法以及在imagenet 1000分類任務上的預訓練模型。目前,已開源10種不同網路結構,25個預訓練模型,包括當前效果最優的ResNet50(top-1:79.84%),助力使用者提高構建模型的效率,大大減輕“煉丹”的煩惱。
一、當前效果最優的ResNet50預訓練模型
ResNet是近幾年非常流行的卷積神經網路結構,其創造性提出的殘差結構,一舉在ILSVRC2015比賽中取得冠軍,並且獲得計算機視覺頂級會議CVPR 2016的最佳論文。其中50層的網路結構(ResNet50)的效果優化,備受學術界和工業界關注。
一方面,廣泛使用的ResNet50在imagenet 1000分類任務上,top1識別準確率可以達到較高的識別準確率76.5%;另一方面對一張224*224的影像進行分類,預測效率高,適合研究探索新方法和實際場景應用,在TeslaP4卡測試,如果使用飛槳核心框架Paddle Fluid預測,平均預測時間是8.787ms,進一步結合TensorRT預測,平均預測時間可以加速到5.434ms。「Bag of Tricks for ImageClassification with Convolutional Neural Networks」[1]彙總了近些年ResNet50改進工作,通過採用網路結構微調、餘弦學習率衰減、標籤平滑、mixup以及知識蒸餾技巧,在預測效率基本不變的前提下,將ResNet50的top1識別準確率從76.5%提升到79.29%。
百度視覺技術團隊,基於百度深度學習平臺飛槳,不僅復現了這些技巧,而且對知識蒸餾進行改進,將ResNet50的top1識別準確率從79.29%提升到79.84%,同時將這些技巧用於訓練其他分類網路結構,提升這些網路預訓練模型的能力。以下將會對網路結構微調和知識蒸餾兩部分進行介紹。
對於ResNet網路結構微調,「Bag of Tricks for ImageClassification with Convolutional Neural Networks」[1]中提到了三種:ResNet-B、ResNet-C和ResNet-D。ResNet-B與標準的ResNet主要區別是每個殘差模組特徵圖下采樣的位置不同。ResNet-C主要改動如下,將輸入影像後面第一個7x7的卷積核換成3個3x3的卷積核,在不改變初始感受野的情況下能帶來更好的效能。ResNet-D的改動也是在每個殘差模組,在stride為2的1x1的卷積核做下采樣前接一個2x2的avg-pool,這樣可以在幾乎不增加計算量的同時,有效避免資訊丟失。ResNet(B,C,D)改動如下圖所示。
在設計知識蒸餾技巧時,我們的基本思想是在student model有預訓練的情況下,讓student model直接學習teacher model的softmax輸出而不考慮真實label的情況會有更低的泛化誤差,採用這種非常簡單的方式,可以有效將teacher model的能力遷移到student model,如下圖所示,將ResNet152_vd(top1:80.59%)作為teacher model,將已訓練好的ResNet50_vd(top1:79.12)作為student model, 學習率採用帶warmup的餘弦下降的方式訓練100epoch。最終ResNet50_vd網路結構 top1的識別準確率可以達到79.84%。這個預訓練模型已經開源,其訓練程式碼不久將會發布。
下表顯示了每一次網路結構改動及增加訓練策略後在imagenet 1000分類任務上top1的識別準確率,其中LSR為Label Smoothing Regularization的縮寫。
二、飛槳已開源的影像分類預訓練模型簡介
AlexNet[2]
2012年,Alex等人提出的AlexNet網路在ImageNet大賽上以遠超第二名的成績奪冠,卷積神經網路乃至深度學習引起了廣泛的關注。AlexNet使用relu作為CNN的啟用函式,解決了sigmoid在網路較深時的梯度彌散問題。訓練時使用Dropout隨機丟掉一部分神經元,避免了模型過擬合。在CNN中使用重疊的最大池化(步長小於卷積核)。此前CNN中普遍使用平均池化,使用最大池化可以避免平均池化的模糊效果,同時重疊效果提升了特徵的豐富性。從某種意義上說,AlexNet引爆了神經網路的研究與應用熱潮。
VGG 系列模型[3]
VGGNet是牛津大學計算機視覺組和DeepMind公司共同研發一種深度卷積網路,2014年在ILSVRC比賽上獲得了分類專案的第二名和定位專案的第一名,其網路設計思想直接影響了往後這些年的CNN網路設計,進一步推動了基於深度學習的計算機視覺的發展。當前飛槳分類模型庫提供了VGG11,VGG13,VGG16以及VGG19四個網路結構預訓練模型。
GoogLeNet[4]與InceptionV4[5]
GoogLeNet又名InceptionV1,是Inception網路的開山鼻祖,GoogLeNet創造性地使用了1x1的卷積來進行升降維並且在多個尺寸上同時進行卷積再聚合,在相同的計算量下能提取到更多的特徵,從而提升訓練結果。此後Inception系列網路在不斷升級,InceptionV4更是達到了當時的state of the art的效果,在各類AI競賽中,也總能看到InceptionV4的影子。當前飛槳分類模型庫提供的InceptionV4由於採用了label_smoothing與mixup混合訓練的方式,將論文的指標提高了近0.8個點,成為目前開源最好的InceptonV4的預訓練模型。
MobileNet系列模型[6] [7]
MobileNet是谷歌大腦為移動端設計的網路,它的出現一定程度上滿足了移動端應用深度學習技術的需求,截止到現在,MobileNet網路一共有三代,每一代都在上一代的基礎上進行了改進與優化,使得其稱為名副其實的速度快,精度高,儲存空間小的網路。
當前飛槳分類模型庫提供了MobileNetV1和MobileNetV2的預訓練模型(1x),其精度指標都高於論文指標,其他大小的預訓練模型將在不久後開源。
ShuffleNet系列模型[8] [9]
隨著移動端網路的需求的發展,移動端網路也成為很多科研機構的研究物件。曠視科技在2017,2018年相繼提出的輕量級可用於移動裝置的卷積神經網路ShuffleNetV1與ShuffleNetV2。其與MobileNet系列網路一塊促進了移動端網路的發展。當前飛槳分類模型庫提供了ShuffleNetV2(1x)的預訓練模型,其精度指標都高於論文指標。其他大小的預訓練模型將在不久後開源。
ResNet 系列模型[10]
ResNet創新性的提出了殘差結構,一舉在ILSVRC2015比賽中取得冠軍,top5錯誤率為3.57%。史丹佛大學的Joyce Xu將ResNet稱為「真正重新定義了我們看待神經網路的方式」的三大架構之一。在最新發布的飛槳分類預訓練模型包括ResNet18,ResNet34,ResNet50,ResNet101和ResNet152。
ResNet系列模型的改進版[1]
由於ResNet系列網路的泛化效能強,‘價效比’高,從其誕生以來,就成為學術界和工業界青睞的網路,因此其改進版的網路也越來越多。在最新發布的飛槳分類預訓練模型包括ResNet50_vc,ResNet50_vd,ResNet101_vd,ResNet152_vd和ResNet200_vd。
ResNeXt系列模型及改進版[11]
ResNeXt是ResNet和InceptionV4的結合體,然而ResNext不需要人工設計複雜的Inception結構細節,而是每一個分支都採用相同的拓撲結構。ResNeXt的本質是分組卷積,通過變數基數(Cardinality)來控制組的數量。與ResNet 引數量相同的條件下,ResNeXt表現出更低的泛化誤差。在最新發布的飛槳分類預訓練模型包括有ResNeXt101_64x4d,ResNeXt101_vd_64x4d,其他ResNeXt預訓練模型將在不久後開源。
SE_ResNeXt 系列模型及改進版[12]
SE 全稱 Sequeeze-and-Excitation,在ILSVRC 2017 的分類專案中取得了第一名的成績。在 ImageNet 資料集上將 top-5 錯誤率從原先的最好成績 2.991% 降低到 2.251%。
最新發布的飛槳預訓練模型包括SE_ResNeXt50_32x4d,SE_ResNeXt101_32x4d,SE154_vd.
更多細節詳情見:
https://github.com/PaddlePaddle/models/tree/develop/PaddleCV/image_classification?fr=gzh
三、總結
無論是學術研究,還是工業應用,影像分類以及在imagenet上預訓練模型,都起著非常重要的作用。本文介紹的影像分類技術以及預訓練模型已經應用到百度視覺能力方方面面,包括以圖搜尋、影像分類、OCR、人臉識別、視訊理解等方向。這些視覺能力不僅用於內部產品,也通過百度AI開放平臺持續對外輸出,目前已對外開放了包括人臉識別、文字識別(OCR)、影像稽核、影像識別、影像搜尋等在內的70多項基礎能力,為開發者和合作夥伴提供全棧式計算機視覺能力。
百度視覺技術團隊會持續跟進業界前沿,基於百度深度學習平臺飛槳,為使用者提供更多新的影像分類預訓練模型(包括NasNet系列,MobileNetV3,EfficientNet系列等),敬請期待。
參考文獻
[1]Tong He, Zhi Zhang, Hang Zhang, Zhongyue Zhang, Junyuan Xie, Mu Li, Bag of Tricks for Image Classificationwith Convolutional Neural Networks, In CVPR 2019
[2] A. Krizhevsky, I.Sutskever, and G. E. Hinton. Imagenet classification with deep convolutionalneural networks. In NIPS, 2012.
[3] O. Russakovsky, J. Deng, H.Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M.Bernstein, et al. Imagenet large scale visual recognition challenge. IJCV.
[4] C. Szegedy, W. Liu, Y. Jia,P. Sermanet, S. Reed, D. Anguelov, D. Erhan, V. Vanhoucke, and A. Rabinovich.Going deeper with convolutions. In CVPR, 2015
[5] C. Szegedy, S.Ioffe, and V. Vanhoucke. Inception- v4, inception-resnet and the impact ofresidual con- nections on learning. In ICLR Workshop, 2016.
[6] Howard, A.G., Zhu,M., Chen, B., Kalenichenko, D., Wang, W., Weyand, T., An- dreetto, M., Adam, H.: Mobilenets: Efficient convolutional neuralnetworks for mobile visionapplications. arXiv preprint arXiv:1704.04861 (2017)
[7] Sandler, M.,Howard, A., Zhu, M., Zhmoginov, A., Chen, L.C.: Inverted residuals and linearbottlenecks: Mobile networks for classification, detection and segmenta- tion. arXiv preprint arXiv:1801.04381 (2018)
[8] Zhang, X., Zhou, X., Lin,M., and Sun, J. Shufflenet: An ex- tremely efficient convolutional neuralnetwork for mobile devices. CVPR, 2018.
[9] Ma, N., Zhang, X., Zheng,H.-T., and Sun, J. Shufflenet v2: Practical guidelines for efficient cnnarchitecture design. ECCV, 2018.
[10] He, K., Zhang,X., Ren, S., and Sun, J. Deep residual learning for image recognition.CVPR,pp. 770–778, 2016.
[11] Xie, S.,Girshick, R., Dolla ́r, P., Tu, Z., and He, K. Aggregated residualtransformations for deep neural networks. CVPR
[12] Hu, J., Shen, L., and Sun, G. Squeeze-and-excitation net- works. CVPR,2018.