ShuffleNetV1/V2簡述 | 輕量級網路

曉飛的演算法工程筆記發表於2020-07-06

原文網址 : https://www.cnblogs.com/VincentLee/p/13253536.html

ShuffleNet系列是輕量級網路中很重要的一個系列，ShuffleNetV1提出了channel shuffle操作，使得網路可以盡情地使用分組卷積來加速，而ShuffleNetV2則推倒V1的大部分設計，從實際出發，提出channel split操作，在加速網路的同時進行了特徵重用，達到了很好的效果
來源：曉飛的演算法工程筆記公眾號

ShuffleNet V1

論文: ShuffleNet: An Extremely Efficient Convolutional Neural Network for Mobile Devices

論文地址：https://arxiv.org/pdf/1707.01083.pdf
論文程式碼：https://github.com/megvii-model/ShuffleNet-Series/tree/master/ShuffleNetV1

Introduction

神經網路的精度越來越高，而推理效能也在逐漸變慢，在實際應用中不得不在效能與準確率間進行折中。為此，論文對小網路的耗時進行分析，提出了ShuffleNet。論文首先介紹了ShuffleNet的核心操作Channel Shuffle以及Group Convolutions，然後再介紹Shuffle unit的結構，最後介紹ShuffleNet的架構。

Channel Shuffle for Group Convolutions

在目前的一些主流網路中，通常使用pointwise卷積進行維度的降低，從而降低網路的複雜度，但由於輸入維度較高，pointwise卷積的開銷是十分巨大的。對於小網路而言，昂貴的pointwise卷積會帶來明顯的效能下降，比如在ResNext unit中，pointwise卷積佔據了93.4%的計算量。為此，論文引入了分組卷積，首先探討了兩種ShuffleNet的實現：

圖1a是最直接的方法，將所有的操作進行了絕對的維度隔離，但這會導致特定的輸出僅關聯了很小一部分的輸入，阻隔了組間的資訊流，降低了表達能力。
圖1b對輸出的維度進行重新分配，首先將每個組的輸出分成多個子組，然後將每個子組輸入到不同的組中，能夠很好地保留組間的資訊流。

圖1b的思想可以簡單地用channel shuffle操作進行實現，如圖1c所示，假設包含$g$組的卷積層輸出為$g\times n$維，首先將輸出reshape()為$(g, n)$，然後進行transpose()，最後再flatten()回$g\times n$維。

ShuffleNet Unit

基於channel shuffle操作，論文提出了兩種ShuffleNet unit，從圖2a的基礎殘差結構開始，中間包含一個$3\times 3$深度卷積進行特徵提取：

圖2b為特徵圖大小不變的ShuffeNet unit，將開始的$1\times 1$卷積層替換成pointwise分組卷積+channel shuffle操作，第二個pointwise分組卷積的作用是為了恢復到unit的輸入維度，方便與shortcut進行element-wise addition。後面的兩個卷積操作根據可分離深度卷積論文的建議只接了BN，沒有接BN+ReLU。論文嘗試了在第二個pointwise分組卷積後面再接一次channel shuffle操作，但並沒有提高很多精度。
圖2c為特徵圖大小減半的ShuffleNet unit，可用於block間的特徵下采樣。主要在shortcut中新增$3\times 3$平均池化以及將最後的element-wise addition替換為channel concatenation，增加輸出維度且不會帶來太多的計算量。

Shuffle unit的計算是比較高效的，對於$c\times h\times w$的輸入，bottleneck的中間維度為$m$，ResNet unit的計算量為$hw(2cm + 9m^2)$FLOPs，ResNeXt unit的計算量為$hw(2cm+9m^2/g)$FLOPs，ShuffleNet unit的計算量為$hw(2cm/g + 9m)$，$g$為卷積的分組數。在同等計算資源情況下，計算量的減少意味著ShuffeNet可以使用維度更多的特徵圖，這在小網路中十分重要。
需要注意的是，儘管深度卷積通常有較低的理論複雜度，但在實現時的效率是不高的。為此，ShuffleNet僅對bottleneck中的特徵(維度較低)使用深度卷積。

Network Architecture

ShuffleNet的結構如表1所示，3個不同的stage由ShuffleNet unit堆疊而成，每個stage的首個ShuffleNet unit比較特殊，使用圖2c的stride=2結構，特徵圖大小縮小一倍，channel數增大一倍。其它的ShuffleNet unit使用圖2b的結構，bootlneck的維度設定為輸出的$1/4$。表1中設計不同分組數的網路，並修改了對應的輸出維度，模型大小整體保持在140MFLOPs左右，網路的分組數越大，可設定維度也越大。

Experiments

為了設定不同的網路複雜度，對錶1的網路層維度加一個縮放因子$s$，比如ShuffleNet 0.5X為表1的所有層輸出維度減少一倍。

對不同scale和分組數的效能。

對比channel shuffle對不同網路大小作用。

在保持複雜度的情況下，將stage2-4儘量替換成類似於其它主流網路結構(具體設計看原文)，進行效能對比。

對比同複雜度的MobileNet效能。

對比主流網路的效能。

對比作為目標檢測主幹的效能。

CPU單執行緒推理速度對比。

Conclusion

ShuffleNet的核心在於使用channel shuffle操作彌補分組間的資訊交流，使得網路可以盡情使用pointwise分組卷積，不僅可以減少主要的網路計算量，也可以增加摺積的維度，從實驗來看，是個很不錯的work。

ShuffleNet V2

論文: ShuffleNet V2: Practical Guidelines for Efficient
CNN Architecture Design

論文地址：https://arxiv.org/pdf/1807.11164.pdf
論文程式碼：https://github.com/megvii-model/ShuffleNet-Series/tree/master/ShuffleNetV2

Introduction

論文發現，作為衡量計算複雜度的指標，FLOPs實際並不等同於速度。如圖1所示，FLOPs相似的網路，其速度卻有較大的差別，只用FLOPs作為衡量計算複雜度的指標是不夠的，還要考慮記憶體訪問消耗以及GPU並行。基於上面的發現，論文從理論到實驗列舉了輕量級網路設計的5個要領，然後再根據設計要領提出ShuffleNet V2。

Practical Guidelines for Efficient Network Design

為了保證結果的正確性，論文在以下工業裝置中進行理論的相關測試：

GPU. A single NVIDIA GeForce GTX 1080Ti is used. The convolution library is CUDNN 7.0
ARM. A Qualcomm Snapdragon 810.

包含以下5個輕量級網路設計要領：

G1: Equal channel width minimizes memory access cost (MAC).

主流的網路大都使用深度分離卷積，其中pointwise卷積承擔了大部分的計算開銷。假設輸入維度$c_1$和輸出維度$c_2$，特徵圖大小為$h$和$w$，則$1\times 1$的卷積核的計算量$B=hwc_1 c_2$，記憶體訪問消耗$MAC=hw(c_1+c_2)+c_1 c_2$，MAC可以表示為B相關的公式：

$MAC=hw(c_1+c_2)+c_1 c_2 \ge hw\sqrt{c_1 c_2} + c_1 c_2=\sqrt{hwB} + \frac{B}{hw}$

上式在$c_1$和$c_2$相等時取得最小值，即輸入輸出維度相等時，記憶體訪問消耗最小。

為了避免理論與實際不符，論文在實際裝置上進行了對比，在保持FLOPs不變的情況下，調整輸入輸出維度的比例，可以看到1:1的情況下計算速度最快。因此，在設計結構時儘量保持卷積的輸入輸出的維度一致。

G2: Excessive group convolution increases MAC

分組卷積能夠降低FLOPs，在固定的FLOPs情況下，分組卷積能夠使用更多的channel數，但channel的增加會帶來MAC的提高，$1\times 1$分組卷積的MAC與FLOPs的關係為

$g$為分組數，$B=hwc_1 c_2/g$為FLOPs。在固定輸入和計算量情況下，MAC隨著$g$增加而增加。

論文同樣也在實際裝置上進行了對比，使用更多的分組反而降低了推理的速度，主要由於MAC的增加。因此，需要謹慎地根據平臺和任務選擇分組數，選擇大的分組數能帶來一定程度的準確率提升，但也會導致計算消耗的快速提升。

G3: Network fragmentation reduces degree of parallelism

目前一些網路在單個block中使用了多通過，比如NASNET-A在單個block中使用了13個分支，而常規的網路僅使用2-3個分支。儘管這樣的設計能夠提升準確率，但是對裝置平行計算不友好，會帶來效能的下降。

在實際裝置上進行對比，在固定FLOPs情況下，分別對比序列和並行分支結構的效能。從結果來看，單分支的結構效能最好，效能的下降在GPU裝置上最為明顯。

G4: Element-wise operations are non-negligible

論文對ShuffleNetV1和MobileNetV2的耗時進行了分析，發現element-wise操作(ReLU, AddTensor, AddBias, etc)的消耗是不可忽視的，特別在GPU裝置上。儘管這些操作FLOPs不高，但其MAC相對較高。

在實際裝置對比中，固定FLOPs的情況下，使用更多的element-wise操作會導致網路的效能下降。

最後總結下論文發現的網路設計要領：

使用相同輸入輸出維度的卷積
瞭解分組卷積帶來的損耗
減少分支的數量
減少element-wise操作

ShuffleNet V2: an Efficient Architecture

如上面提到的，ShuffleNetV1的pointwise分組卷積以及bottleneck結果均會提高MAC，導致不可忽視的計算損耗。為了達到高效能以及高準確率，關鍵是在不通過稠密卷積以及過多分組的情況下，獲得輸入輸出一樣的大維度卷積。

ShuffeNetV1的unit結構如圖3ab所示，為了達到上面的目的，V1的基礎上加入channel split操作，如圖3c所示。在每個unit的開頭，將特徵圖分為$c-c^{'}$以及$c{'}$兩部分。根據G3，一個分支直接往後傳遞。根據G1，另一個分支包含3個輸入輸出維度一樣的卷積。根據G2，不再使用分組卷積，而且unit的開頭已經相當於進行了分組卷積。在完成卷積操作後，將特徵concate，恢復到unit的輸入大小(符合G1)，然後進行channel shuffle操作。這裡沒有了element-wise adddition操作，符合了G4，在實現的時候將concat/channel shuffle/channel split合在一起做了，能夠進一步提升效能。
空間下采樣的操作進行了少量的修改，如圖3d所示，去掉了channel split操作，因此輸出的維度會翻倍。

類似於ShuffleNetV1，設定$c^{'}=c/2$stage2-4為堆疊ShuffleNet unit的結構，在全域性池化前加了一個$1\times 1$卷積來幫助特徵融合。ShuffleNetV2不僅速度快，準確率也不低，主要得益於兩個方面，首先是模型效能高，使得可以使用更大的維度以及網路容量，其次是channel split可以使得部分特徵直接穿過block，相當於DenseNet的特徵重用。

論文對DenseNet以及ShuffleNetV2的特徵重用程度進行了視覺化對比，在DenseNet中，相鄰層的連線比其它層更強，意味著所有層的稠密連線存在冗餘。而在ShuffleNet中，層間的影響力以$(1-c^{'})/c=0.5$的倍數進行衰減，與DenseNet有一定的相似性。

Experiment

將ShuffleNetV2 unit應用到大網路中進行對比。

對比ShuffleNetV2作為檢測網路主幹的效能。

與不同大小的主流分類網路進行效能對比。

Conclusion

論文從實踐出發，以實際的推理速度為指導，總結出了5條輕量級網路的設計要領，並根據要領提出了ShuffleNetV2，很好地兼顧了準確率和速度，其中channel split操作十分亮眼，達到了類似DenseNet的特徵重用效果。

CONCLUSION

ShuffleNet系列是輕量級網路中很重要的一個系列，ShuffleNetV1提出了channel shuffle操作，使得網路可以盡情地使用分組卷積來加速，而ShuffleNetV2則推倒V1的大部分設計，從實際出發，提出channel split操作，在加速網路的同時進行了特徵重用，達到了很好的效果。

如果本文對你有幫助，麻煩點個贊或在看唄～
更多內容請關注微信公眾號【曉飛的演算法工程筆記】

work-life balance.

MobileNetV1/V2/V3簡述 | 輕量級網路
2020-07-08
SqueezeNet/SqueezeNext簡述 | 輕量級網路
2020-07-02
適合移動端的輕量級網路
2018-10-24
JAVA輕量級鎖簡介
2018-10-20
Java
RNN與LSTM網路簡述
2018-06-10
RNN
Facebook在NAS領域的輕量級網路探索
2020-10-10
輕量級神經網路：ShuffleNetV2解讀
2019-06-03
神經網路
輕量級卷積神經網路的設計
2019-05-13
卷積神經網路
CPU上跑到 33 FPS 的簡單輕量級人體姿態估計網路
2019-11-29
輕量級卷積神經網路的設計技巧
2020-04-06
卷積神經網路
從MobileNet看輕量級神經網路的發展
2019-06-30
神經網路
輕量級網站建設jsonp跨域簡單例項
2021-09-09
網站JSON跨域單例
簡述 Polkadot 和區塊鏈網際網路
2018-10-26
區塊鏈
MnasNet：經典輕量級神經網路搜尋方法 | CVPR 2019
2020-07-14
神經網路
ESPNet/ESPNetV2：空洞卷積金字塔 | 輕量級網路
2021-01-28
卷積
PetaPoco .net 輕量級orm簡單實用教程
2019-05-11
ORM
一個工業級、跨平臺、輕量級的 tcp 網路服務框架：gevent
2020-05-31
TCP框架
core_framework —— 基於libev的輕量級lua網路開發框架
2019-04-17
Framework框架
阿里巴巴開源輕量級深度神經網路推理引擎MNN
2019-05-07
阿里神經網路
輕量級超級 css 工具
2019-11-04
CSS
輕量級超級簡單的element的layout柵格化佈局
2019-10-19
C# 輕量級 ORM 框架 NPoco 的簡單應用
2024-07-10
C#ORM框架
輕量級壓測平臺RunnerGo簡介及使用教程
2023-03-05
Go
卷積神經網路學習筆記——輕量化網路MobileNet系列（V1，V2，V3）
2021-03-13
卷積神經網路筆記
Backbone 網路-ResNet v2 詳解
2022-12-06
【論文學習】輕量級網路——MobileNetV3終於來了（含開原始碼）
2019-05-13
原始碼
輕量級配置中心Nodejs版
2018-11-20
NodeJS
iOS 輕量級 HTML 解析方案
2019-01-22
iOSHTML
python輕量級效能工具-Locust
2023-05-02
Python
Flutter路由輕量級框架FRouter
2019-10-27
Flutter路由框架
輕量級orm框架——gzero指南
2022-01-22
ORM框架
Spring的輕量級實現
2021-11-13
Spring
輕量級Web框架Flask（二）
2023-04-14
Web框架Flask
《真·簡單》Golang 輕量級桌面程式 wails 庫（聖誕節限定）
2021-12-23
GolangAI
Nancy .Net 輕量級mvc框架使用（1）搭建一個簡單專案
2019-05-11
NaNMVC框架
輕量級API測試工具Pandaria
2019-03-03
API
Android輕量級事件通訊方案
2018-11-03
Android事件
Golang web filter 輕量級實現
2018-08-02
GolangWebFilter

ShuffleNetV1/V2簡述 | 輕量級網路

ShuffleNet V1

Introduction

Channel Shuffle for Group Convolutions

ShuffleNet Unit

Network Architecture

Experiments

Conclusion

ShuffleNet V2

Introduction

Practical Guidelines for Efficient Network Design

G1: Equal channel width minimizes memory access cost (MAC).

G2: Excessive group convolution increases MAC

G3: Network fragmentation reduces degree of parallelism

G4: Element-wise operations are non-negligible

ShuffleNet V2: an Efficient Architecture

Experiment

Conclusion

CONCLUSION

相關文章