一文讀懂最近流行的CNN架構(附學習資料)

資料派THU發表於2018-01-14

640?wx_fmt=png&wxfrom=5&wx_lazy=1

來源: 機器學習演算法全棧工程師

本文長度為4259字,建議閱讀6分鐘

本文為你介紹CNN架構,包括ResNet, AlexNet, VGG, Inception。


本文翻譯自ResNet, AlexNet, VGG, Inception: Understanding various architectures of Convolutional Networks,原作者保留版權。


http://cv-tricks.com/cnn/understand-resnet-alexnet-vgg-inception/


卷積神經網路(CNN)在視覺識別任務上的表現令人稱奇。好的CNN網路是帶有上百萬引數和許多隱含層的“龐然怪物”。事實上,一個不好的經驗規則是:網路越深,效果越好。


AlexNet,VGG,Inception和ResNet是最近一些流行的CNN網路。


為什麼這些網路表現如此之好?它們是如何設計出來的?為什麼它們設計成那樣的結構?回答這些問題並不簡單,但是這裡我們試著去探討上面的一些問題。


網路結構設計是一個複雜的過程,需要花點時間去學習,甚至更長時間去自己動手實驗。首先,我們先來討論一個基本問題。


1. 為什麼CNN模型戰勝了傳統的計算機視覺方法?


?wxfrom=5&wx_lazy=1


影像分類指的是給定一個圖片將其分類成預先定義好的幾個類別之一。影像分類的傳統流程涉及兩個模組:特徵提取和分類


特徵提取指的是從原始畫素點中提取更高階的特徵,這些特徵能捕捉到各個類別間的區別。這種特徵提取是使用無監督方式,從畫素點中提取資訊時沒有用到影像的類別標籤。


常用的傳統特徵包括GIST, HOG, SIFT, LBP等。特徵提取之後,使用影像的這些特徵與其對應的類別標籤訓練一個分類模型。常用的分類模型有SVM,LR,隨機森林及決策樹等。


上面流程的一大問題是:特徵提取不能根據影像和其標籤進行調整。如果選擇的特徵缺乏一定的代表性來區分各個類別,模型的準確性就大打折扣,無論你採用什麼樣的分類策略。


採用傳統的流程,目前的一個比較好的方法是使用多種特徵提取器,然後組合它們得到一種更好的特徵。


但是這需要很多啟發式規則和人力來根據領域不同來調整引數使得達到一個很好的準確度,這裡說的是要接近人類水平。


這也就是為什麼採用傳統的計算機視覺技術需要花費多年時間才能打造一個好的計算機視覺系統(如OCR,人臉驗證,影像識別,物體檢測等),這些系統在實際應用中可以處理各種各樣的資料。


有一次,我們用了6周時間為一家公司打造了一個CNN模型,其效果更好,採用傳統的計算機視覺技術要達到這樣的效果要花費一年時間。


傳統流程的另外一個問題是:它與人類學習識別物體的過程是完全不一樣的。自從出生之初,一個孩子就可以感知周圍環境,隨著他的成長,他接觸更多的資料,從而學會了識別物體。


這是深度學習背後的哲學,其中並沒有建立硬編碼的特徵提取器。它將特徵提取和分類兩個模組整合一個系統,通過識別影像的特徵來進行提取並基於有標籤資料進行分類。


這樣的整合系統就是多層感知機,即有多層神經元密集連線而成的神經網路。


一個經典的深度網路包含很多引數,由於缺乏足夠的訓練樣本,基本不可能訓練出一個不過擬合的模型。


但是對於CNN模型,從頭開始訓練一個網路時你可以使用一個很大的資料集如ImageNet。這背後的原因是CNN模型的兩個特點:神經元間的權重共享和卷積層之間的稀疏連線。


這可以從下圖中看到。在卷積層,某一個層的神經元只是和輸入層中的神經元區域性連線,而且卷積核的引數是在整個2-D特徵圖上是共享的


?


2. 為了理解CNN背後的設計哲學,你可能會問:其目標是什麼?


  • 準確度


如果你在搭建一個智慧系統,最重要的當然是要儘可能地準確。公平地來說,準確度不僅取決於網路,也取決於訓練樣本數量。因此,CNN模型一般在一個標準資料集ImageNet上做對比。


ImageNet專案仍然在繼續改進,目前已經有包含21841類的14,197,122個圖片。自從2010年,每年都會舉行ImageNet影像識別競賽,比賽會提供從ImageNet資料集中抽取的屬於1000類的120萬張圖片。


每個網路架構都是在這120萬張圖片上測試其在1000類上的準確度。


  • 計算量


大部分的CNN模型都需要很大的記憶體和計算量,特別是在訓練過程。因此,計算量會成為一個重要的關注點。同樣地,如果你想部署在移動端,訓練得到的最終模型大小也需要特別考慮。


你可以想象到,為了得到更好的準確度你需要一個計算更密集的網路。因此,準確度和計算量需要折中考慮。


除了上面兩個因素,還有其他需要考慮的因素,如訓練的容易度,模型的泛化能力等。下面按照提出時間介紹一些最流行的CNN架構,可以看到它們準確度越來越高。


3. AlexNet


AlexNet


http://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks.pdf


 是一個較早應用在ImageNet上的深度網路,其準確度相比傳統方法有一個很大的提升。它首先是5個卷積層,然後緊跟著是3個全連線層,如下圖所示:


?


Alex Krizhevs提出的AlexNet採用了ReLU啟用函式,而不像傳統神經網路早期所採用的Tanh或Sigmoid啟用函式,ReLU數學表達為:


f(x)=max(0, x)


ReLU相比Sigmoid的優勢是其訓練速度更快,因為Sigmoid的導數在穩定區會非常小,從而權重基本上不再更新。這就是梯度消失問題。因此AlexNet在卷積層和全連線層後面都使用了ReLU。


?


AlexNet的另外一個特點是其通過在每個全連線層後面加上Dropout層減少了模型的過擬合問題。Dropout層以一定的概率隨機地關閉當前層中神經元啟用值,如下圖所示:


?


為什麼Dropout有效?


Dropout背後理念和整合模型很相似。在Drpout層,不同的神經元組合被關閉,這代表了一種不同的結構,所有這些不同的結構使用一個的子資料集並行地帶權重訓練,而權重總和為1。


如果Dropout層有 n 個神經元,那麼會形成2^n個不同的子結構。在預測時,相當於整合這些模型並取均值。這種結構化的模型正則化技術有利於避免過擬合。


Dropout有效的另外一個視點是:由於神經元是隨機選擇的,所以可以減少神經元之間的相互依賴,從而確保提取出相互獨立的重要特徵。


4. VGG16


VGG16


https://arxiv.org/abs/1409.1556


是牛津大學VGG組提出的。VGG16相比AlexNet的一個改進是採用連續的幾個3x3的卷積核代替AlexNet中的較大卷積核(11x11,5x5)。


對於給定的感受野(與輸出有關的輸入圖片的區域性大小),採用堆積的小卷積核是優於採用大的卷積核,因為多層非線性層可以增加網路深度來保證學習更復雜的模式,而且代價還比較小(引數更少)。


比如,3個步長為1的 3x3 卷積核連續作用在一個大小為7的感受野,其引數總量為 3*(9C^2), 如果直接使用7x7卷積核,其引數總量為  49C^2,這裡  C 指的是輸入和輸出的通道數。


而且3x3卷積核有利於更好地保持影像性質。VGG網路的架構如下表所示:


?


可以看到VGG-D,其使用了一種塊結構:多次重複使用同一大小的卷積核來提取更復雜和更具有表達性的特徵。這種塊結構( blocks/modules)在VGG之後被廣泛採用。


VGG卷積層之後是3個全連線層。網路的通道數從較小的64開始,然後每經過一個下采樣或者池化層成倍地增加,當然特徵圖大小成倍地減小。最終其在ImageNet上的Top-5準確度為92.3%。


5. GoogLeNet / Inception


儘管VGG可以在ImageNet上表現很好,但是將其部署在一個適度大小的GPU上是困難的,因為需要VGG在記憶體和時間上的計算要求很高。由於卷積層的通道數過大,VGG並不高效。


比如,一個3x3的卷積核,如果其輸入和輸出的通道數均為512,那麼需要的計算量為9x512x512。


在卷積操作中,輸出特徵圖上某一個位置,其是與所有的輸入特徵圖是相連的,這是一種密集連線結構。


GoogLeNet


https://arxiv.org/pdf/1409.4842v1.pdf


基於這樣的理念:在深度網路中大部分的啟用值是不必要的(為0),或者由於相關性是冗餘。因此,最高效的深度網路架構應該是啟用值之間是稀疏連線的,這意味著512個輸出特徵圖是沒有必要與所有的512輸入特徵圖相連。


存在一些技術可以對網路進行剪枝來得到稀疏權重或者連線。但是稀疏卷積核的乘法在BLAS和CuBlas中並沒有優化,這反而造成稀疏連線結構比密集結構更慢。


據此,GoogLeNet設計了一種稱為inception的模組,這個模組使用密集結構來近似一個稀疏的CNN,如下圖所示。


前面說過,只有很少一部分神經元是真正有效的,所以一種特定大小的卷積核數量設定得非常小。同時,GoogLeNet使用了不同大小的卷積核來抓取不同大小的感受野。


?


Inception模組的另外一個特點是使用了一中瓶頸層(實際上就是1x1卷積)來降低計算量:


這裡假定Inception模組的輸入為192個通道,它使用128個3x3卷積核和32個5x5卷積核。5x5卷積的計算量為25x32x192,但是隨著網路變深,網路的通道數和卷積核數會增加,此時計算量就暴漲了。為了避免這個問題,在使用較大卷積核之前,先去降低輸入的通道數。


所以,Inception模組中,輸入首先送入只有16個卷積核的1x1層卷積層,然後再送給5x5卷積層。這樣整體計算量會減少為16x192+25x32x16。這種設計允許網路可以使用更大的通道數。


(譯者注:之所以稱1x1卷積層為瓶頸層,你可以想象一下一個1x1卷積層擁有最少的通道數,這在Inception模組中就像一個瓶子的最窄處)


GoogLeNet的另外一個特殊設計是最後的卷積層後使用全域性均值池化層替換了全連線層,所謂全域性池化就是在整個2D特徵圖上取均值。


這大大減少了模型的總引數量。要知道在AlexNet中,全連線層引數佔整個網路總引數的90%。使用一個更深更大的網路使得GoogLeNet移除全連線層之後還不影響準確度。其在ImageNet上的top-5準確度為93.3%,但是速度還比VGG還快。


6. ResNet

  

從前面可以看到,隨著網路深度增加,網路的準確度應該同步增加,當然要注意過擬合問題。但是網路深度增加的一個問題在於這些增加的層是引數更新的訊號,因為梯度是從後向前傳播的,增加網路深度後,比較靠前的層梯度會很小。


這意味著這些層基本上學習停滯了,這就是梯度消失問題。深度網路的第二個問題在於訓練,當網路更深時意味著引數空間更大,優化問題變得更難,因此簡單地去增加網路深度反而出現更高的訓練誤差。


殘差網路 [ResNet]


https://arxiv.org/abs/1512.03385


設計一種殘差模組讓我們可以訓練更深的網路


?


深度網路的訓練問題稱為退化問題,殘差單元可以解決退化問題的背後邏輯在於此:想象一個網路A,其訓練誤差為x。


現在通過在A上面堆積更多的層來構建網路B,這些新增的層什麼也不做,僅僅複製前面A的輸出。這些新增的層稱為C。


這意味著網路B應該和A的訓練誤差一樣。那麼,如果訓練網路B其訓練誤差應該不會差於A。但是實際上卻是更差,唯一的原因是讓增加的層C學習恆等對映並不容易。


為了解決這個退化問題,殘差模組在輸入和輸出之間建立了一個直接連線,這樣新增的層C僅僅需要在原來的輸入層基礎上學習新的特徵,即學習殘差,會比較容易。


與GoogLeNet類似,ResNet也最後使用了全域性均值池化層。利用殘差模組,可以訓練152層的殘差網路。其準確度比VGG和GoogLeNet要高,但是計算效率也比VGG高。152層的ResNet其top-5準確度為95.51%。


ResNet主要使用3x3卷積,這點與VGG類似。在VGG基礎上,短路連線插入進入形成殘差網路。如下圖所示:


?


殘差網路實驗結果表明:34層的普通網路比18層網路訓練誤差還打,這就是前面所說的退化問題。但是34層的殘差網路比18層殘差網路訓練誤差要好。


7. 總結

   

隨著越來越複雜的架構的提出,一些網路可能就流行幾年就走下神壇,但是其背後的設計哲學卻是值得學習的。這篇文章對近幾年比較流行的CNN架構的設計原則做了一個總結。


(譯者注:可以看到,網路的深度越來越大,以保證得到更好的準確度。網路結構傾向採用較少的卷積核,如1x1和3x3卷積核,這說明CNN設計要考慮計算效率了。)


一個明顯的趨勢是採用模組結構,這在GoogLeNet和ResNet中可以看到,這是一種很好的設計典範,採用模組化結構可以減少我們網路的設計空間,另外一個點是模組裡面使用瓶頸層可以降低計算量,這也是一個優勢。


這篇文章沒有提到的是最近的一些移動端的輕量級CNN模型,如MobileNet,SqueezeNet,ShuffleNet等,這些網路大小非常小,而且計算很高效,可以滿足移動端需求,是在準確度和速度之間做了平衡。


8. 參考文獻

   

http://cv-tricks.com/cnn/understand-resnet-alexnet-vgg-inception/


編輯:文婧

0?wx_fmt=jpeg

相關文章