「完結」總結12大CNN主流模型架構設計思想

dicksonjyl560101發表於2019-07-14


專欄《CNN模型解讀》正式完結了,在這一個專欄中,我們給大家回顧了深度學習中的各類具有代表性的CNN模型,詳細分析了各類模型的特點,設計思想。當然,這一個系列不可能包含所有的模型,但是我們可以從中洞見最核心的思想。後續的內容請大家移步有三AI知識星球。

作者 | 言有三

編輯 | 言有三


從LeNet5到VGG

LeNet5 不是CNN的起點,但卻是它的hello world,讓大家看到了卷積神經網路商用的前景。

「完結」總結12大CNN主流模型架構設計思想

AlexNet 是CNN向大規模商用打響的第一槍,奪得ImageNet 2012年分類冠軍,宣告神經網路的王者歸來。 VGG 以其簡單的結構,在提出的若干年內在各大計算機視覺領域都成為了最廣泛使用的benchmark。

它們都有著簡單而又優雅的結構,同出一門。詮釋了增加深度是如何提高了深度學習模型的效能。詳細解讀如下:

「模型解讀」從LeNet到VGG,看卷積+池化串聯的網路結構

1*1卷積

1*1 卷積本身只是N*N卷積的卷積核半徑大小退化為1時的特例,但是由於它以較小的計算代價增強了網路的非線性表達能力,給網路結構在橫向和縱向擴充提供了非常好的工具,常用於升維和降維操作,尤其是在深層網路和對計算效率有較高要求的網路中廣泛使用。

「完結」總結12大CNN主流模型架構設計思想

詳細解讀如下:

「模型解讀」network in network中的1*1卷積,你懂了嗎

GoogLeNet

GoogLeNet奪得ImageNet2014年分類冠軍,也被稱為 Inception V1 。Inception V1有22層深,引數量為5M。同一時期的VGGNet效能和Inception V1差不多,但是引數量卻遠大於Inception V1。Inception的優良特性得益於Inception Module,結構如下圖:

「完結」總結12大CNN主流模型架構設計思想

由1*1卷積,3*3卷積,5*5卷積,3*3最大池化四個並行通道運算結果進行融合,提取影像不同尺度的資訊。如果說VGG是以深度取勝,那麼GoogLeNet可以說是以寬度取勝,當然1*1卷積起到了很大的作用,這一點在SqueezeNet中也很關鍵。詳細解讀如下:

「模型解讀」GoogLeNet中的inception結構,你看懂了嗎

4 MobileNets

脫胎於 Xception 的網路結構MobileNets使用 Depthwise Separable Convolution (深度可分離卷積)構建了輕量級的28層神經網路,成為了移動端上的高效能優秀基準模型。

「完結」總結12大CNN主流模型架構設計思想

一個depthwise convolution,專注於該通道內的空間資訊,一個pointwise convolution,專注於跨通道的資訊融合,兩者共同努力,然後強大,在此基礎上的一系列模型如shufflenet等都是後話。詳細解讀如下:

「模型解讀」說說移動端基準模型MobileNets

5 殘差網路

當深層網路陷身於梯度消失等問題而導致不能很有效地訓練更深的網路時,脫胎於 highway network 的殘差網路應運而生,附帶著MSRA和何凱明的學術光環,詮釋了因為簡單,所以有效,但你未必能想到和做到的樸素的道理。

「完結」總結12大CNN主流模型架構設計思想

詳細解讀如下:

「模型解讀」resnet中的殘差連線,你確定真的看懂了?

6 非正常卷積

誰說卷積一定要規規矩矩四四方方呢?MSRA總是一個出新點子的地方,在spatial transform network和active convolution的鋪墊下,可變形卷積 deformable convolution network 如期而至。

「完結」總結12大CNN主流模型架構設計思想

文章依舊寫的很簡單,這是一個致力於提升CNN對具有不同幾何形變物體識別能力的模型,關鍵在於可變的感受野。

「模型解讀」“不正經”的卷積神經網路

密集連線網路

說起來, DenseNet 只不過是殘差網路的升級版,將網路中的每一層都直接與其前面層相連,把殘差做到了極致,提高了特徵的利用率;因為可以把網路的每一層設計得很窄,提高計算效能。

「完結」總結12大CNN主流模型架構設計思想

不過還是那句話,就算你能想到,也未必能做到,我們還是單獨詳細解讀如下:

「模型解讀」“全連線”的卷積網路,有什麼好?

8 非區域性神經網路

卷積神經網路因為區域性連線和權重共享而成功,但是它的感受野是有限的。為了這樣,我們不得不使用更深的網路,由此帶來了三個問題。(1) 計算效率不高。(2) 感知效率不高。(3) 增加最佳化難度。這一次又是學神凱明帶隊出發,從傳統降噪演算法Non-Local中完成借鑑。

「完結」總結12大CNN主流模型架構設計思想

雖非真主流,瞭解一下也無妨。

「模型解讀」從“區域性連線”回到“全連線”的神經網路

9 多輸入網路

見慣了輸入一個影像或者影片序列,輸出分類,分割,目標檢測等結果的網路,是否會想起輸入兩張,或者多張圖片來完成一些任務呢,這就是多輸入網路結構。

「完結」總結12大CNN主流模型架構設計思想

從檢索,比對,到排序,跟蹤,它可以做的事情有很多,你應該瞭解一下。 深度學習網路只能有一個輸入嗎

10  3D卷積

2D卷積玩膩了,該跳到更加高維的卷積了,常見的也就是3D卷積了。

「完結」總結12大CNN主流模型架構設計思想

雖然3D帶來了暴漲的計算量,但是想想可以用於影片分類和分割,3D點雲,想想也是有些小激動呢。

「模型解讀」從2D卷積到3D卷積,都有什麼不一樣

11  RNN和LSTM

不是所有的輸入都是一張圖片,有很多的資訊是非固定長度或者大小的,比如影片,語音,此時就輪到RNN,LSTM出場了。

「完結」總結12大CNN主流模型架構設計思想

話不多說,好好學: 「模型解讀」淺析RNN到LSTM

12  GAN

近幾年來無監督學習領域甚至是深度學習領域裡最大的進展非生成對抗網路GAN莫屬,被譽為下一代深度學習,不管是研究熱度還是論文數量,已經逼近甚至超越傳統判別式的CNN架構。在研究者們的熱情下,GAN已經從剛開始的一個生成器一個判別器發展到了多個生成器多個判別器等各種各樣的結構。

「完結」總結12大CNN主流模型架構設計思想

快上車,因為真的快來不及了。

「模型解讀」歷數GAN的5大基本結構




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2650477/,如需轉載,請註明出處,否則將追究法律責任。

相關文章