前言
卷積神經網路的發展主要是為了解決人類視覺問題,不過現在其它方向也都會使用。發展歷程主要從Lenet5->Alexnet->VGG->GooLenet->ResNet等。
Lenet5
上世界80年代發明了卷積層,但由於硬體限制無法構建複雜網路,直到後面90年代才開始有實踐。
1998年LeCun提出卷積層、池化層和完全連線層組合,以此來解決手寫數字的識別問題。此時的效果已經很不錯了,能與其它經典的機器學習模型相比。架構如下,一個32 x 32的輸入,通過卷積提取特徵,然後進行下采樣,再一次卷積和下采樣,後面進行全連線和高斯連線。

Alexnet
後來隨著可用的結構化資料和處理能力呈指數增長,使得模型能進一步增強,特別是Imagenet開源資料集的出現,數百萬張被標記分類的影象。
2012年的LSVRC挑戰賽,Hinton和他學生Alex Krizhevsky開發了Alexnet深度卷積網路,結構類似Lenet5,但是卷積層深度更深,引數總數達數千萬。結構如下,多個卷積層且每個網路深度都達數百。

VGG
2014年LSVRC挑戰賽強大的競爭者,由牛津大學視覺幾何組織提出的VGG模型。比起Alexnet,它主要是將卷積核縮小了,全部改用3x3。如下圖為VGG結構,大體結構一致,但卷積配置可以不同。啟用函式使用ReLU,池化使用max pooling,最後使用softmax輸出各項概率。

GoogLenet
2014年,該網路模型贏得LSVRC挑戰賽,該系列賽首次由大型公司參賽並獲得成功,此後也一直由擁有鉅額預算的大公司贏得比賽。
GoogLenet 主要由9個Inception模組組合而成,其中只進行很小的改動。Inception模組結構如下圖,

GoogLenet引數數量降到了一千多萬,並且準確性比Alexnet提高,誤差從16.4%降到6.7%。

2015年隨著《重新思考計算機視覺的Inception架構》文章發表,google研究人員釋出新的Inception架構,主要解決協方差移位問題,其中將規範化應用於原始輸入及每層的輸出值。除此之外卷積核大小也有所變化,且增加了網路總體深度及卷積的分解。

ResNet
2015年ResNet被提出,由原來微軟研究院何愷明博士提出,現為Facebook AI研究科學家。ResNet戰績輝煌,當年一下取得5項第一。ResNet網路中的模組如下圖,

該模組的卷積部分第一個1 x 1的卷積把256維降到64維,接著進入3 x 3濾波器層,最後再通過1 x 1卷積恢復256維。組合的形式大致如下。

-------------推薦閱讀------------
我的開源專案彙總(機器&深度學習、NLP、網路IO、AIML、mysql協議、chatbot)
跟我交流,向我提問:

歡迎關注:
