理解卷積神經網路的利器:9篇重要的深度學習論文(上)

阿里云云棲社群發表於2018-03-22
摘要: 為了更好地幫助你理解卷積神經網路,在這裡,我總結了計算機視覺和卷積神經網路領域內許多新的重要進步及有關論文。

本文將介紹過去五年內發表的一些重要論文,並探討其重要性。論文1—5涉及通用網路架構的發展,論文6—9則是其他網路架構的論文。點選原文即可檢視更詳細的內容。

1.AlexNet(2012)

AlexNet是卷積神經網路架構的起源(儘管可能會有人認為,1998年Yann LeCun發表的論文才是真正的開創性出版物)。這篇名為“基於深度卷積網路ImageNet分類”的論文總共被引用6,184次,被公認為是該領域最具影響力的論文之一。在2012年的ImageNet大規模視覺識別挑戰賽中,Alex Krizhevsky等人建立的“大而深的卷積神經網路”取得了大賽冠軍——將分類誤差從26%降至15%,這是一個驚人的改進,幾乎讓所有的計算機視覺社群為之震撼。從那時起,卷積神經網路被廣泛傳播,成了一個家喻戶曉的名字。

該論文討論了AlexNet架構的網路結構。與現代架構相比,AlexNet使用了相對簡單的網路結構:由5個卷積層、最大池化層、drop-out層和3個全連線層組成。他們設計的網路可用於對1000個類別進行分類。

主要論點

1.在ImageNet資料集上訓練網路,ImageNet資料集包含超過1500萬張註釋影象,類別超過22000個。

2.使用ReLU處理非線性函式(這樣可以減少訓練時間,因為ReLU比傳統的tanh函式執行速度要快幾倍)。

3.使用的資料增強技術包括:影象轉換,水平反射和補丁提取。

4.採用drop-out層,解決了訓練資料的過擬合問題。

5.使用批量隨機梯度下降訓練架構,其中動量和權重衰減都有固定的具體值。

重要性

Krizhevsky等人在2012年開發出來的神經網路,是卷積神經網路在計算機視覺社群的一場盛宴。這是首次在ImageNet資料集上效能表現非常好的架構,利用了今天仍在使用的技術,如資料增強和dropout。這篇論文闡述了卷積神經網路的優點,並創造了其他神經網路難以逾越的效能。

2.ZF Net

由於AlexNet在2012年閃亮登場,在2013的ImageNet大規模視覺識別挑戰賽中出現的卷積神經網路架構數量大幅度增加,該年度大賽冠軍是由紐約大學的Matthew Zeiler團隊建立的網路——ZF Net,該架構實現了低至11.2%的誤差率。ZF Net架構相當於對AlexNet架構做了微調,但作者仍然提出了一些能夠提高模型效能的重要設想。這篇論文之所以特別重要,另一個原因就是作者花了很多精力來解釋卷積神經網路的視覺化,並展示瞭如何正確的視覺化濾波器和權重。

在這篇題為“卷積神經網路的視覺化和理解”的論文中,Zeiler團隊首先解釋了重新對卷積神經網路感興趣的原因,這源自於大型訓練集的可訪問性,以及隨著GPU的使用率增大,計算能力也有提高。作者還提到“更好的架構會減少試驗和誤差次數”。儘管和三年前相比,我們對卷積神經網路有了更全面的理解,但這仍然是很多研究人員所面臨的問題!本文的主要貢獻是對AlexNet架構的細節做了微調,並且以一種很有意思的方法對特徵對映做了視覺化處理。

主要論點

1.ZF Net與AlexNet模型有非常相似的架構,同時也做了一些微調。

2.AlexNet訓練了1500萬張圖片,而ZF Net僅僅訓練了130萬張圖片。

3.AlexNet在第一層使用11*11的濾波器,而ZF Net使用了7*7的濾波器和一個較小的步長。做這一調整的原因是第一個卷積層中使用較小的濾波器有助於將大量的原始畫素資訊保留在輸入陣列中。11*11的濾波器會過濾掉很多有用的資訊,尤其是在第一個卷積層。

4.隨著卷積網路的發展,使用濾波器的數量有所增加。

5.將ReLUs作為其啟用函式,交叉熵代價函式作為誤差函式,並使用批量隨機梯度下降進行訓練。

6.開發了一種名為去卷積網路的視覺化技術,有助於測試不同的特徵啟用與輸入陣列的關係。之所以被稱為“去卷積”,因為它將特徵對映為畫素(與卷積層的作用正好相反)。

DeConvNet

DeConvNet模型的基本思想是,在卷積神經網路已經訓練好的每一層,都增加一個“去卷積”返回影象畫素。影象輸入到卷積神經網路中,並在每個級別計算其特徵啟用。假設現在要檢查第四個卷積層中某個特徵啟用,我們來儲存這一個特徵對映的啟用,但將卷積層中的所有其他啟用都設為0,然後將此特徵對映作為輸入傳遞給DeConvNet模型。該DeConvNet模型具有與原始卷積神經網路相同的濾波器。然後,輸入經過一系列的反池化(和最大池化相反)、校正以及前面每個層的濾波器操作,然後到達輸入陣列。


這整個過程是因為我們想要檢查到底哪種型別的結構啟用給定的特徵對映。 我們來看看第一層和第二層的視覺化效果。

我們知道,卷積層中的第一層是一個基本特徵檢測器,檢測邊緣或顏色。如上圖所示,我們可以看到,在第二層有更多的迴圈特徵被檢測到。下面,我們來看看第3、4、5層。

這些層顯示了更多高階特徵,如狗的頭部或鮮花。需要注意的是,在第一個卷積層之後,我們通常會有一個池化層對影象進行下采樣(例如,將32*32*3陣列轉換為16*16*3的陣列)。這樣做可以在第二層看到原始影象範圍更廣的特徵。

重要性

ZF Net模型不僅是2013年度ImageNet大規模視覺識別挑戰賽的冠軍,而且還提供了有關卷積神經網路執行的絕佳的視覺效果,並展示了更多能夠提高效能的方法。 ZF Net模型所描述的視覺化方法不僅有助於解釋卷積神經網路的內部執行機制,而且還提供了對網路架構進行改進的獨特見解。

3. VGG Net (2014)

VGG Net是2014年建立的架構(但並不是ImageNet大規模視覺識別挑戰賽的冠軍),其利用率達到7.3%。來自牛津大學的Karen Simonyan和Andrew Zisserman建立了一個特別簡單的19層的卷積神經網路,使用步長為1的3*3的濾波器,步長為2的2*2池化層。


主要論點

1.僅僅使用了3*3的濾波器,這與AlexNet第一層使用的11*11濾波器和ZF Net使用的7*7濾波器大不相同。作者證明了兩個3*3 卷積層的組合具有5*5的有效感受野。在使用較小的濾波器的同時,也模擬出了一個更大的濾波器,同時也減少了引數的數量。此外,我們還可以在兩個卷積層中使用ReLU層。

2.三個卷積層的組合具有7*7的有效感受野。

3.隨著每層的深入,輸入陣列隨之減小(卷積層和池化層的原因),過濾器的數量隨之,因此陣列的深度也不斷增加。

4.有趣的是,濾波器的數量在每個最大池化層之後都會增加一倍。這強化了縮小空間維度的想法,但增加了網路的深度。

5.特別適用於影象分類和本地化任務。作者使用本地化的形式作為迴歸。

6.用Caffe構建架構。

7.在訓練過程中使用資料增強技術是抖動( scale jittering )。

8.在每個卷積層之後使用ReLU層,並採用批梯度下降進行訓練。

重要性

VGG Net模型一直都是我心目中最有影響力的論文之一,因為它強化了這一觀點:為了使視覺資料可以分層表示,卷積神經網路必須具有更加深入的網路層。

4. GoogLeNet (2015)

谷歌使用了Inception模組來代替簡單網路架構這一概念,GoogLeNet模型是一個22層的卷積神經網路架構,並且是2014年度ImageNet大規模視覺識別挑戰賽的冠軍,誤差率高達6.7%。據我所知,這是第一個真正摒棄了在順序結構中對卷積層和池化層進行簡單堆疊的卷積神經網路架構之一。這個新架構著重考慮記憶體和功耗(堆疊所有的這些層並新增大量的濾波器會產生計算成本和記憶體成本,同時也會增加過擬合的概率)。

Inception模組

並不是像以前的架構按順序執行,GoogLeNet架構中存在可以並行的網路。如下圖所示,這個方框被稱為Inception模組。

讓我們來看看它的內部組成。


底部的綠色框是輸入,最上面的是輸出。在傳統的卷積網路的每一層,你必須選擇是否進行池化或卷積操作(也可以選擇過濾器大小)。Inception模組可以所有這些操作。這正是GoogLeNet的亮點之一。

這樣會導致太多的輸出,為了解決這一問題,作者在3*3和5*5的層前面新增1*1 的卷積操作對其進行降維。舉個例子,假設輸入陣列為100*100*60(這不一定是影象大小,只是網路任意一層的輸入)。使用20個1*1卷積濾波器可以讓將陣列降到100*100*20。這就意味著3*3和5*5的卷積操作不會有大量的操作。由於我們正在降低陣列的維度,這一操作被稱作“特徵池化”,這和我們用普通的最大池化層來減小圖片的高度和寬度比較相似。

GoogLeNet模型有什麼用?這個網路由網路層的一個網路、一箇中型卷積濾波器、一個大型卷積濾波器和一個池化操作組成。卷積網路能夠提取輸入陣列的細節資訊,而5*5濾波器能夠覆蓋輸入較大範圍的接受野,因此也能夠提取其細節資訊。你還可以在GoogLeNet模型中進行池化操作,這有助於降低空間維度並避免過擬合。最重要的是,在每個卷積層之後都有ReLU函式,這有助於改善網路的非線性。基本上,網路在執行這些操作的同時,仍能夠保持計算上的良好效能。

主要論點

1.在整個架構中使用了九個Inception模組,總共超過100層!

2.沒有使用全連線層! 他們使用平均池化,這大大節省了引數的數量。

3.使用的引數比AlexNet架構少12倍。

4.利用R-CNN的概念介紹其檢測架構。

5.Inception模組有了版本更新(版本6和7)。

重要性

GoogLeNet模型是第一個引入“卷積神經網路層並不需要依次疊加”這一理念的架構之一,作為Inception模組的一部分,富有創造性的層結構提高了整體效能和計算效率。

敬請期待後續論文介紹——理解卷積神經網路的利器:9篇重要的深度學習論文(下)!

以上為譯文。

理解卷積神經網路的利器:9篇重要的深度學習論文(下)

本文由阿里云云棲社群組織翻譯。

作者:【方向】

原文連結


相關文章