前言:本文是我對照原論文逐字逐句翻譯而來,英文水平有限,不影響閱讀即可。翻譯論文的確能很大程度加深我們對文章的理解,但太過耗時,不建議採用。我翻譯的另一個目的就是想重拾英文,所以就硬著頭皮啃了。本文只作翻譯,總結及程式碼復現詳見後續的姊妹篇。
Alex原論文連結:https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf
使用深度卷積神經網路進行ImageNet影像分類
作者:Alex Krizhevsky、Ilya Sutskever、Geoffrey E. Hinton 多倫多大學
摘要
我們訓練了一個大型的深度卷積神經網路,將ImageNet LSVRC-2010競賽中的120萬張高解析度影像分類成1000種不同的類別。在測試資料上,我們取得了Top1 37.5%和Top-5 17.0%的錯誤率,這個結果已經遠超以前的最高水平。該神經網路具有6千萬個引數和650,000個神經元,它由5個卷積層和3個全連線層構成,其中部分卷積層後邊跟有最大池化層,全連線層後邊則是一個1000路的softmax分類器。為了使訓練速度更快,我們使用了非飽和神經元和一種卷積操作的非常高效的GPU實現。為了減少全連線層中的過擬合,我們使用了一個最近開發的被稱作“暫退法”的正則化方法,該方法已被證明十分有效。在IOLSVRC-2012競賽中,我們正式提出這個模型的一種變體,並以15.3%的top-5測試誤差率贏得榜首,相比而言,第二好的參賽隊伍則只取得26.2%的成績。
1 簡介
當前的目標識別方法在機器學習方法中有著非常重要的應用。為了提高他們的效能,我們可以收集更大的資料集,學習更強大的模型,以及使用更好的避免過擬合的技術。屹今為止,含標註的影像資料集相對還是比較小的——近數萬張影像(例如,NORB [16],Caltech-101/256 [8,9],和CIFAR-10/100 [12])。簡單的識別任務使用這種規模的資料集可以取得相當不錯的結果,特別是當他們使用保留標籤的轉換進行增強時。例如,在MNIST手寫數字識別任務中,當前最好的錯誤率達到了0.3%以內,接近了人類的識別水平 [4]。但是現實資料集中的目標表現出相當大的不確定性,因此使用更大的訓練集去學習識別他們是必要的。的確,小型影像資料集的缺點已經被廣泛地認識到(比如Pinto等人 [21]),但這僅僅是在最近收集帶有數百萬影像的標記資料集時才變得重要起來。新的大型資料集包括由成千上萬張全分割影像組成的LabelMe [23],以及由包含超過22000個類別的1500多萬張帶標籤的高解析度影像組成的ImageNet [6]。
要從數百萬張影像裡邊學習數千個目標,我們需要一個有很強學習能力的模型。然而,目標識別任務極大的複雜度意味著這個問題即便通過一個像ImageNet一樣大的資料集都無法被明確描述,因此我們的模型也應當具有大量的先驗知識,來補償所有我們所沒有的資料。卷積神經網路(CNNs)構造了一個此類的模型 [16, 11, 13, 18, 15, 22, 26]。他們的容量可以通過改變其深度和廣度來控制,並且他們也構造了強大的近乎正確的關於影像本質的假設(即統計資料的平穩性和畫素依賴的區域性性)。因此,相比標準的具有相似大小的層的前饋神經網路,CNNs具有更少的連線和引數,並且也更易於訓練,同時他們理論上的最佳效能可能只是略差而已。
儘管CNNs有著出色的效能,以及相對有效的區域性結構,但他們在大規模高分辨影像的應用上依然是代價及其昂貴的。幸運的是,當前的GPUs與高度優化的2D卷積實現相結合,足以促進有趣的大型CNNs的訓練,並且最近的諸如ImageNet的資料集,含有足夠多帶標籤的樣本去訓練這種沒有太大過擬合的模型。
本文具體的貢獻如下:我們在ILSVRC-2010和ILSVRC-2012競賽中所使用的ImageNet子集上訓練了屹今為止最大的卷積神經網路之一,並取得了屹今為止在這些資料集上報告的最佳結果。我們編寫了一個高度優化的2D卷積GPU實現以及訓練卷積神經網路所有固有的其他操作,這些我們公開提供(http://code.google.com/p/cuda-convnet)。我們的網路包含了許多新的且不尋常的特徵,可以提高網路效能和降低訓練時間,詳見第3節。我們網路的規模使得過擬合成了一個重要的問題,即便這是在擁有120萬已標註的訓練樣本的情況下,因此我們使用了數種有效的技術來避免過擬合,這部分將在第4節詳細介紹。最終的網路包含5個卷積層和3個全連線層,並且這個深度似乎很重要:我們發現移除任何卷積層(每一個包含不超過1%的模型引數)都會導致效能變差。
最後,網路大小主要受限於當前GPUs可用記憶體的數量和我們能容忍的訓練時間的多少。我們的網路在兩個GTX 580 3GB的GPU上花費了5-6天時間訓練。我們所有的實驗都表明,我們的結果僅僅通過等待更快的GPU和更大的資料集就能變得可用來被改進。
2 資料集
ImageNet是一個包含大約22000類別的超過1500萬張的帶標籤的高解析度影像資料集。其影像收集自Web,並且使用亞馬遜的Mechanical Truk眾包工具人工標註而成。在2010年,作為Pascal視覺目標挑戰賽(Pascal VOC)的一部分,一個被稱作ImageNet大規模視覺識別挑戰賽(ILSVRC)的年度競賽開始舉辦。ILSVRC使用了ImageNet的的一個子集,其中包含1000個類別且每個類別包含大約1000張影像。總計有大約120萬訓練影像,50000張驗證影像,以及15萬測試影像。
ILSVRC-2010是ILSVRC僅有的可獲取其測試集標籤的版本,因此這是一個可以在上邊驗證我們絕大多數實驗的版本。後來我們也攜該模型參加了ILSVRC-2012競賽,在第6節,我們也會公佈在這個版本的資料集上的結果,在該版本無法獲取測試集標籤。在ImageNet上,習慣公佈兩個錯誤率:top-1和top-5,其中top-5錯誤率是一個分數,即測試影像中正確的標籤不在前5概率裡邊的樣本數除以樣本總數。
ImageNet包含各種解析度的影像,同時我們的系統需要一個固定的輸入維度。因此,我們對影像下采樣得到一個256*256的固定解析度。給定一個矩形影像,我們首先重新調節影像大小至最短邊長為256,然後從結果影像中裁剪出中心256*256的小塊。除了從每個畫素減去訓練集的平均活度之外,我們沒有對影像做其他任何方式的預處理。因此我們是在畫素的(居中的)原始RGB值上訓練我們的網路。
3 網路結構
網路結構在圖2中做了概括。它包含8個學習層——5個卷積層和3個全連線層。隨後,我們描述了網路結構中的一些新穎的和與眾不同的特徵。我們根據重要性的評估對3.1-3.4節的內容依次做了排序,最重要的在前。
3.1 ReLU非線性
將神經元的輸出f模擬成它的輸入x的函式的標準方法是:或。就使用梯度下降的訓練時間來說,這些飽和非線性要比非飽和非線性更慢。繼Nair和Hinton 之後[20],我們將具有這種非線性的神經元稱為矯正線性單元(ReLUs)。使用ReLUs的深度卷積神經網路的訓練速度是使用tanh的同等網路的數倍。這在圖1中得到了證實,圖1顯示了使用一個特殊的4層卷積網路進行CIFAR-10資料集的訓練,其達到25%訓練誤差所需的迭代次數。該圖表明,如果使用傳統的飽和神經元模型,我們將無法為這項工作去驗證如此大型的神經網路。
圖1:一個使用ReLUs(實線)的四層卷積神經網路在資料集CIFAR-10上只需要6次訓練就可達到25%的訓練錯誤率,快於使用tanh神經元(虛線)在同等網路下的效果。每種網路都是獨立地選擇使訓練速度儘可能快的學習率。沒有使用任何型別的正則化。這裡雖然證實了ReLUs的有效程度會隨著網路結構不同而變化,但是同樣的網路使用ReLUs的學習速度始終要比使用飽和神經元的學習速度快數倍。
我們並非一開始就去考慮替代CNNs中的傳統神經元模型。比如Jarrett等人[11]提出,在資料集Caltech-101上,非線性的使用它們的對比度歸一化型別然後緊接區域性平均池化,其效果特別好。然而在這個資料集上,主要的關注點是防止過擬合,所以他們觀察到的效果是不同於我們在使用ReLUs時提出的適用於訓練集的加速能力。更快的學習對在大型資料集上訓練的大型模型的效能影響更為顯著。
3.2 多GPU訓練
單個GTX 580 GPU只有3GB記憶體,這限制了能夠在其上訓練的網路的最大尺寸。事實證明120萬個訓練樣本足以去訓練由於太大而無法在一個GPU上容納的網路。因此我們把網路分佈在兩個GPU上。當前的GPU特別適合跨GPU並行化,因為他們能夠直接讀寫另一個GPU的記憶體,而不需要經過主機記憶體。我們使用的並行化方案基本上是在每一塊GPU上佈置一半的核心(或神經元),還有一個技巧:GPUs只在某些層互動。這意味著,例如,第三層核心從第二層的所有核心對映中獲取輸入。然而第四層核心僅僅從第三層中居於同一GPU上的核心對映中獲取輸入。選擇連線的方式是一個交叉驗證的問題,但是這允許我們去精調連線數量直到計算量可以接受。
最終的結構有點類似於Ciresan等人[5]使用的“柱狀”CNN,除了我們的列不是獨立的(見圖2)。對比網路的每一個卷積層的一半核心在一個GPU上訓練,這個方案使我們的top-1和top-5錯誤率分別降低了1.7%和1.2%。訓練時間上看,雙GPU網路花費的訓練時間比單GPU網路略少。(在最終的卷積層上,單GPU網路實際上擁有和雙GPU網路相同數量的核心。這是因為大多數的網路引數都是在第一個全連線層上,該層取最後一個卷積層為輸入。所以為了讓兩個網路具有大致相同的引數數量,最後一個卷積層沒有尺寸(隨後的全連線層也是如此)。因此這個比較是傾向於支援單CPU網路的,因為它比雙GPU網路的“一半尺寸”更大。)
3.3 LRN區域性響應歸一化
ReLUs最可取的屬性在於它們不需要輸入歸一化來避免它們飽和。如果至少一些訓練樣本產生了正輸出到ReLU,那麼學習將發生在那個神經元。然而,我們仍然發現隨後的區域性歸一化方案有助於概括。表示的是使用(x,y)位置的核心i以及使用ReLU非線性計算出來的神經元的活度。響應歸一化活度由下邊表示式給出:
上式是在相同空間位置上的n個的“毗連的”核心對映的求和,N是該層的核心總數。核心對映的順序當然是任意的並且在訓練之前就已確定。這種響應歸一化實現了一種受真實神經元型別來激發的側向抑制形式,它能夠在使用不同核心計算的神經元輸出之間為大的活度創造競爭力。常數k、n、α和β是超引數,他們的值通過使用驗證集來確定;我們使用k = 2,n = 5,α = 10^(-4),和β = 0.75。我們在某些層中應用了ReLU非線性之後使用這個歸一化(見3.5節)。
這個方案和Jarrett等人[11]提出的區域性對比度歸一化有些類似,但是由於我們的方案沒有提取平均活度,所以稱之為“亮度歸一化”更加得體。響應歸一化使我們的top-1和top-5錯誤率分別降低了1.4%和1.2%。我們也驗證了該方案在CIFAR-10資料集的效果:四層的CNN網路使用歸一化和不使用歸一化分別取得11%和13%的錯誤率。(由於空間限制我們沒法呈現這個網路的細節,但是網站http://code.google.com/p/cuda-convnet/上有通過程式碼和引數檔案對該網路的詳盡描述。)
3.4 重疊池化
CNNs中的池化層彙總了同一核心對映中的相鄰組神經元的輸出。傳統上,通過相連池化單元彙總的鄰域是不重疊的(例如[17, 11, 4])。更準確地說,池化層可以被認為是由一個間隔s畫素的池化單元網格組成,每一個池化單元彙總一個位於池化單元位置中心的大小z*z的鄰域。如果設定s = z,我們會得到CNNs中常用的傳統區域性池化。如果設定s < z,得到的將是重疊池化。我們網路中所使用的引數是s = 2和z = 3。這個方案對比s = 2,z =2時產生同等維度輸出的非重疊方案,其top-1和top-5錯誤率分別降低了0.4%和0.3%。我們通常在訓練期間觀察到帶有重疊池化的模型稍微更不容易過擬合。
3.5 整體結構
現在我們準備描述我們的CNN的整體結構。如圖2描述,本網路包含8個帶權重的層;前5層為卷積層,後3層為全連線層。最後一個全連線層的輸出被饋送到一個1000路的softmax分類器,它產生了超過1000類標籤的分類。我們的網路使得多項式邏輯迴歸目標最大化,這等同於最大化預測分佈下正確標籤交叉對數概率的訓練例項的平均值。
圖2:我們CNN結構示意圖,明確地展示了兩個GPU之間的職責劃分。一個GPU執行圖頂部的層部分,而另一個GPU則執行底部的層部分。GPU只在確定的層之間互動。該網路輸入為150528維,剩餘的網路層中神經元的數量分別為253440-186624-64896-64896-43264-4096-4096-1000。
第2、第4和第5個卷積層的核心,僅連線到位於同一GPU上的前一層中的核心對映(見圖2)。第三個卷積層的核心連線到第二層的所有核心對映。全連線層的神經元連線到前一層的所有神經元。響應歸一化層緊隨在第1個和第2個卷積層之後。在3.4節描述的那種型別的最大池化層,跟隨在響應歸一化層和第五個卷積層之後。ReLU非線性應用到每一個卷積層和全連線層的輸出。
第一個卷積層是用96個大小11*11*3,步長4畫素的卷積核對224*224*3的輸入影像進行濾波(步長是指在核心對映中相鄰神經元感受野中心的距離)。第二個卷積層將第一個卷積層的(響應歸一化和池化)輸出作為輸入,並使用256個大小5*5*48的核心進行濾波。第三、第四和第五個卷積層彼此相連,沒有任何中間池化層或歸一化層。第三個卷積層有384個大小3*3*256的核心連線至第二個卷積層的(歸一化,池化)輸出。第四個卷積層有384個大小3*3*192的核心,第五個卷積層有256個大小3*3*192的核心。全連線層每層有4096個神經元。
4 減小過擬合
我們的神經網路結構有6000萬個引數。儘管ILSVRC的1000種類別讓每一個訓練樣本在從影像到標籤的對映中強加了10位的約束,但事實證明,在沒在顯著的過擬合的情況下很難充分學習如此多的引數。下邊,我們描述兩種主要的防止過擬合的方法。
4.1 資料增強
減小影像資料過擬合的最容易和最常見的方法是使用標籤儲存轉換人為的增擴資料集(例如[25,4,5])。我們使用了兩種不同的資料增強形式,他們都允許轉換的影像是由原始影像經過極少量的計算生成的,因此轉換的影像不需要儲存在磁碟上。在我們的實現中,轉換後的影像在GPU訓練前一批量影像時通過CPU上的Python程式碼生成。因此這些資料增強方案實際上在計算方面是免費的。
第一種形式的資料增強包括影像平移和水平對映。我們做到這一點是通過從256*256大小的影像中提取隨機224*224的影像塊(及其水平對映),並且在這些提取的塊上訓練我們的網路(這也是為什麼在圖2中輸入影像是224*224*3的原因)。這使我們的訓練集大小增大了2048倍,儘管由此產生的訓練樣本當然是高度相互依賴的。不使用這個方案,我們的網路會遭受嚴重的過擬合,這將迫使我們去使用更小的網路。在測試時,網路通過提取5個224*224的塊(四個角的影像塊和中心的影像塊)和他們的水平對映(因此總計10個影像塊)來做預測,並將網路Softmax層在10個塊上作的預測進行平均。
第二種形式的資料增強包括改變訓練影像中RGB通道的強度。特別的,我們對整個ImageNet訓練集的RGB畫素值集合執行主成分分析(PCA, Principal Component Analysis)。對每一個訓練影像,我們增加了多個已經找到的主成分,使用大小相稱的響應特徵值乘以一個任意的均值為0標準差為0.1的高斯變數。因此對於每一個RGB影像畫素,我們新增下邊的值:
上式中:和分別是RGB畫素值的3*3協方差矩陣的第i個特徵向量和特徵值,是前邊提及的隨機變數。對於特定訓練影像的所有畫素,每個僅僅被動用一次,直到這個影像再次被用來訓練,這個點會被重新動用。這個方案近似捕捉到了自然影像的一個重要特性,即物件的一致性是不隨顏色亮度和強度的改變而變化的。這個方案使我們的top-1錯誤率降低了超過1%。
4.2 暫退法(Dropout)
結合很多不同模型的預測是一個很成功的降低測試錯誤率的方法[1,3],但是這對於已經需要數天時間訓練的大型神經網路來說似乎太過昂貴。然而有一種特別有效的模型組合版本,它僅花費大約兩倍的訓練時間。最近引入的被稱作“暫退法”的技術,以0.5的概率將每個隱藏神經元的輸出設為0。通過這個方法“退出”的神經元不會參與前向傳播,也不會參與反向傳播。所以每當一個輸入呈現,神經網路就會對不同的結構取樣,但是全部這些結構共享權重。這個技術降低了神經元複雜的互適應性,因為一個神經元無法依賴於特定的其他神經元而存在。因此,他被迫去學習更魯棒的特徵,這有益於結合很多其他神經元的不同的隨機子集。在測試期間,我們使用了所有的神經元,但將他們的輸出乘以了0.5,這是一個合適的近似值,以獲取由指數級多的dropout網路產生的預測分類的幾何均值。
我們在圖2的前兩個全連線層使用了Dropout。不使用Dropout時我們的網路會表現出巨大的過擬合。Dropout大約需要兩倍的迭代次數去收斂。
5 學習中的細節
我們使用隨機梯度下降訓練我們的模型,引數為批量大小128,衝量0.9,權重衰退0.0005。我們發現這個很小的權重衰退對模型的訓練是很重要的。換句話說,這裡的權重衰退不僅僅是一個正則化項,它也降低了模型的訓練誤差。權重w的更新規則如下:
式中:i表示迭代索引,v表示衝量變數,表示學習率,表示物件關於w在的處的導數在第i個批量上的平均值。
圖3:在224*224*3的輸入影像上,96個通過第一個卷積層學習到的大小11*11*3的卷積核。上層的48個核心是在GPU1上學習的,而下層的48個核心是在GPU2上學習的。細節詳見6.1節。
我們每一層的權重都是從一個標準差為0.01的零均值高斯分佈初始化得到的。我們在第2、4、5個卷積層,以及全連線隱藏層將神經元偏置項初始化為了常數1。這個初始化通過給正輸出提供ReLUs加快了早期階段的學習。我們在剩餘的層裡將神經元偏置項初始化為了常數0。
我們在所有的層都使用了相同的學習率,且在訓練期間手動調整它。我們遵循的啟發式方法是在當前的學習率下當驗證錯誤率不再提高時將學習率除以10。學習率被初始化為0.01並且在終止前降低了三倍。我們通過訓練集的120萬圖片訓練該網路大約90個迴圈,這在兩個英偉達GTX580 3G的GPUs上花費了5-6天。
6 結果
我們在ILSVRC-2010上的結果總結在表1中。我們的網路在測試集取得了top-1錯誤率37.5%和top-5錯誤率17.0%的成績(沒有在4.1節描述的10個影像塊上使用平均預測的錯誤率為39.0%和18.3%)。在ILSVRC-2010競賽中取得的最佳效能是47.1%和28.2%,其方法是對6個在不同特徵上訓練的稀疏矩陣模型產生的預測進行平均[2]。並且在這之後最好的釋出結果是45.7%和25.7%,該方法是對兩個在費舍爾向量(FVs)上訓練的分類器的預測進行平均,其中FVs是從樣本稠密特徵計算而來。
表1:在ILSVRC-2010測試集上的結果對比。斜體是其他人取得的最好結果。
我們也攜模型參加了ILSVRC-2012競賽並在表2中公佈了我們的結果。由於ILSVRC-2012的測試集標籤不是公開可用的,所以我們無法公佈出所有我們嘗試過的模型的測試錯誤率。在這一段的剩餘部分,我們交替使用了驗證和測試錯誤率,因為在我們的經驗中他們的偏差不會超過0.1%(見表2)。在這篇文章中描述的CNN取得了18.2%的top-5錯誤率。五個相同CNNs給出的平均預測錯誤率為16.4%。訓練一個CNN網路,其最後一個池化層上帶有額外的第六個卷積層,對整個ImageNet Fall 2011發行版本進行分類(1500萬影像,22000個種類),然後在ILSVRC-2012上微調它,取得了16.6%的錯誤率。平均預測在整個Fall 2011釋出版本上用上述的5個CNNs預訓練得到的兩個CNNs模型,誤差率為15.3%。而第二好的競賽作品取得的誤差率為26.2%,該方法是對數個在費舍爾向量(FVs)上訓練的分類器的預測進行平均,其中FVs是從樣本稠密特徵計算而來[7]。
表2:在ILSVRC-2012驗證集和測試集上的錯誤率對比。斜體是其他人取得的最好結果。帶星號*的模型是在“預訓練”後對整個ImageNet 2011 Fall釋出版進行分類。詳見第6節。
最後,我們也釋出了我們在ImageNet Fall 2009版本上的錯誤率,其中包含10184個類別和890萬張影像。在這個資料集上,我們根據文獻慣例各用一半的影像進行訓練和測試。由於沒有已經建立好的測試集,我們的分類必然不同於之前的作者使用的分類,但是這不會明顯地影響到結果。我們在這個資料集上通過上邊所描述的網路得到的top-1和top-5錯誤率為67.4%和40.9%,該網路的最後一個池化層上帶有額外的第六個卷積層。在這個資料集上最好的釋出結果是78.1%和60.9%[19]。
6.1 定性分析
圖3展示了卷積核通過網路的兩個資料連線層進行學習。這個網路已經學到了各種各樣頻率選擇性和方向選擇性的核心,以及各種顏色的斑點。注意雙GPUs所展現出的特化性,這是在3.5節中描述的受限連線的結果。GPU1上的核心很大程度上是色彩未知的,而在GPU2上的核心很大程度上是色彩明確的。這種型別的特化存在於每一個執行過程中,並且獨立於任何特定的隨機權重初始化(對GPUs的重編號取模)。
圖4:(左圖)8張ILSVRC-2010測試影像和5個最有可能被我們的模型所考慮的標籤。正確的標籤寫在每一張影像的下邊,並且分配到正確標籤的概率也會用紅色條框顯示(如果它恰好在前五)。(右圖)第一列是5張ILSVRC-2010測試影像。剩餘列顯示的是在最後一個隱藏層產生特徵向量的6張訓練影像,這些特徵向量與測試影像的特徵向量的歐幾里德距離最小。
在圖4的左邊版面,我們通過計算在八張測試影像上的top-5預測定性地評估了網路學習的東西。注意甚至偏離中心的物件也能被這個網路識別,比如左上角的蟎蟲。大多數的top-5標籤似乎是合理的。例如,只有其他型別的貓科動物被當作是獵豹的似乎合理的標籤。在一些情況下(柵欄,櫻花),影像的預期關注點確實是不明確的。
探索網路視覺知識的另一個的方法是考慮由影像在最後一個4096維的隱藏層引起的特徵啟用。如果兩張影像產生帶有一個小的歐幾里得分離的特徵啟用向量,那麼我們可以說更高層的神經網路認為它們是相似的。圖4顯示了5張來自測試集的影像和6張來自於訓練集的影像,根據這個衡量標準來看他們相互之間是最相似的。注意在畫素級別上,檢索的訓練影像在L2上通常與第一列的查詢影像不接近。例如,檢索的狗和大象以各種姿勢出現。在補充材料裡邊我們展現了更多測試影像的結果。
通過使用兩個4096維的實值向量的歐幾里德距離來計算相似度是低效的,但是可以通過訓練一個自編碼器來將這些向量壓縮成短小的二進位制程式碼,從而使其變得高效。這應該會產生一個比在原始畫素上應用自編碼器[14]更好的影像檢索方法,它不使用影像標籤,因此傾向於檢索具有相似邊緣模式的影像,無論他們在語義上相似與否。
7 討論
我們的結果表明,一個大而深的卷積神經網路是有能力在極具挑戰性的資料集上使用純粹的監督學習方法取得破紀錄的結果的。值得注意的是移除一個單一的卷積層會使我們網路的效能降低。例如,移除任意一箇中間層將導致網路的top-1效能損失大約2%。因此對我們取得的結果來說,網路的深度的確是很重要的。
為了簡化我們實驗,我們沒有使用任何非監督的預訓練,即使我們認為這是有幫助的,特別是如果我們得到了足夠的算力去顯著地提高網路的大小,但沒有得到相應的在標籤資料數量上的提高。所以很大程度上,雖然我們的結果已經得到了改善,因為我們已經使我們的網路變得更大並且訓練的時間更長,但是為了匹配人類視覺系統中的顳下神經網路,我們仍然有很多數量級的工作去做。最後我們想要在視訊序列上使用很大很深的卷積網路,現在的結構提供了十分有用的資訊,這些資訊在靜態影像上是缺失的或者很不明顯的。
參考文獻
[1] R.M. Bell and Y. Koren. Lessons from the netflix prize challenge. ACM SIGKDD Explorations Newsletter, 9(2):75–79, 2007.
[2] A. Berg, J. Deng, and L. Fei-Fei. Large scale visual recognition challenge 2010. www.imagenet. org/challenges. 2010.
[3] L. Breiman. Random forests. Machine learning, 45(1):5–32, 2001.
[4] D. Cire¸san, U. Meier, and J. Schmidhuber. Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745, 2012.
[5] D.C. Cire¸san, U. Meier, J. Masci, L.M. Gambardella, and J. Schmidhuber. High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183, 2011.
[6] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. ImageNet: A Large-Scale Hierarchical Image Database. In CVPR09, 2009.
[7] J. Deng, A. Berg, S. Satheesh, H. Su, A. Khosla, and L. Fei-Fei. ILSVRC-2012, 2012. URL http://www.image-net.org/challenges/LSVRC/2012/.
[8] L. Fei-Fei, R. Fergus, and P. Perona. Learning generative visual models from few training examples: An incremental bayesian approach tested on 101 object categories. Computer Vision and Image Understanding, 106(1):59–70, 2007.
[9] G. Griffin, A. Holub, and P. Perona. Caltech-256 object category dataset. Technical Report 7694, California Institute of Technology, 2007. URL http://authors.library.caltech.edu/7694.
[10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012.
[11] K. Jarrett, K. Kavukcuoglu, M. A. Ranzato, and Y. LeCun. What is the best multi-stage architecture for object recognition? In International Conference on Computer Vision, pages 2146–2153. IEEE, 2009.
[12] A. Krizhevsky. Learning multiple layers of features from tiny images. Master’s thesis, Department of Computer Science, University of Toronto, 2009.
[13] A. Krizhevsky. Convolutional deep belief networks on cifar-10. Unpublished manuscript, 2010.
[14] A. Krizhevsky and G.E. Hinton. Using very deep autoencoders for content-based image retrieval. In ESANN, 2011.
[15] Y. Le Cun, B. Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard, L.D. Jackel, et al. Handwritten digit recognition with a back-propagation network. In Advances in neural information processing systems, 1990.
[16] Y. LeCun, F.J. Huang, and L. Bottou. Learning methods for generic object recognition with invariance to pose and lighting. In Computer Vision and Pattern Recognition, 2004. CVPR 2004. Proceedings of the 2004 IEEE Computer Society Conference on, volume 2, pages II–97. IEEE, 2004.
[17] Y. LeCun, K. Kavukcuoglu, and C. Farabet. Convolutional networks and applications in vision. In Circuits and Systems (ISCAS), Proceedings of 2010 IEEE International Symposium on, pages 253–256. IEEE, 2010.
[18] H. Lee, R. Grosse, R. Ranganath, and A.Y. Ng. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. In Proceedings of the 26th Annual International Conference on Machine Learning, pages 609–616. ACM, 2009.
[19] T. Mensink, J. Verbeek, F. Perronnin, and G. Csurka. Metric Learning for Large Scale Image Classification: Generalizing to New Classes at Near-Zero Cost. In ECCV - European Conference on Computer Vision, Florence, Italy, October 2012.
[20] V. Nair and G. E. Hinton. Rectified linear units improve restricted boltzmann machines. In Proc. 27th International Conference on Machine Learning, 2010.
[21] N. Pinto, D.D. Cox, and J.J. DiCarlo. Why is real-world visual object recognition hard? PLoS computational biology, 4(1):e27, 2008.
[22] N. Pinto, D. Doukhan, J.J. DiCarlo, and D.D. Cox. A high-throughput screening approach to discovering good forms of biologically inspired visual representation. PLoS computational biology, 5(11):e1000579, 2009.
[23] B.C. Russell, A. Torralba, K.P. Murphy, and W.T. Freeman. Labelme: a database and web-based tool for image annotation. International journal of computer vision, 77(1):157–173, 2008.
[24] J. Sánchez and F. Perronnin. High-dimensional signature compression for large-scale image classification. In Computer Vision and Pattern Recognition (CVPR), 2011 IEEE Conference on, pages 1665–1672. IEEE, 2011.
[25] P.Y. Simard, D. Steinkraus, and J.C. Platt. Best practices for convolutional neural networks applied to visual document analysis. In Proceedings of the Seventh International Conference on Document Analysis and Recognition, volume 2, pages 958–962, 2003.
[26] S.C. Turaga, J.F. Murray, V. Jain, F. Roth, M. Helmstaedter, K. Briggman,W. Denk, and H.S. Seung. Convolutional networks can learn to generate affinity graphs for image segmentation. Neural Computation, 22(2):511–538, 2010.