不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

機器之心發表於2018-06-18

本論文介紹瞭如何利用動態等距和平均場理論完成一萬層原版卷積神經網路的訓練,研究者證明了僅僅使用恰當的初始化機制就能有效訓練一萬層原版 CNN 甚至更多層。研究者通過訊號傳播的平均場等理論匯出該初始化機制,並表明在關鍵線上初始化的網路訊號能高效傳播,因此即使不使用殘差連線或密集型連線等方式,超深卷積網路也能有效地訓練。

1. 引言

深度卷積神經網路(CNN)是深度學習成功的關鍵。基於 CNN 的架構在計算機視覺語音識別自然語言處理以及最近的圍棋博弈等多個領域取得了前所未有的準確率

隨著深度卷積網路的深度增加,其效能也得到了改善。例如,一些在 ImageNet (Deng et al., 2009) 上表現最好的模型使用了數百甚至上千層卷積網路(He et al., 2016a;b)。但是這些非常深的網路架構只有在使用殘差連線(He et al., 2016a)和批歸一化(Ioffe & Szegedy, 2015)等技術時才能有效訓練。這些技術是否能夠從本質上提升模型效能或它們是否是訓練超深度網路的必要手段,這個問題仍然有待解決。在本論文中,研究者結合理論和實驗來研究原版 CNN,以理清可訓練性和泛化效能的問題。研究者證明,審慎、以理論為基礎的初始化機制可以在不使用其他架構技巧的情況下訓練 10000 層原版 CNN。

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

圖 1. 在不使用批歸一化或殘差連線而僅使用 Delta-Orthogonal 初始化(具備關鍵權重、偏差方差和恰當的非線性函式)的情況下,非常深的 CNN 網路架構是可以訓練的。圖為在 MNIST(上)和 CIFAR- 10(下)上模型深度為 1,250、2,500、5,000 和 10, 000 時的測試曲線(實線)和訓練曲線(虛線)。

近期有研究使用平均場理論(mean field theory)來構建對使用隨機引數神經網路的理論理解(Poole et al., 2016; Schoenholz et al., 2017; Yang & Schoenholz, 2017; Schoenholz et al., 2017; Karakida et al., 2018; Hayou et al., 2018; Hanin & Rolnick, 2018; Yang & Schoenholz, 2018)。這些研究通過探索哪些訊號可以在初始化階段傳播來揭示網路的最大深度,並通過實驗驗證:當訊號可以遍歷網路時,網路可得到準確訓練。在全連線層中,該理論還預測初始化超引數空間中存在從有序到混亂階段的轉變(相變/phase transition)。對於在階段分割的關鍵線上進行初始化的網路,如果訊號可以傳播,那麼任意深度的網路都可以被訓練。

但儘管平均場理論能夠捕捉到隨機神經網路的「平均」動態,但它無法量化對於梯度下降穩定性至關重要的梯度波動。相關研究(Saxe et al., 2013; Pennington et al., 2017; 2018)使用輸入-輸出雅可比矩陣和隨機矩陣理論,從啟用函式和獲取初始隨機權重矩陣的分佈的角度來量化奇異值分佈。這些研究認為當雅可比矩陣是良態的(well-conditioned)時網路可以得到最高效的訓練,條件是使用正交權重矩陣而非高斯權重矩陣。這些方法允許研究者高效訓練非常深的網路架構,但是目前為止它們僅限於由全連線層組成的神經網路

本論文繼續該研究方向,並將其擴充套件至卷積網路。研究者展示了一個定義明確且適用於卷積網路的平均場理論,即使影象較小,它也限制於通道數較多的情況。此外,卷積網路具備和全連線網路一樣的從有序到混亂的相變,有序相位出現梯度消失,混亂相位出現梯度爆炸。和全連線層一樣,在分割兩種相位的關鍵線上進行初始化的超深 CNN 可以相對容易地進行訓練。

現在來看平均場理論,研究者將(Pennington et al., 2017; 2018)的隨機矩陣分析擴充套件至卷積環境中。此外,研究者還從小波變換文獻中發現了一種高效的構建方法:使用塊迴圈結構(對應卷積運算元)生成隨機正交矩陣。該構建促進了卷積層的隨機正交初始化,併為任意深度網路的端到端雅可比矩陣設定了較好的條件數。實驗證明使用該初始化的網路訓練速度顯著快於標準卷積網路。

最後,研究者強調即使全連線網路和卷積網路的從有序到混亂相位界限看似一樣,但底層的平均場理論實際上有很大不同。具體來說,卷積理論的新穎之處在於存在多個深度來控制不同空間頻率處的訊號傳播。在深度極限較大的情況下,訊號只能沿著最小空間結構模式進行傳播;所有其他模式即使是在關鍵線上最終也都會退化。研究者假設這種訊號退化對泛化效能有害,並開發出一個修正版的初始化機制,該機制允許訊號在所有頻率中均衡傳播。研究者將該機制稱為 Delta-Orthogonal 初始化,其正交核從空間非均勻分佈中得出,允許訓練 10000 層甚至更多層原版 CNN,同時不會造成效能下降。

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

圖 2. 平均場理論預測 CNN 的最大可訓練深度。對於偏置項的固定方差 不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN,此熱圖顯示在 MNIST 資料集上,深度為 L 和權重方差 σ_w 的網路在 (a) 500、(b) 2,500、(c) 10,000 以及 (d) 100,000 個訓練步之後的訓練準確率。白色虛線是多個典型 (6ξ_c) 深度下控制收斂至不動點的線。

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

圖 3. 在 CIFAR-10 上,使用正交核進行不同深度初始化的 CNN 的測試曲線(實線)和訓練曲線(虛線)。這些曲線(除了早停的 8192)的訓練準確率都達到了 100%,而泛化效能隨著深度增加逐漸下降,很可能是因為空間非均勻模式的衰減。圖 1 的 Delta-Orthogonal 初始化解決了這一效能下降問題。

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

圖 4. 隨深度變化的測試效能與廣義平均運算元(A_v*)的奇異值分佈(SVD)相關。(a)在關鍵線上的初始化,研究者檢查了使用不同深度和不同非均勻方差向量的高斯初始化的 CNN 的測試準確率。研究者將來自 delta 函式(紅色)的方差向量改變為均勻分佈的方差向量(黑色)。從深度為 35 開始,測試準確率曲線也從紅色變成了黑色。(b)所選方差向量的(A_v*)SVD。x 軸表示奇異值的索引,每個方差向量共有 64 個奇異值(每個有 64 個副本)。

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

圖 5. 正交初始化帶來 CNN 的更快速訓練。使用具備同樣權重方差的正交初始化(紅色)和高斯初始化(黑色)對 4000 層 CNN 進行訓練,實線為訓練曲線,虛線為測試曲線。

3. 實驗

研究者以 tanh 作為啟用函式,在 MNIST 和 CIFAR-10 上訓練了一個非常深的 CNN。研究者使用以下原版 CNN 架構。首先使用 3 個步幅分別為 1、2、2 的 3 × 3 × c 卷積,以將通道數量增加到 c,將空間維度減少到 7 × 7(對於 CIFAR-10 是 8 × 8),然後使用 d 個 3 × 3 × c 卷積,d 的範圍是 [2, 10,000]。最後,使用一個平均池化層和全連線層。這裡當 d ≤ 256 時 c = 256,當 d 大於 256 時 c = 128。為了最大程度地支援本文提出的理論,研究者不使用任何常見技術(包括學習率衰減)。注意,從計算角度來看,早期的下采樣是必需的,但是它會降低最大效能上限;如使用下采樣在 CIFAR-10 上獲取的最優測試準確率是 82%。研究者額外進行了一個實驗,在不使用下采樣的情況下訓練一個 50 層的網路,得到了 89.9% 的測試準確率,與使用 tanh 架構在 CIFAR-10 上得到的最優準確率不相上下(89.82%)。

論文:Dynamical Isometry and a Mean Field Theory of CNNs: How to Train 10,000-Layer Vanilla Convolutional Neural Network

不使用殘差連線,ICML新研究靠初始化訓練上萬層標準CNN

論文連結:https://arxiv.org/abs/1806.05393

摘要:近年來,計算機視覺領域的頂級方法越來越多地使用深度卷積神經網路(CNN),其中最成功的一些模型甚至採用了數千層網路。而梯度消失、梯度爆炸這類問題使得訓練這樣的深層網路成為挑戰。雖然殘差連線和批歸一化能夠完成這種深度的模型訓練,但此類專用架構設計對訓練深度 CNN 是否真的必需還不清楚。在此研究中,我們證明了僅僅使用恰當的初始化機制就能夠訓練一萬層原版 CNN 甚至更多層。我們通過訊號傳播的平均場(mean field)理論,以及定義動態等距(dynamical isometry)、輸入-輸出雅可比矩陣的奇異值平衡的條件,從理論上匯出該初始化機制。這些條件要求卷積運算元是正交變換,以保留範數。我們展示了生成此類隨機初始化正交卷積核的演算法,實驗證明這可以促進非常深的網路架構的高效訓練。

相關文章