作者 | 青暮、陳大鑫
編輯 | 陳彩嫻
各位煉丹師平時“煉丹”時最多跑過多深的神經網路呢?152層,256層,還是更多層?
那各位跑過最寬的神經網路又有多寬呢?可能一層撐死有10個或20個神經元?
對第二個問題,谷歌的回答是:我可以跑無限寬的神經網路。
也許會有人說相比寬度而言,神經網路更需要深度來支援表達性,從一些經典神經網路的發展歷程即可看出。但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網路:實證研究》,在這篇論文中,作者對無限寬神經網路和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。作者聲稱,他們在該研究中解決了與無限寬神經網路研究相關的各種開放性問題。
該專案負責人Jascha Sohl-Dickstein在Twitter上介紹了這項研究,得到了廣泛關注。他表示,這項研究包含了關於無限寬網路的所有方面。一般而言,人們並沒有足夠的計算能力去探索無限寬神經網路,但顯然,谷歌並不擔心這個問題。
該研究得出了十二項實驗結論,包括(NTK:神經正切核、NNGP:神經網路高斯過程):
1、NNGP/NTK的效能優於有限寬網路。
2、NNGP通常優於NTK。
3、中心化的和整合的有限寬網路的效能會變得更接近核方法。
4、大學習速率和L2正則化會導致有限寬網路和核方法之間的差異。
5、使用標準引數化可以改善網路的L2正則化。
6、效能與網路寬度的關係是非單調的,並且不同於雙下降現象。
7、對角線正則化核函式的作用類似於early stopping。
8、浮點精度限制了超過臨界資料集大小的核方法效能。
9、線性化的CNN-GAP模型由於條件差而表現不佳。
10、正則化的ZCA白化提高了準確率。
11、等變性僅對核機制之外的窄網路有益。
12、整合核預測變數有助於NNGP / NTK資料增強。
該實驗進一步啟發了一種應用於權值衰減的改進的層級縮放方法,從而提高了有限寬網路的泛化能力。最後,作者開發了使用NNGP和NT核進行預測的改進最佳實踐,包括一種新的組裝技術。透過這些最佳實踐,作者實現了CIFAR-10分類的SOTA結果,這些核對應於其考慮的每個架構類。
當中間層無限寬時,很大一類貝葉斯網路和以梯度下降訓練的神經網路最後都會收斂到高斯過程(GPs)或與其密切相關的核方法。
這些無限寬網路的預測由貝葉斯網路的神經網路高斯過程(NNGP)核方法進行描述,以及由以梯度下降訓練的神經網路的神經正切核(NTK)和權值空間線性化進行描述。
這種對應關係是理解神經網路的關鍵。它還使核方法、貝葉斯深度學習、主動學習和半監督學習等領域取得了實際進展。
NNGP、NTK和相關的大寬度限制對於精確描述大規模神經網路的理論有獨特作用。正因為如此,作者相信它們將繼續在深度學習理論中發揮變革作用。
無限寬網路是一個新的活躍領域,基本的經驗問題仍然沒有答案。在這項工作中,作者對有限寬和無限寬的神經網路進行了廣泛而深入的實證研究。該研究定量地探索了驅動有限寬網路和核方法的效能變化的因素,揭示了令人驚喜的新發現,並開發了提高有限寬和無限寬網路效能的最佳實踐。作者表示,該研究成果將為未來的寬網路研究奠定基礎。
1實驗結果
1、NNGP/NTK的效能優於有限寬網路
無限寬神經網路高斯過程(NNGP)和神經正切核(NTK)預測可以優於有限網路,這取決於架構和訓練設定。對於全連線網路,無限寬網路可靠地優於有限網路。
研究無限寬網路的一個常見假設是,它們在大資料中的表現不及相應的有限網路。作者透過將核方法與學習率較低且沒有正則化訓練的有限寬度架構進行比較,仔細檢驗了這一假設。然後逐一利用較大的學習率、L2正則化和集合方法,來檢驗無限寬網路與核方法的相對效能變化。實驗結果總結在圖1中。
首先關注基礎的有限寬網路,作者觀察到無限FCN和CNN-VEC優於各自對應的有限寬網路。另一方面,無限寬CNN-GAP網路的效能要比其有限寬的差。作者強調架構在相對效能中起著關鍵作用。例如,即使與各種技巧(例如大學習率、L2正則化和欠擬合)結合使用,無限FCN也會勝過有限寬網路。僅在使用集合方法之後,效能才變得相似。
一個有趣的發現是,ZCA正則化預處理可以對CNN-GAP核進行重大改進,將差距縮小到1-2%之內。
2、NNGP通常優於NTK
NNGP(對應於無限寬貝葉斯網路)通常優於NTK(對應於由梯度下降訓練的無限寬網路)。
最近對無限寬度網路的評估已將重點放在NTK上,而沒有與對應的NNGP模型進行顯式比較。結合將NNGP視為“弱訓練” (即僅學習了最後一層)的觀點,人們可能希望NTK比NNGP更有效。
相反,我們通常會觀察到NNGP推理可以實現更好的效能。透過NNGP在所有架構中都可以達到固定核之間的SOTA效能。圖2表明該趨勢在CIFAR-10、CIFAR-100和Fashion-MNIST上仍然存在。
除了生成更強大的模型外,NNGP核還需要大約一半的記憶體作為相應的NTK進行計算,並且某些效能最高的核根本沒有關聯的NTK。這些結果共同表明,在試圖最大化效能時,研究人員應從NNGP開始。
3、中心化的和整合的有限寬網路的效能會變得更接近核方法
有限寬度網路的中心化和集合都會帶來更接近核方法的效能。中心化訓練可以加快訓練速度。
可以透過將模型中心化(centering)來減少預測方差,即減去模型的初始預測。圖3觀察到中心化顯著加快了FCN和CNN-VEC模型的訓練速度,並提高了泛化能力,但對CNN-GAP架構幾乎沒有影響。作者觀察到,在給定更多資料的情況下,在無限寬核中,CNN-GAP的規模後驗方差相對於先驗方差較小,與中心化和集合方法一致,效果不大。
4、大學習速率和L2正則化會導致有限寬網路和核方法之間的差異
大學習率和L2正則化都會導致有限網路和核方法之間的差異,並導致有限寬度網路表現得更好。大學習率和L2正則化的組合效應是超線性的。
圖1:有限寬和無限寬網路的CIFAR-10測試準確率變化。
5、L2正則化對於NTK引數化網路的效果更好
與標準引數化網路相比,L2正則化對於NTK引數化網路的效果出乎意料地好。作者用匹配層級L2正則化係數對其進行模擬,從而在標準引數化網路(即典型網路)中實現更好的泛化。
6、泛化效能與網路寬度的關係非單調,並且不同於雙下降
某些有限寬網路(尤其是不帶池化的CNN網路)的泛化效能對於寬度是非單調的,這是用雙下降現象無法解釋的。
人們在研究深度學習時反覆發現,增加模型中引數的數量可以提高效能。儘管這種現象與從貝葉斯角度的關於泛化的觀點是一致的,但與經典泛化理論(主要考慮最壞情況的過擬合)似乎不一致。這導致人們做了關於超引數化和泛化的相互作用的大量工作。特別令人關注的是雙重下降現象。
根據經驗,作者發現在大多數情況下(兩種引數化中的FCN和CNN-GAP,帶有標準引數化的CNN-VEC),增加寬度都會導致效能的單調提高。但是,在特定的相對簡單的設定中,作者還發現了對寬度的更復雜的依賴性。例如,在圖6中,對於具有NTK引數化的CNN-VEC,效能不是單調依賴於寬度,並且最佳寬度是一箇中間值。這種非單調性不同於類雙重下降現象,因為所有寬度都對應於超引數化模型 。
7、對角線正則化核函式的作用類似於early stopping
在進行核推理時,通常在訓練核矩陣中新增一個對角正則化器。
對於線性迴歸,Ali等人證明了梯度流下核正則化器的逆與early stopping的時間有關。對於核函式,梯度流動力學直接對應於廣義神經網路的訓練。
作者在圖7中實驗性地探索了early stopping、核正則化和泛化之間的關係,觀察到了正則化和early stopping之間的密切關係,並發現在大多數情況下,最好的驗證效能發生在early stopping和非零ε。
8、浮點精度限制了超過臨界資料集大小的核心效能
作者從經驗上觀察到,在一個關鍵的資料集大小下,核心對float32和float64的數值精度變得敏感。例如,GAP模型在資料集大小為10^4時會遇到float32數值精度錯誤。
這種現象可以用一個簡單的隨機噪聲模型來理解。關鍵是特徵值衰減快的核會受到浮點噪聲的影響。經驗上,NNGP/NTK的尾部特徵值遵循冪律(見圖8),測量其衰減趨勢可以很好地指示關鍵資料集大小。
9、線性化的CNN-GAP模型由於條件差而表現不佳
作者觀察到線性化的CNN-GAP在訓練集上收斂極慢,導致驗證效能不佳(圖3)。即使在L2正則化強度和學習率發生變化時,訓練10M以上的步數,最佳訓練精度仍低於90%,測試精度為70%——比相應的無限和非線性有限寬度網路都差。
這是由池化網路條件不佳造成的,CNN-GAP網路在初始化時的調節比FCN或CNN-VEC網路差一倍(CIFAR-10為1024)。
在圖8中可以看到核特徵譜的這種不良條件。對於線性化網路,除了將訓練速度減慢1024倍外,使用float32還會導致數值不穩定。
10、正則化的ZCA白化提高了準確率
ZCA白化是一種資料預處理技術:
最近有研究者證明在一些核方法中它結合分母中的一個小正則化引數可以顯著提高精度。
作者研究了ZCA白化作為有限寬度和無限寬度神經網路的預處理步驟的效用,透過調整正則化引數,輸入影像的正則化ZCA白化提高了驚人的模型精度,特別是對於無限寬NNGP和NTK預測:
11、等變性僅對核機制之外的窄網路有益
等變性是一種常用的激發CNN強大效能的方法,作者證明了等變性只對遠離核區域的窄網路有益。
12、整合核預測變數有助於NNGP / NTK資料增強
最後,作者提出了一種簡單的方法,用於對NNGP和NTK模型的預測進行整合,以在無限寬度網路中實現資料增強。(否則,由於核方法對資料集大小的立方依賴,資料增強是不可行的)
表1:相應架構型別核心的CIFAR-10測試準確率。
2 論文資訊
論文連結:
想知道谷歌大腦是如何設定和訓練無限寬神經網路的嗎?谷歌大腦已經開源了該專案,感興趣的同學可以去試試。
專案地址:
第一作者:Jaehoon Lee。
Jaehoon目前是谷歌大腦團隊的一員。加入谷歌之前,他已經接受過理論物理學的訓練。他是溫哥華UBC弦理論小組的博士後研究員。在此之前,他在麻省理工學院獲得博士學位,在理論物理中心工作,致力於相互作用的量子場論。目前,他的研究興趣是透過物理學的啟發來增強對深度學習的理解。
谷歌主頁: