戳穿泡沫:對「資訊瓶頸」理論的批判性分析

黃小天發表於2017-11-25
「資訊瓶頸」(Information Bottleneck)理論由耶路撒冷希伯來大學的計算機與神經科學家 Naftali Tishby 等人提出。該研究有望最終開啟深度學習的黑箱,並解釋人腦的工作原理(參見:揭開深度學習黑箱:希伯來大學電腦科學教授提出「資訊瓶頸」)。Geoffrey Hinton 曾對此研究評論道:「資訊瓶頸極其有趣,估計要再聽 10000 遍才能真正理解它,當今能聽到如此原創的想法非常難得,或許它就是解開謎題的那把鑰匙。」

目前,一篇有關深度學習中資訊瓶頸理論的論文《On the information bottleneck theory of deep learning》已提交 ICLR 2018 大會盲審,然而這篇論文的內容主要是指出資訊瓶頸理論的侷限。該論文已經引起了很多人的關注,有學者甚至在社交網路上評論道:這篇論文「戳穿了一個巨大的泡沫」。本文作者 Adrian Colyer 將對這一工作進行解讀。

上週,我們研究了 Schwartz-Viz 和 Tishby 的深度學習論文《Opening the Black Box of Deep Neural Networks via Information》,其思想令人讚歎,從一種新視角展示了深度神經網路內部發生的一切。Sathiya Keerthi 與我取得聯絡並分享了一篇已提交 ICLR 2018 盲審的論文——《On the information bottleneck theory of deep learning》,論文作者對資訊瓶頸理論的一些發現作了批判性分析。這是一個重要更新,指出了資訊瓶頸理論的一些侷限性。

在這篇論文中,作者首先從再現 Schwartz-Viz 和 Tishby 論文中的「資訊平面動態」(information plane dynamics)開始,接著展開進一步實驗:使用 ReLU 替代啟用函式 tanh,觀察有何影響;探索泛化與壓縮之間的聯絡;研究訓練期間隨機性對壓縮是否重要;以及研究在何種程度上與任務不相關的資訊也被壓縮。

簡單來說,該論文發現 Schwartz-Viz 和 Tishby 論文中的結果無法很好地泛化到其他網路架構:訓練期間的兩個階段依賴於啟用函式的選擇;無法證明壓縮與泛化之間存在因果關係;當壓縮確實發生時,它不一定依賴於來自隨機梯度下降(SGD)的隨機性。

我們的結果強調在應用資訊理論分析深度學習系統時噪聲假設的重要性,並且通過展示表徵壓縮與泛化效能存在分歧的例項來複雜化深度學習的資訊瓶頸理論。

下面我們來更深入地理解

啟用函式選擇的影響

我們的分析起點是發現改變啟用函式能顯著地改變資訊平面中的網路軌跡。

作者藉助 Schwartz-Vis 和 Tishby 提供的程式碼首次再現了我們上週看到的結果(見下圖 1A),接著改變網路以使用 ReLU——修正線性啟用函式戳穿泡沫:對「資訊瓶頸」理論的批判性分析,最終獲得的資訊平面動態請見圖 1B。

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

我們看到 tanh 啟用函式的相移消失了!

輸入的互資訊在所有的 ReLu 層中單調遞增,沒有明顯的壓縮階段。因此,非線性函式的選擇實質上影響了資訊平面的動態。

作者使用一個非常簡單的三神經元網路進一步探討了這一現象。標量高斯輸入分佈戳穿泡沫:對「資訊瓶頸」理論的批判性分析通過標量第一層權重 w1 饋送,並通過神經非線性函式 f(·) 傳輸以獲取隱藏單元活動戳穿泡沫:對「資訊瓶頸」理論的批判性分析

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

為了計算互資訊,隱藏單元活動被離散化至 30 個統一的分箱(bin)中,以獲得離散變數戳穿泡沫:對「資訊瓶頸」理論的批判性分析


使用 tanh 非線性函式,互資訊先增後降。使用 ReLU 非線性函式,互資訊一直呈上升趨勢。

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

tanh 函式權重較大,飽和時會下降,以接近 1 位元的輸入(即分散變數集中於 1 和 -1 周圍的 bin)提供互資訊。而使用 ReLU 函式,一半輸入是負的,聚集在 0 周圍的 bin,而另一半呈高斯分佈,熵隨權重的變化而單調遞增。因此,tanh 的雙面飽和特性是原始結果的關鍵。

……隨著隱藏單元進入飽和態,由於用於計算互資訊的分箱(binning)步驟,雙飽和非線性(double-saturating nonlinearities)導致輸入資訊的壓縮。我們注意到分箱可以看作是暗中向隱藏層活動中新增噪聲:多個 X 對映至一個 bin,這樣 X 和 T 之間的對映不再是完美可逆的。

分箱對資訊理論分析非常關鍵,「但是,實踐中噪聲沒有新增至這些神經網路的訓練或測試過程中。」

tanh 的飽和說明互資訊下降時出現了壓縮階段,以及 tanh 網路進入壓縮階段後訓練過程變慢的原因:部分輸入使非線性函式出現飽和,減少了反向傳播的誤差梯度。


獨立於壓縮的泛化

隨後,作者使用資訊平面鏡頭進一步研究了壓縮和泛化之間的關係。

……我們利用 student-teacher 設定(Seung et al.,1992;Advani & Saxe, 2017)下訓練的簡單線性網路探索泛化動態的最近結果。該設定可以讓我們精確地計算網路泛化效能和表徵的互資訊(未經分箱),以及直接對比線性高斯問題已知的資訊瓶頸邊界。

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

在資訊平面中(上圖 D)我們沒有觀察到壓縮,儘管網路確實學習了一個可以很好地泛化至任務的路線圖,並顯示了最小的過度訓練。在實驗中執行不同程度的過擬合表明,資訊平面中具有相似行為的網路可能具有不同的泛化效能。

這就建立了資訊平面中行為與泛化動態之間的分離:壓縮的網路可能會也可能不會很好地泛化,未壓縮的網路也是如此。

隨機有助於壓縮嗎?

接下來,作者首先研究了導致壓縮的因素,分析了隨機梯度下降(SGD)和批量梯度下降(BGD)的區別。SGD 從資料集中拿出一個樣本,並計算相關的誤差梯度,而批量梯度下降使用所有樣本的整體誤差:「關鍵是,在更新中沒有隨機或擴散性的行為。」

使用 SGD 和 BGD 對 tanh 和線性網路分別進行訓練,資訊平面動態如下:

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

我們發現二者的資訊動態大體一致,tanh 網路對於兩種方法都有較魯棒的壓縮。因此訓練過程中的隨機性似乎對輸入資訊的壓縮貢獻不大。該發現與「壓縮主要原因是雙飽和非線性」的觀點一致。

對任務不相關資訊進行壓縮

最後的實驗將輸入 X 分割成任務相關的輸入和任務不相關的輸入。前者貢獻訊號,後者貢獻噪聲。因此好的泛化似乎需要忽略噪聲。論文作者發現當任務相關的資訊發生擬合時,任務不相關的資訊發生壓縮,儘管整體看來沒有觀察到輸入出現壓縮階段。

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

結果

我們的結果表明資訊平臺中的壓縮動態不是深層網路的普遍特徵,但是網路使用的非線性函式對此有很大影響……資訊壓縮可以與尖銳最小值(sharp minima)同時出現;儘管實驗證明在特定設定中泛化誤差和架構有關係,進一步的理論分析證明尖銳最小值也可以實現很好的泛化效果。

論文:On the Information Bottleneck Theory of Deep Learning

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

論文連結:https://openreview.net/forum?id=ry_WPG-A-

摘要:深度神經網路的理論與實踐成果並不匹配,理論無法解釋深度神經網路的行為。本論文研究了深度學習的資訊瓶頸理論(IB),該理論有三個主要觀點:(1)深度網路需要兩個階段:初始擬合階段和後續壓縮階段;(2)壓縮階段和深度網路卓越的泛化效能之間存在因果關係;(3)壓縮階段由於隨機梯度下降的擴散行為才會出現。本文中,我們證明了這些觀點通常情況下是錯誤的。通過分析結果和模擬,我們展示了資訊平面軌跡主要使用了一種神經非線性函式:雙飽和非線性(double-sided saturating nonlinearities)函式,如 tanh 函式,當神經啟用函式進入飽和態時,深度網路進入壓縮階段;而線性啟用函式和單飽和非線性函式,如廣泛使用的 ReLU 就不是這樣。線性神經網路的泛化誤差動態的近期結果表明壓縮和泛化之間不存在因果關係:沒有壓縮的網路也能夠泛化,反之亦然。通過使用全批量梯度下降代替隨機梯度下降來複現瓶頸理論,我們還證明了壓縮階段不需要訓練過程中的隨機性。最後,我們證明當輸入域包含任務相關或不相關資訊的子集時,隱藏的表徵(hidden representation)對任務不相關的資訊進行壓縮,儘管輸入的整體資訊隨著訓練時間而單調遞增,壓縮與擬合過程並行發生,而不是在後續的壓縮階段中出現。

一言以蔽之,我們驗證了深度學習資訊瓶頸理論中的多個觀點在一般情況下並不正確。

爭議

值得一提的是,在 Open Review 論文平臺上,「資訊瓶頸」理論的提出者 Naftali Tishby 等人也與論文作者展開了交鋒。Tishby 表示,這篇新論文重複和驗證了「資訊瓶頸」理論先前研究的實驗,證實並強化了這一理論,但同時又忽略了許多理論和實驗結果,在許多方面都是有缺陷和誤導性的。 

戳穿泡沫:對「資訊瓶頸」理論的批判性分析

相關連結


Ravid Shwartz-Ziv 與 Naftali Tishby 2017 年提交的論文《Opening the Black Box of Deep Neural Networks via Information》:https://arxiv.org/abs/1703.00810

原文連結:https://blog.acolyer.org/2017/11/24/on-the-information-bottleneck-theory-of-deep-learning/

相關文章