1 簡介
雖然卷積神經網路(CNN)在進行影像分類的時候特別有效(He et al., 2016; Krizhevsky et al., 2012),但是非線性運算元和線性運算元的級聯在揭示內部表徵對分類的貢獻方面卻是很有限的。學習過程的主要特點是能夠穩定地減少圖片中大量的無資訊可變性(uninformative variability),同時揭示影像類別的本質特徵。普遍認為這個過程是基於逐步丟棄與問題輸入相對應的無資訊可變性 (Dosovitskiy & Brox, 2016; Mahendran & Vedaldi, 2016; Shwartz-Ziv & Tishby, 2017; Achille & Soatto, 2017)。然而,關於拋棄資訊的程度資訊在某些中間非線性過程中丟失了。在這篇論文中,研究者透過提出一種可逆卷積神經網路來提供關於可變性減少過程的一些洞見,這個可逆卷積神經網路不會損失關於輸入的任何資訊。
很多常用的網路結構都面臨著從隱藏表徵中恢復圖片的困難 (Dosovitskiy & Brox, 2016; Mahendran & Vedaldi, 2016)。這引發了一個問題:在成功的分類模型中,大量的資訊損失是否必要。本文將證明,沒有資訊是必須被丟棄的。透過使用同胚層(homeomorphic layers),不變性可以僅僅在最後一層透過投影的方式建立。
Shwartz-Ziv 和 Tishby 的研究中(2017)建議採用最少而充足的統計量來解釋可變性的減少。Tishby 和 Zaslavsky2015 年的研究介紹了資訊瓶頸原則——為了儘可能多地減少無資訊可變性,一個最優的表徵必須減少輸入與其表徵之間的互資訊。同時,為了有效地防止一個類別被混淆到其他類別,網路還應該最大化表徵與其期望輸出之間的互資訊。Shwartz-Ziv & Tishby (2017) 和 Achille & Soatto (2017) 基於一些小資料集闡述了資訊瓶頸效應。然而,本文將證明,這並不是一個必要條件,而且透過構建級聯的同胚層,可以保留輸入和隱藏表徵之間的互資訊,並且證明資訊損失可以僅僅發生在最後一層。以此,我們可以證明,在諸如 ImageNet 這樣的大規模資料集上也可以避免資訊損失的問題。
減少可變性的一種方式就是逐步地收縮中間表徵的 L2 範數對應的可變性。
有幾項研究已經注意到了在有限資料集上訓練的非可逆網路存在逐步分離和收縮的現象 (Oyallon, 2017; Zeiler & Fergus, 2014)。這種逐步提升效能的現象可以被解釋為逐步增強不變性,以改善分類結果。理想情況下,這種收縮不應該太暴力,以避免從中間訊號中移除重要資訊。這證明區分度和不變性之間的權衡必須逐步建立。在這篇論文中,作者將 Zeiler & Fergus (2014) 和 Oyallon (2017) 的工作擴充套件到了 ImageNet (Russakovsky et al., 2015) 上,並且最重要的是,他們證明了在逐步收縮的過程中,資訊損失是可以避免的。
Mallat (2016) 討論了不同類別的不變性和區分度之間的二重性。這裡用李群為類內部可變性建模,類內部可變性可以透過在這些對稱性中執行並行傳遞來處理。在學習過程中可以將卷積核適應到資料集的特定偏差上,進而可以避免沿著可區分方向的收縮。然而,使用不屬於歐幾里得範疇的群進行影像分類是很困難的。主要原因是與這些抽象可變性相關的群是難以評估的,因為它們具有高維度的屬性以及需要合適自由度的不變性。Mallat(2012) 透過散射變換給出了這個框架在歐氏群上的一個描述,它在一定程度可恢復的同時建立了小幅度轉譯的不變性。在這篇論文中,作者引入了一個網路結構,它不會在除最後一層的其他地方丟棄任何資訊,同時他們還定量地展示了訊號類別中的漸進收縮和分離。
研究者引入了 i-RevNet,這是一種可逆的深度網路,i-RevNets 在除最後一層的所有中間表徵中保留了輸入訊號的所有資訊。該架構架構是基於最近提出的 RevNet(Gomez et al., 2017) 建立的,用可逆元件代替了原始 RevNets 結構中的非可逆元件,i-RevNet 在 ImageNet 上達到了與非可逆 RevNet 和 ResNet 相同的效能 (Gomez et al., 2017; He et al., 2016)。在這個架構中,本文證明:在學習可以泛化到陌生資料的表徵時,資訊損失並不是必要條件。
為了揭示學習表徵泛化能力的機制,作者證明了 i-RevNets 隨著深度的增加會逐漸分離和收縮訊號。結果表明:透過使用對可恢復輸入進行收縮,可以有效地減少可變性。
圖 1: i-RevNet 和它的逆網路的主要組成。RevNet 模組與卷積瓶頸 F_j 交替連線,並且對 S_j 運算進行洗牌,以保證架構的可逆性和計算效率。輸入透過分割運算元 S˜進行處理,輸出結果透過 M˜處理進行合併,注意,逆網路是透過最小適應(minimal adaptations)獲得的。
圖 2:可逆下采樣的圖示
表 1:在 ILSVRC-2012 上訓練的幾個不同架構的對比:包括分類準確率和引數數量
圖 3:在 ImageNet 上 i-RevNet (b) 和 ResNet 的訓練損失對比。
圖 4:∂φ_x 的歸一化排序奇異值
圖 5:這幅圖展示了幾個重建序列 {x^t }_t。左邊的圖對應 x^0,右邊的圖對應 x^1。
圖 6:應用到空間平均Φ_j 上時,深度為 j 的線性 SVM 和 1-最近鄰分類器的準確率
圖 7:線性 SVM 和最近鄰在保留不同維度的主成分時的準確率
論文:i-RevNet:深度可逆網路(i-RevNet: Deep Invertible Networks)
論文連結:https://openreview.net/forum?id=HJsjkMb0Z
普遍認為,卷積神經網路的成功是基於對問題輸入的無資訊可變性的逐漸丟棄。在絕大多數常見的網路架構中,難以從影像的隱藏表徵恢復影像,經驗地支撐了上述觀點。我們在這篇論文中證明了這種資訊丟失不是泛化到複雜問題 (如 ImageNet ) 上的必要條件。透過使用級聯同胚層,我們建立了 i-RevNet,這是一個可以完全倒轉到類別的最終投影上的網路,也就是說,不會丟棄任何資訊。建立一個可逆架構是很困難的,因為區域性可逆是病態的,我們透過一種顯式的逆向過程克服了這個問題。透過對 i-RevNet 學習到的表徵的分析,我們提出了一種透過漸進收縮和按深度的線性分離來解釋良好準確率的方法。為了揭示 i- RevNet 學習模型的性質,我們重構了自然影像表徵之間的線性插值。