ResNet架構可逆!多大等提出效能優越的可逆殘差網路

機器之心發表於2019-02-03

近日,來自德國不來梅大學和加拿大多倫多大學的研究者提出一種新架構——可逆殘差網路,可用於分類、密度估計和生成任務。而在此之前,單個架構無法在判別和生成任務上同時取得優秀效能。值得一提的是,NeurIPS 2018 最佳論文獲得者 David Duvenaud 、陳天琦也是本文作者。 

神經網路模型的一個主要訴求是用單個模型架構解決各種相關任務。然而,最近的許多進展都是針對特定領域量身定製的特定解決方案。例如,無監督學習中的當前最佳架構正變得越來越具有領域特定性 (Van Den Oord et al., 2016b; Kingma & Dhariwal, 2018; Parmar et al., 2018; Karras et al., 2018; Van Den Oord et al., 2016a)。另一方面,用於判別學習的最成功的前饋架構之一是深度殘差網路 (He et al., 2016; Zagoruyko & Komodakis, 2016),該架構與對應的生成模型有很大不同。這種劃分使得為給定任務選擇或設計合適架構變得複雜。本研究提出一種在這兩個領域都表現良好的新架構,彌補了這一差距。

為此,研究者將精力集中於可逆網路,在相同的模型範例中,可逆網路已被證明在判別 (Gomez et al., 2017; Jacobsen et al., 2018) 和生成 (Dinh et al., 2014; 2017; Kingma & Dhariwal, 2018) 任務上都具有競爭性的表現。已有的可逆網路通常依賴對固定維度進行分割的啟發式法,而體積不守恆(non-volume conserving)的常見分割法受到了限制,且其選擇對網路的效能又有極大的影響 (Kingma & Dhariwal, 2018; Dinh et al., 2017)。這使得構建可逆網路很困難。在本文中,研究者展示了一些有助於實現優秀密度估計效能的外來設計會嚴重損害判別效能。

為了克服這一問題,研究者利用 ResNet 作為常微分方程的 Euler 離散化,並證明通過簡單地改變標準 ResNet 的歸一化機制就可以構建可逆 ResNet。圖 1 視覺化了標準和可逆 ResNet 學習到的動態差異。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

圖 1:標準殘差網路(左)和可逆殘差網路(右)的動態。可逆 ResNet 描述了雙射連續動態(bijective continuous dynamics),而常規 ResNet 導致與非雙射連續動態相對應的交叉和摺疊路徑(白色圈)。由於摺疊路徑,標準 ResNet 不是有效的密度模型。

這種方法允許每個殘差塊的無約束架構,而每個塊只需要小於 1 的 Lipschitz 常數。研究者證明,在構建影像分類器時,這種限制對效能的影響可以忽略不計——在對 MNIST、CIFAR10 和 CIFAR100 影像進行分類時,它們的效能與不可逆的同類分類器相當。

接下來,研究者展示瞭如何將 i-ResNet 訓練成無標註資料上的最大似然生成模型。為了計算似然度,他們向殘差模組的雅可比行列式引入了一個易處理的近似。與 FFJORD(Grathwohl et al., 2019)類似,i-ResNet flow 擁有不受約束(自由形式)的雅可比行列式,這使得它們能夠學習比其他可逆模型使用的三角形對映更具表達性的變換。實驗表明,與當前最佳的影像分類器和基於流的生成模型相比,i-ResNets 的效能也具有競爭力,它將通用架構在現實中的應用又推進了一步。

論文:Invertible Residual Networks

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

論文連結:https://arxiv.org/pdf/1811.00995.pdf

摘要:本研究證明,標準 ResNet 架構可以是可逆的,且可用於分類、密度估計和生成任務。通常,執行可逆需要分割維度或限制網路架構。但本研究提出的方法只需要在訓練期間新增一個簡單的歸一化步驟,這在標準框架中已經可以做到。可逆 ResNets 定義了一個可使用最大似然在無標註資料上訓練的生成模型。為了計算似然度,我們對殘差塊的雅可比對數行列式引入易處理的近似。實驗結果表明,可逆 ResNet 的效能堪比當前最優的影像分類器和基於流的生成模型,而單個架構在這之前是無法做到的。

2. 在 ResNet 中執行可逆性

以下定理表明,一個簡單的條件就足以使上述動態過程可解,從而使 ResNet 可逆:

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

注意,這一條件不是可逆性的必要條件。

使用 Lip(g) < 1 可使 ResNet 可逆,但我們沒有這種可逆的解析形式,不過我們可以通過一個簡單的定點迭代來獲得,見演算法 1。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

3. 使用 i-ResNet 進行生成建模

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

圖 2:i-ResNet 流和 Glow 的視覺化比較。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

表 1:i-ResNet、ResNet 與 NICE (Dinh et al., 2014)、Real-NVP (Dinh et al., 2017)、Glow (Kingma & Dhariwal, 2018) 及 FFJORD (Grathwohl et al., 2019) 的對比結果。「Non-volume Preserving」指允許收縮和擴張的能力,以及計算變數 (3) 變化的確切似然。「Unbiased Estimator」是指對數行列式的隨機近似。

5. 實驗

研究者對可逆 ResNet 進行了大量實驗研究。首先,研究者用數值方法驗證了 i-ResNets 的可逆性。接下來,他們研究了 i-ResNet 在多個常用影像分類資料集上的判別能力。另外,他們還將 i-ResNet 的判別效能與其他可逆網路進行了對比。最後,他們研究瞭如何將 i-ResNet 用於定義生成模型

5.1 驗證可逆性和分類效能

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

圖 3:原始影像(上)、i-ResNet 在 c = 0.9 時的重建結果(中)以及相同架構的標準 ResNet 的重建結果(下)。該圖表明固定點迭代在沒有 Lipschitz 約束的情況下無法重建輸入影像。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

表 2:i-ResNet 與類似深度和寬度的 ResNet-164 基線架構的對比結果,其中 Lipschitz 約束通過係數 c 來變化。Vanilla 與 i-ResNet 架構相同,但是它不具備 Lipschitz 約束。

5.2 i-ResNet 與其他可逆架構的對比

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

表 3:i-ResNet 與最新技術 Glow 在 CIFAR10 資料集上的分類結果。這裡對比了兩個版本的 Glow 和與 Glow 層數、通道數都類似的 i-ResNet 架構(i-ResNet, Glow-Style)。

5.3 生成建模

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

圖 4:本文提出的對數行列式估計量的偏差和標準差隨冪級數項數量增加而發生的變化。方差是由隨機 trace estimator 決定的。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

圖 5:i-ResNet flow 中的 CIFAR10 樣本。

ResNet架構可逆!多大等提出效能優越的可逆殘差網路

表 4:多種方法在 MNIST 和 CIFAR10 資料集上的 bits/dim 結果。† 使用 ZCA 預處理,因此其結果無法與其他方法直接對比。

相關文章