Petuum 和 CMU 合作的論文《On Unifying Deep Generative Models》提出深度生成模型的統一框架。該框架在理論上揭示了近來流行的 GAN、VAE(及大量變體),與經典的貝葉斯變分推斷演算法、wake-sleep 演算法之間的內在聯絡;為廣闊的深度生成模型領域提供了一個統一的視角。7 月份在 ICML 2018 的名為「深度生成模型理論基礎和應用」的研討會將更進一步探討深度生成模型的研究。
近年來,人們對深度生成模型的興趣開始復甦,並開發出了生成對抗網路(GAN)、變分自編碼器(VAE)、自迴歸網路(例如 pixelRNN、RNN 語言模型)等多種新模型及其變體和擴充套件,它們在大量應用中展現出了優越的效能。研究者在生成模擬高解析度的影像、操控和改變文字、學習可解釋性資料表徵、自動增強資料(用於其它模型的訓練)等方面實現了巨大的進步。
今年 7 月份,邢波教授、Ruslan Salakhutdinov、Andrew Wilson 和我將在 ICML 2018 主持一場名為「深度生成模型理論基礎和應用」的研討會。我們很高興能有機會促進對深度生成模型(DGM)的廣泛層面的思想交流,這次研討會將涉及從理論性質、方法論到實踐和現實應用等多個層面。
深度生成模型是一個很活躍的研究領域,有很長的研究歷史,並且發展得很快。我對深度生成模型的不同類別之間的理論聯絡研究很感興趣。與將這些方法看成區別顯著的建模/學習正規化的文獻不同,本文提出的統一視角可以帶來理論和統計上的優勢,例如,它可以:
為不同模型的行為提供新的洞察。例如,人們普遍發現 GAN 傾向於生成清晰但多樣性較低的影像,而 VAE 則傾向於生成較為模糊的影像。在通用的框架內構建 GAN 和 VAE 模型可以促進它們之間的形式化對比,並且對上述實證的結果做出解釋。
在統一的框架內研究大量深度生成模型的變體和擴充套件可以得到對生成式建模的廣泛層面的更本質的理解,並繪製該領域進展的路線圖。
以理論化的方式實現不同研究路線之間的技術遷移。例如,用於提升 VAE 的技術可以輕鬆地應用到 GAN 上,反之亦然。
我和同事嘗試研究這個統一觀點:我們推導了 GAN 和 VAE 的新的公式,可以在這些近期流行的模型之間建立形式化聯絡,並回溯到經典變分推斷演算法和 wake-sleep 演算法上。新公式可以很容易地擴充套件到流行的模型變體,如 InfoGAN、VAE-GAN 聯合模型(如 VAE/GAN)、CycleGAN、對抗自編碼器、對抗域適應(adversarial domain adaptation)等等。
彌合 GAN 和 VAE 之間的鴻溝
GAN 和 VAE 都有一個生成模型(即生成器),它通常被引數化為一個深度神經網路。特別是,GAN 假定了一個隱式的生成模型,它可以通過下式生成一個樣本 x:
x = G(z; θ), z ~ p(z)
即,首先從先驗分佈 p(z) 上取樣一個噪聲向量 z,然後通過神經網路 G_θ將 z 進行變換,並輸出最後的樣本 x。該模型是隱式的,因為它只能生成樣本而不能評估似然度。上式實際上定義了對 x 的分佈 p(x; θ),其中θ是我們想學習的引數。相反,VAE 假定了一個顯式的生成模型:
x ~ p(x|z; θ), z ~ p(x)
這裡 x 是從顯式生成分佈 p(x|z; θ) 上取樣得到的,可以顯式地計算 x 的似然度。
這些對生成模型的不同假設在我們的統一觀點中並不重要,它們僅僅是可替換的建模選擇。
那是什麼使得 GAN 和 VAE 的聯絡不夠顯然呢?是它們學習生成引數 θ 的不同正規化造成的:
VAE 額外地學習了一個變分分佈(即推斷模型)q(z|x; η),它是真實後驗分佈 p(z|x; θ) 的近似,並正比於 p(x|z; θ)p(z)。使用變分 EM 演算法的經典框架,該模型可以訓練來最小化變分分佈和真實後驗分佈之間的 KL 散度:KL( q(z|x; η) || p(z|x; θ) )。
與此相反,GAN 通過設定一個對抗博弈將生成器和判別器 q_φ配對,其中判別器被訓練分辨真實資料和生成(fake)樣本,而生成器被訓練生成足夠好的能欺騙判別器的樣本。
初步看來,GAN 和 VAE 的學習正規化明顯不同。然而,我們提出了一個 GAN 的關於θ的新公式,它和變分推斷很相似:
KL( p_θ || Q_φ0 ) - JSD_θ
p_θ和 Q 分別是由生成器 p_θ(x) 和判別器 q_φ0(其中φ被固定為某個值φ0)定義的某種分佈;JSD_θ 是依賴於θ的 Jensen-Shannon 散度。
通過將 p_θ看做變分分佈和將 Q_φ0 看做真實後驗,該公式的第一個項就是變分推斷目標函式的標準形式。即,通過將 GAN 中的樣本生成視為後驗推斷,新公式將 GAN 和變分推理以及 VAE 聯絡了起來。注意:這僅僅是新公式的粗略形式,用於概念化地展示 GAN 和變分推斷之間的聯絡。我們還將 VAE 重新形式化,以揭示 VAE 實際上包含了一個退化的對抗機制,該機制阻止了生成樣本在模型訓練中的使用,僅允許用真實樣本進行模型訓練。
該統一視角給我們提供了關於這兩類模型的很多新的理解:
從這兩個公式中,我們可以看到 VAE 和 GAN 分別涉及最小化對應後驗分佈和推斷分佈的 KL 散度,但生成模型引數θ在 KL 散度中的位置相反。由於 KL 散度的不對稱性,這直接解釋了上述 GAN 和 VAE 明顯不同的模型行為:GAN 中的 KL 散度傾向於驅使生成模型分佈塌縮到真實後驗分佈的少數幾個高密度區域,這使得 GAN 通常能夠生成清晰影像,但是缺少樣本多樣性。對比來看,VAE 中的 KL 散度會驅使生成模型分佈覆蓋真實後驗分佈的所有區域,包括真實後驗分佈的低密度區域,這通常導致生成模糊影像。此類互補屬性自然促進 GAN 和 VAE 目標的結合,以解決每個孤立模型的問題(Larsen et al., 2015; Che et al., 2017a; Pu et al., 2017)。
以上的統一視角使 GAN 和 VAE 之間能輕鬆地相互借鑑併產生新變體來加強各自的建模。例如,重要性加權自編碼器原本是為了增強 VAE 而開發的,該技術可以移植到 GAN,帶來增強的重要性加權 GAN。類似地,GAN 中的對抗機制可應用於 VAE,使用模型自己生成的樣本進行模型訓練。
推斷和生成的對稱視角
這一新的形式化建模的一個關鍵思想是將 GAN 中的樣本生成視為後驗推斷。該思想可進一步擴充套件到一般性的生成建模上。傳統的生成建模通常清晰地區分生成和推斷(或區分隱變數和可見變數),並用不同的方式處理它們,我們認為這種區分有時並非必要(圖 1),相反,將它們視作對稱的過程可能有助於建模和理解。
圖 1:生成過程和推斷過程的對稱觀點。二者的形式沒有明顯差別:使用隱式分佈建模和黑箱式的神經網路變換,兩個過程都只涉及在隱空間和可見空間之間的模擬(取樣)和變換。
實證資料分佈 p_data(x) 通常是隱式的,即易於取樣,但較難估計似然度。相反,先驗 p(z) 通常被定義為易於估計似然度的顯式分佈。幸運的是,GAN 中的對抗方法和其他技術(如密度比估計、近似貝葉斯計算)提供了彌補該差距的有效工具。
例如,隱式生成模型(如 GAN)只需要在生成過程中進行取樣,無需顯式的似然估計。其中隱變數的先驗分佈的使用方式和實證資料分佈一樣,即涉及從分佈中取樣。
對於基於顯式似然度的模型,對抗自編碼器(AAE)利用對抗方法允許在隱空間上使用隱式先驗分佈。近期的多項研究使用隱式變分分佈作為推斷模型,從而擴充套件了 VAE。實際上 VAE 中的再引數化技巧(reparameterization trick)非常類似隱式變分分佈的構造。由於 KL 散度最小化無法直接應用在隱式變分分佈和先驗分佈之間,這些演算法使用對抗方法來替換 KL 散度最小化。
兩種分佈在複雜度方面差別很大,資料空間通常比較複雜,而隱空間較為簡單。這引導我們選擇合適的工具(如對抗方法 vs. 重建優化等)來最小化需要學習的分佈與相應的目標分佈之間的差距。
例如,VAE 和 AAE 都通過最小化變分後驗分佈和特定先驗分佈之間的距離來正則化模型,不過 VAE 選擇 KL 散度損失而 AAE 選擇對抗損失。
通過對生成和推斷的對稱性觀點,以及將對抗方法作為與其他傳統方法(如 KL 散度最小化和最大似然估計)同等的工具,我們可以使不同方法之間的聯絡更加明顯。這反過來促進了新模型和新演算法的出現,例如,根據問題屬性相應地替換這些工具,我們能獲得新的適用於該問題的模型。
論文:ON UNIFYING DEEP GENERATIVE MODELS
論文地址:https://arxiv.org/pdf/1706.00550.pdf
摘要:近年來,深度生成模型取得了令人矚目的成功。生成對抗網路(GAN)和變分自編碼器(VAE)作為深度學習生成模型的強大框架,被認為是兩種截然不同的正規化,並且分別得到了廣泛而獨立的研究。本文旨在通過一個新的公式建立兩者間的形式化聯絡。我們將 GAN 的樣本生成過程視為後驗推斷,展示出 GAN 和 VAE 分別涉及最小化後驗分佈和推斷分佈的方向相反的 KL 散度,分別擴充套件了傳統 wake-sleep 演算法的兩個學習階段。這種將二者統一的視角為分析現有的多種模型變體提供了有用的工具,並且使得跨越兩者研究界限的技術遷移從理論上成為可能。例如,我們用 VAE 文獻中的重要性加權演算法提升 GAN 學習,並將利用生成樣本的對抗機制來增強 VAE。實驗結果體現了該遷移技術的泛化性和有效性。