優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

機器之心發表於2018-07-07

近日,來自倫敦大學學院和阿蘭·圖靈學院等機構的研究者提出了一種新型的生成模型演算法。他們利用離散和連續的隱變數提高生成模型的能力,並且表明在特定情況下使用最優傳輸(OT)訓練生成模型可以比傳統 VAE 方法更有效。

1 引言

使用生成式隱變數模型的無監督學習提供了一種強大且通用的方法來從大型無標籤資料集中學習潛在的低維結構。通常訓練該模型的兩種最常見的技術是變分自編碼器(VAE)[17,25] 和生成對抗網路(GAN)[8]。兩者各有優缺點。

VAE 提供了使在訓練中以及將資料編碼到隱空間的分佈過程中都穩定的對數似然的有意義下界。然而,由於 VAE 的結構並沒有明確學習產生真實樣本的目標,它們只是希望生成和真實樣本最接近的資料,因此這樣就會產生模糊的樣本。

另一方面,GAN 很自然地使用了具有明確定義的樣本的確定性生成模型,但是訓練過程的穩定性差很多 [1]。

基於最小化生成模型分佈和資料分佈之間的最佳傳輸(OT)距離 [29],人們開發了一種相對較新的生成模型訓練方法。OT 法為訓練生成模型提供了一個通用框架,它在某些最優的 GAN 和 VAE 中效果不錯。儘管 [2,26,27] 給出了第一個有趣的結果,但用於生成建模的 OT 法仍然處於初級階段。

我們的貢獻有兩方面:我們尋求利用離散和連續的隱變數提高生成模型的能力,並且表明在特定情況下使用 OT 訓練生成模型可以比傳統 VAE 方法更有效。

因為離散性在自然界以及離散資料組成的資料集中無處不在,所以離散的隱變數模型對於開發無監督學習至關重要。但是,他們比連續隱變數更難訓練。對此已經有多種解決辦法(例如,直接降低高方差離散樣本 [7,18],將連續分佈引數化為離散分佈 [13,21,28]、利用共軛的模型設計 [14] 等)。

然而,即使在簡單的情況下,其中混合體(mixture)的數量少到可以避免離散隱變數的蒙特卡洛取樣,訓練仍然有問題。例如,[5] 中研究了一個高斯混合隱變數模型(GM-LVM),作者在沒有大幅改變 VAE 目標函式時不能使用變分推理在 MNIST 上訓練他們的模型。

之後很可能發生的是,模型很快學會通過壓縮離散的隱變數分佈來「破解」VAE 的目標函式。這個問題只發生在無監督環境中,因為在 [16] 中,一旦他們標記了離散隱空間的樣本,就可以在同一問題的半監督版本中學習離散隱變數。

用於訓練生成模型(特別是 Wasserstein 距離)的 OT 法會在分佈空間上產生較弱的拓撲結構,使得分佈比用 VAE 更容易收斂 [3]。因此,有人可能會推測 OT 法比 VAE 更容易訓練 GM-LVM。我們提供的證據表明確實如此,它表明 GM-LVM 可以在無監督環境下用 MNIST 訓練,並進一步啟發 OT 在生成模型中的價值。

2 高斯混合 Wasserstein 自編碼器

我們考慮一個兩層隱變數的分層生成模型 p_G,其中最高層的變數是離散的。具體來說,如果我們用密度 p_D(D 表示離散)表示離散隱變數 k,和密度 p_C(C 表示連續)表示連續的隱變數 z,生成模型由下式給出:

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

在這項研究中,我們選了一個類別分佈 p_D = Cat(K) 和一個連續分佈 p_C (z|k) = N (µ_0^k ; Σ_0^k )。當它被當做 VAE 訓練時我們稱 GM-LVM 為 GM-VAE,當它被當做 Wasserstein 自編碼器訓練時我們稱其為 GM-WAE。

以前在這樣的結構中都假設資料由 K 個不同類別的物件組成。例如在影像中,雖然資料位於連續的低維流形中,但每個出現的物件都將在此流形內以獨立模式描述。

在傳統的 VAE 框架(GM-VAE)中訓練 GM-LVM 將涉及最大化資料平均的證據下界(ELBO)。這些模型通常很難訓練 [5]。

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

圖 1:(a)、(b)、(c)是前 35 個訓練步後 GM-VAE 的快照。(a)是損失曲線,(b)是離散變分分佈,其中行代表 E _{x | label(x)=l} q_D(k | x),(c)展示了 GM-VAE 的重建。類似地,(d)、(e)、(f)是大約 1000 次訓練步後同一 GM-VAE 的快照。

3 結果

在這項研究中,我們主要試圖展示 GM-LVM 的潛力以及如何用 OT 技術有效地實現訓練。因此,我們使用相對簡單的神經網路架構在 MNIST 上訓練。

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

圖 2:(a)是從推理的隱變數 k〜q_D(k | x)和 z〜q_C(z | k,x)中重建的測試資料圖片。奇數行是原始資料,偶數行則是相應的重建圖。(b)是每個離散隱變數 k 的數字樣本 x〜p_G(x | z)p_C(z | k),(c)展示了更接近於先驗模式的樣本。

由於離散先驗 p_D(k)是均勻的,(b)中的樣本是先前研究的生成圖的代表,只有以離散的隱藏值排序的列。為了使(c)中的樣本接近先前工作的每個眾數,我們使用從與 p_C(z | k)相同的高斯分佈取樣的 z 值,除了標準差減少 1/2 以外。

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

圖 4:(a)使用我們訓練的 WAE 的引數初始化的未訓練的 VAE 的重建圖。(b)根據 VAE 目標函式,在幾百個訓練步後生成的相同的重建圖。(c)這次訓練的學習曲線

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

圖 5:變分分佈的視覺化。(a)中每行顯示 E _{x | label(x)=l} q_D(k | x)。(b)表示使用 UMAP 降維的 z | x〜∑_ k q_C(z | k,x)q_D(k | x)。使用 1000 個編碼的測試集數字和 1000 個先前研究的樣本。樣本根據數字標籤著色。

論文:Gaussian mixture models with Wasserstein distance 

優於VAE,為萬能近似器高斯混合模型加入Wasserstein距離

論文地址:https://arxiv.org/pdf/1806.04465.pdf

摘要:具有離散和連續隱變數的生成模型受許多現實資料集的極大推動。然而,訓練的微妙之處往往體現在未得到充分利用的離散隱變數。在本文中,我們證明了在使用 Wasserstein 自編碼器的最優傳輸理論框架時,這些模型更容易訓練。我們發現,我們的離散隱變數在訓練時被模型充分利用,而不需要對目標函式進行修改或大幅微調。我們的模型在使用相對簡單的神經網路時可以生成與其他方法相媲美的結果,因為離散的隱變數具有很多描述性語義。此外,離散的隱變數基本控制了輸出。

相關文章