優於VAE，為萬能近似器高斯混合模型加入Wasserstein距離

機器之心發表於2018-07-07

原文網址 : http://www.jiqizhixin.com/articles/2018-07-07-4

近日，來自倫敦大學學院和阿蘭·圖靈學院等機構的研究者提出了一種新型的生成模型演算法。他們利用離散和連續的隱變數提高生成模型的能力，並且表明在特定情況下使用最優傳輸（OT）訓練生成模型可以比傳統 VAE 方法更有效。

1 引言

使用生成式隱變數模型的無監督學習提供了一種強大且通用的方法來從大型無標籤資料集中學習潛在的低維結構。通常訓練該模型的兩種最常見的技術是變分自編碼器（VAE）[17,25] 和生成對抗網路（GAN）[8]。兩者各有優缺點。

VAE 提供了使在訓練中以及將資料編碼到隱空間的分佈過程中都穩定的對數似然的有意義下界。然而，由於 VAE 的結構並沒有明確學習產生真實樣本的目標，它們只是希望生成和真實樣本最接近的資料，因此這樣就會產生模糊的樣本。

另一方面，GAN 很自然地使用了具有明確定義的樣本的確定性生成模型，但是訓練過程的穩定性差很多 [1]。

基於最小化生成模型分佈和資料分佈之間的最佳傳輸（OT）距離 [29]，人們開發了一種相對較新的生成模型訓練方法。OT 法為訓練生成模型提供了一個通用框架，它在某些最優的 GAN 和 VAE 中效果不錯。儘管 [2,26,27] 給出了第一個有趣的結果，但用於生成建模的 OT 法仍然處於初級階段。

我們的貢獻有兩方面：我們尋求利用離散和連續的隱變數提高生成模型的能力，並且表明在特定情況下使用 OT 訓練生成模型可以比傳統 VAE 方法更有效。

因為離散性在自然界以及離散資料組成的資料集中無處不在，所以離散的隱變數模型對於開發無監督學習至關重要。但是，他們比連續隱變數更難訓練。對此已經有多種解決辦法（例如，直接降低高方差離散樣本 [7,18]，將連續分佈引數化為離散分佈 [13,21,28]、利用共軛的模型設計 [14] 等）。

然而，即使在簡單的情況下，其中混合體（mixture）的數量少到可以避免離散隱變數的蒙特卡洛取樣，訓練仍然有問題。例如，[5] 中研究了一個高斯混合隱變數模型（GM-LVM），作者在沒有大幅改變 VAE 目標函式時不能使用變分推理在 MNIST 上訓練他們的模型。

之後很可能發生的是，模型很快學會通過壓縮離散的隱變數分佈來「破解」VAE 的目標函式。這個問題只發生在無監督環境中，因為在 [16] 中，一旦他們標記了離散隱空間的樣本，就可以在同一問題的半監督版本中學習離散隱變數。

用於訓練生成模型（特別是 Wasserstein 距離）的 OT 法會在分佈空間上產生較弱的拓撲結構，使得分佈比用 VAE 更容易收斂 [3]。因此，有人可能會推測 OT 法比 VAE 更容易訓練 GM-LVM。我們提供的證據表明確實如此，它表明 GM-LVM 可以在無監督環境下用 MNIST 訓練，並進一步啟發 OT 在生成模型中的價值。

2 高斯混合 Wasserstein 自編碼器

我們考慮一個兩層隱變數的分層生成模型 p_G，其中最高層的變數是離散的。具體來說，如果我們用密度 p_D（D 表示離散）表示離散隱變數 k，和密度 p_C（C 表示連續）表示連續的隱變數 z，生成模型由下式給出：