論文地址:https://arxiv.org/pdf/2004.04467.pdf
GitHub 地址:https://github.com/podgorskiy/ALAE
自編碼器是一種無監督方法,它透過同時學習編碼器-生成器圖將「生成性」和「表徵性」結合起來。關於自編碼器有兩個疑問尚未得到解決:最近,來自美國西弗吉尼亞大學的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE),試圖解決以上問題。ALAE 是一個通用架構,它能夠利用近期 GAN 在訓練方面的改進。研究者表示 ALAE 具備與 GAN 相當的生成能力,且能夠學習解耦表徵。利用 ALAE 通用架構,該研究設計了兩個自編碼器:一種基於 MLP 編碼器,另一種基於 StyleGAN 生成器,即 StyleALAE。研究者對這兩個架構的解耦能力進行了驗證,發現 StyleALAE 不僅能夠生成與 StyleGAN 生成質量相當的 1024x1024 人臉影像,在同樣解析度條件下,它還可以基於真實影像生成人臉重建和操縱結果。研究者認為,ALAE 是首個效能匹配甚至超過生成器架構的自編碼器。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/623e7907ab2b19d4bf803f338adace6c6d8cd6415cffac046e6fd8f0245b509f.gif)
![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/68e5159f860e419f4f28a8833eb6cf5620519ad167b5b6c00bf7497ab3763cf3.gif)
![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/1f78842b193a84513d05619d7fd1f7279cc89dd6d525c37bd2f7d42875838922.png)
感興趣的讀者可以自己執行 demo,不過你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅動,詳情參見 GitHub 地址。研究者觀察到每個 AE 方法都使用同樣的假設:潛在空間的機率分佈應與先驗相關,自編碼器應該與之匹配。而 StyleGAN 相關論文證明,中間潛在空間應當具備更好的解耦能力。於是研究者透過修改原始 GAN 正規化設計了一種新型 AE 架構:允許基於資料學得的潛在分佈解決耦合問題 (A),並使用對抗策略學習輸出資料分佈 (B),以保留 GAN 的生成能力;為了實現 (A) 和 (B),該研究提出將 AE reciprocity 置於潛在空間中 (C),以避免使用在資料空間中執行的基於簡單 l_2 範數的重建損失(對於影像空間來說它們通常是次優選擇)。如下圖 1 所示,研究者將生成器 G 和判別器 D 分別分解成兩個網路:F、G 和 E、D。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/7605590b7d06046adc98aaf4c9356144e9c85043e0862a76a2aabe50ae18e1c7.png)
此外,研究者還展示了 ALAE 與其他自編碼器的關聯,詳見下表:![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/942461c73654aff91656664c5cddc5a5ccd0d846bda33d7921157dd4d67baecc.png)
研究者使用 ALAE 構建了一個自編碼器,該自編碼器使用的是基於 StyleGAN 的生成器。具體架構如下圖 2 所示:![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/e288e379ded046cadfede39312544fe8543b27d46f3edddbc283facbe6c43797.png)
圖 2:StyleALAE 架構。StyleALAE 編碼器中的例項歸一化(IN)層用來提取多尺度風格資訊,並透過可學習的多重線性對映(multilinear map)將它們組合成為一個潛在程式碼 w。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/e9b55244de605f12ca34cd7bceb8e055f6512a57f869c02de42ec0f9b809f55f.png)
該研究在多個資料集上評估了 ALAE 的效能,實驗程式碼和資料參見 GitHub 地址。研究者使用 MNIST 資料集訓練 ALAE,並使用特徵表示來執行分類、重建和分析解耦能力的任務。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/c721081e37c667b8ee33c0aed7b74095935b19801339707c218c85f34e245421.png)
表 2:不同方法在 MNIST 分類任務上的效能。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/ba37aab808f69c82db549d0b9020d3508b8b9d4ab6a552e5e9ec11eaedf2d9b3.png)
研究者在 FFHQ、LSUN 和 CelebA-HQ 資料集上評估 StyleALAE 的效能。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/93d55b379c1cac7e72eb8dca42bb4bb8d589773594dac333a2f273f87ad7ab6c.png)
表 3:不同方法在 FFHQ 和 LSUN 資料集上的 FID 分數。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/5f4ae760de1de416a3f44d5ba6b4e87cbf251fa31d9f14c84fb9139c3b1109d2.png)
表 4:不同方法的感知路徑長度(PPL),表示表徵解耦程度。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/5dddd69082d03004cb3b911c67ac285efd0c25fe1589ff63c3e138d85a2a3664.png)
圖 5:FFHQ 重建結果。StyleALAE 對未見過的影像的 1024×1024 重建結果。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/3ea194b36f98575957428cd044e42b96fe40efdaf0c3b2a8783502d0c2b51a2d.png)
圖 6:StyleALAE 的 FFHQ 生成結果(1024 × 1024 解析度)。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/e967f89651aa6ae07f618e04506f0ff393966bec58bfeab270541633fe75272f.png)
圖 9:StyleALAE 的風格混合效果。「coarse styles」從 Source 影像中複製了高階特徵,如姿勢、大致髮型和臉型,從 Destination 影像中複製了所有顏色(眸色、髮色和光照);「middle styles」從 Source 影像中複製了較小型的面部特徵例如髮式、眼睛睜/閉,從 Destination 影像中複製了臉型;「fine styles」從 Source 影像中複製了顏色和微結構。![人臉合成效果媲美StyleGAN,而它是個自編碼器](https://i.iter01.com/images/6f9ed32389e8576d1837ca3e2f53672f5185fe753b55bfe2d520fa74e0b5c985.png)
圖 8:不同方法在 CelebA-HQ 資料集上的重建結果。第一行是真實影像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。從圖中可以看出,StyleALAE 的生成結果更加清晰,失真度也最低。