論文地址:https://arxiv.org/pdf/2004.04467.pdf
GitHub 地址:https://github.com/podgorskiy/ALAE
自編碼器是一種無監督方法,它透過同時學習編碼器-生成器圖將「生成性」和「表徵性」結合起來。關於自編碼器有兩個疑問尚未得到解決:最近,來自美國西弗吉尼亞大學的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE),試圖解決以上問題。ALAE 是一個通用架構,它能夠利用近期 GAN 在訓練方面的改進。研究者表示 ALAE 具備與 GAN 相當的生成能力,且能夠學習解耦表徵。利用 ALAE 通用架構,該研究設計了兩個自編碼器:一種基於 MLP 編碼器,另一種基於 StyleGAN 生成器,即 StyleALAE。研究者對這兩個架構的解耦能力進行了驗證,發現 StyleALAE 不僅能夠生成與 StyleGAN 生成質量相當的 1024x1024 人臉影像,在同樣解析度條件下,它還可以基於真實影像生成人臉重建和操縱結果。研究者認為,ALAE 是首個效能匹配甚至超過生成器架構的自編碼器。
感興趣的讀者可以自己執行 demo,不過你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅動,詳情參見 GitHub 地址。研究者觀察到每個 AE 方法都使用同樣的假設:潛在空間的機率分佈應與先驗相關,自編碼器應該與之匹配。而 StyleGAN 相關論文證明,中間潛在空間應當具備更好的解耦能力。於是研究者透過修改原始 GAN 正規化設計了一種新型 AE 架構:允許基於資料學得的潛在分佈解決耦合問題 (A),並使用對抗策略學習輸出資料分佈 (B),以保留 GAN 的生成能力;為了實現 (A) 和 (B),該研究提出將 AE reciprocity 置於潛在空間中 (C),以避免使用在資料空間中執行的基於簡單 l_2 範數的重建損失(對於影像空間來說它們通常是次優選擇)。如下圖 1 所示,研究者將生成器 G 和判別器 D 分別分解成兩個網路:F、G 和 E、D。此外,研究者還展示了 ALAE 與其他自編碼器的關聯,詳見下表:研究者使用 ALAE 構建了一個自編碼器,該自編碼器使用的是基於 StyleGAN 的生成器。具體架構如下圖 2 所示:圖 2:StyleALAE 架構。StyleALAE 編碼器中的例項歸一化(IN)層用來提取多尺度風格資訊,並透過可學習的多重線性對映(multilinear map)將它們組合成為一個潛在程式碼 w。該研究在多個資料集上評估了 ALAE 的效能,實驗程式碼和資料參見 GitHub 地址。研究者使用 MNIST 資料集訓練 ALAE,並使用特徵表示來執行分類、重建和分析解耦能力的任務。表 2:不同方法在 MNIST 分類任務上的效能。研究者在 FFHQ、LSUN 和 CelebA-HQ 資料集上評估 StyleALAE 的效能。表 3:不同方法在 FFHQ 和 LSUN 資料集上的 FID 分數。表 4:不同方法的感知路徑長度(PPL),表示表徵解耦程度。圖 5:FFHQ 重建結果。StyleALAE 對未見過的影像的 1024×1024 重建結果。圖 6:StyleALAE 的 FFHQ 生成結果(1024 × 1024 解析度)。圖 9:StyleALAE 的風格混合效果。「coarse styles」從 Source 影像中複製了高階特徵,如姿勢、大致髮型和臉型,從 Destination 影像中複製了所有顏色(眸色、髮色和光照);「middle styles」從 Source 影像中複製了較小型的面部特徵例如髮式、眼睛睜/閉,從 Destination 影像中複製了臉型;「fine styles」從 Source 影像中複製了顏色和微結構。圖 8:不同方法在 CelebA-HQ 資料集上的重建結果。第一行是真實影像;第二行:StyleALAE;第三行:Balanced PIONEER;第四行:PIONEER。從圖中可以看出,StyleALAE 的生成結果更加清晰,失真度也最低。