人臉合成效果媲美StyleGAN，而它是個自編碼器

機器之心發表於2020-04-26

原文網址 : https://www.jiqizhixin.com/articles/2020-04-26-3

論文地址：https://arxiv.org/pdf/2004.04467.pdf

GitHub 地址：https://github.com/podgorskiy/ALAE

自編碼器是一種無監督方法，它透過同時學習編碼器-生成器圖將「生成性」和「表徵性」結合起來。關於自編碼器有兩個疑問尚未得到解決：

自編碼器是否具備和 GAN 同等的生成能力？
自編碼器能否學習解耦表徵（disentangled representation）？

最近，來自美國西弗吉尼亞大學的研究者提出一種新型自編碼器 Adversarial Latent Autoencoder (ALAE)，試圖解決以上問題。ALAE 是一個通用架構，它能夠利用近期 GAN 在訓練方面的改進。研究者表示 ALAE 具備與 GAN 相當的生成能力，且能夠學習解耦表徵。

利用 ALAE 通用架構，該研究設計了兩個自編碼器：一種基於 MLP 編碼器，另一種基於 StyleGAN 生成器，即 StyleALAE。

研究者對這兩個架構的解耦能力進行了驗證，發現 StyleALAE 不僅能夠生成與 StyleGAN 生成質量相當的 1024x1024 人臉影像，在同樣解析度條件下，它還可以基於真實影像生成人臉重建和操縱結果。

研究者認為，ALAE 是首個效能匹配甚至超過生成器架構的自編碼器。

ALAE 到底效果如何呢？我們來看展示圖：

人臉合成效果媲美StyleGAN，而它是個自編碼器

StyleALAE 的風格混合效果。

感興趣的讀者可以自己執行 demo，不過你需要 CUDA capable GPU、v1.3.1 及以上版本的 PyTorch 和 cuda/cuDNN 驅動，詳情參見 GitHub 地址。

新型通用自編碼器 ALAE

研究者觀察到每個 AE 方法都使用同樣的假設：潛在空間的機率分佈應與先驗相關，自編碼器應該與之匹配。而 StyleGAN 相關論文證明，中間潛在空間應當具備更好的解耦能力。

於是研究者透過修改原始 GAN 正規化設計了一種新型 AE 架構：

允許基於資料學得的潛在分佈解決耦合問題 (A)，並使用對抗策略學習輸出資料分佈 (B)，以保留 GAN 的生成能力；為了實現 (A) 和 (B)，該研究提出將 AE reciprocity 置於潛在空間中 (C)，以避免使用在資料空間中執行的基於簡單 l_2 範數的重建損失（對於影像空間來說它們通常是次優選擇）。

如下圖 1 所示，研究者將生成器 G 和判別器 D 分別分解成兩個網路：F、G 和 E、D。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 1：ALAE 架構。

此外，研究者還展示了 ALAE 與其他自編碼器的關聯，詳見下表：

人臉合成效果媲美StyleGAN，而它是個自編碼器

StyleALAE

研究者使用 ALAE 構建了一個自編碼器，該自編碼器使用的是基於 StyleGAN 的生成器。具體架構如下圖 2 所示：

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 2：StyleALAE 架構。StyleALAE 編碼器中的例項歸一化（IN）層用來提取多尺度風格資訊，並透過可學習的多重線性對映（multilinear map）將它們組合成為一個潛在程式碼 w。

實現

ALAE 的演算法訓練過程參見下圖：

人臉合成效果媲美StyleGAN，而它是個自編碼器

ALAE 效果如何？

該研究在多個資料集上評估了 ALAE 的效能，實驗程式碼和資料參見 GitHub 地址。

在 MNIST 上的效能

研究者使用 MNIST 資料集訓練 ALAE，並使用特徵表示來執行分類、重建和分析解耦能力的任務。

人臉合成效果媲美StyleGAN，而它是個自編碼器

表 2：不同方法在 MNIST 分類任務上的效能。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 3：MNIST 重建效果。

StyleALAE 學習風格表徵的能力

研究者在 FFHQ、LSUN 和 CelebA-HQ 資料集上評估 StyleALAE 的效能。

人臉合成效果媲美StyleGAN，而它是個自編碼器

表 3：不同方法在 FFHQ 和 LSUN 資料集上的 FID 分數。

人臉合成效果媲美StyleGAN，而它是個自編碼器

表 4：不同方法的感知路徑長度（PPL），表示表徵解耦程度。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 5：FFHQ 重建結果。StyleALAE 對未見過的影像的 1024×1024 重建結果。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 6：StyleALAE 的 FFHQ 生成結果（1024 × 1024 解析度）。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 9：StyleALAE 的風格混合效果。「coarse styles」從 Source 影像中複製了高階特徵，如姿勢、大致髮型和臉型，從 Destination 影像中複製了所有顏色（眸色、髮色和光照）；「middle styles」從 Source 影像中複製了較小型的面部特徵例如髮式、眼睛睜/閉，從 Destination 影像中複製了臉型；「fine styles」從 Source 影像中複製了顏色和微結構。

人臉合成效果媲美StyleGAN，而它是個自編碼器

圖 8：不同方法在 CelebA-HQ 資料集上的重建結果。第一行是真實影像；第二行：StyleALAE；第三行：Balanced PIONEER；第四行：PIONEER。

從圖中可以看出，StyleALAE 的生成結果更加清晰，失真度也最低。

StyleGAN 調整面部表情，讓虛擬人臉更生動
2023-03-27
StyleGAN 生成 AI 虛擬人臉，再也不怕侵犯肖像權
2023-03-26
AI
解密Deepfake(深度換臉)-基於自編碼器的(Pytorch程式碼)換臉技術
2019-01-23
解密PyTorch
自動編碼器
2020-04-06
拋棄視覺編碼器，這個「原生版」多模態大模型也能媲美主流方法
2024-07-16
視覺大模型
VAE變分自編碼器
2022-01-20
cypress 個人編碼守則
2020-07-11
自動編碼器是什麼？教你如何使用自動編碼器增強模糊影像
2020-03-31
變分自編碼器VAE（上）
2020-04-06
自編碼器及其相關模型
2019-06-18
模型
新型掩碼自編碼器 AdaMAE，自適應取樣
2023-02-22
為什麼VSCode是程式碼編輯器而不是IDE？
2024-04-13
VSCodeIDE
人臉檢測識別，人臉檢測，人臉識別，離線檢測，C#原始碼
2019-02-16
C#原始碼
變分貝葉斯自編碼器
2020-04-06
TensorFlow上實現AutoEncoder自編碼器
2020-04-06
Keras上實現AutoEncoder自編碼器
2020-04-06
Keras
利用 TensorFlow 實現卷積自編碼器
2018-12-12
卷積
快速瞭解變分自編碼器 VAE
2024-03-25
圖自編碼器的起源和應用
2020-03-10
華為雲——AI人臉編輯讓Lena微笑
2022-06-02
AI
CSS3哭臉效果
2018-03-19
CSSS3
netty系列之:netty中的懶人編碼解碼器
2021-08-20
Netty
漫談概率 PCA 和變分自編碼器
2018-08-16
PCA
個人總結——全面的『Python編碼規範』
2018-05-18
Python
從fdk_aac編碼器到自動靜態編譯FFmpeg
2019-07-15
編譯
卷積自編碼
2019-02-16
卷積
智慧公安大資料合成作戰平臺搭建人臉識別系統開發
2019-03-30
大資料
從零帶你入門stylegan~stylegan3的技術細節
2022-03-01
寫一個自動回覆的聊天機器人
2019-04-26
機器人
DL4J中文文件/模型/自編碼器
2018-11-04
模型
自動編碼器Gridsearch超引數調整Keras
2020-10-06
Keras
變分自編碼器（五）：VAE + BN = 更好的VAE
2024-07-08
10個線上HTML程式碼編輯器
2024-03-18
HTML
【機器學習】李宏毅——AE自編碼器(Auto-encoder)
2022-12-20
機器學習
音樂製作人的福音：混音合成效果器Cradle The God Particle for Mac
2022-06-01
GoMac
AI 人工智慧合成人臉——你能分辨出哪個小姐姐是真的嗎？
2019-03-06
AI人工智慧
手把手教你 python 人臉識別自動開機
2020-04-24
Python
網紅人氣排名前10大程式碼編輯器
2022-08-08

人臉合成效果媲美StyleGAN，而它是個自編碼器

相關文章