論文:Full-body High-resolution Anime Generation with Progressive Structure-conditional Generative Adversarial Networks
論文連結:https://drive.google.com/file/d/1uLvdkEWUzb4Qgtg_abelaLoSkj3zcsD2/edit
摘要:我們提出的漸進式結構條件生成對抗網路(Progressive Structure-conditional Generative Adversarial Network,PSGAN)是一種根據結構資訊生成高解析度全身人物影像的新框架。最近的生成對抗網路可以透過漸進式訓練生成高解析度的影像。但是現有的方法無法同時滿足高影像質量和結構一致性。我們提出的方法透過在訓練過程中漸進地增強生成影像解析度和結構條件,突破了之前方法的侷限性。我們比較了現有方法和解析度為 1024*1024 的不同動漫形象基於目標姿勢序列生成的影片結果,論證了本文提出方法的有效性。我們還用 Unity 3D Avatar 模型建立了新的資料集,該資料集包含 1024*1024 的高解析度全身影像以及精確的 2D 姿勢關鍵詞。
生成 1024*1024 的全身動漫人物
我們展示了使用測試姿勢序列透過 PSGAN 生成的解析度為 1024*1024 的不同動漫形象和動畫影片示例。1. 我們先根據隨機隱變數用 PSGAN 生成了許多動漫人物,透過插入這些人物來建立新的動漫形象。2. 接下來我們給 PSGAN 網路提供連續的姿勢序列資訊,透過這些資訊為每一個動漫形象生成一段動畫影片。在這段影片中我們多次重複了 1 和 2 步驟。
生成新的動漫人物全身影像
我們用 PSGAN 插入對應身穿不同服飾的動漫形象(人物 1 和人物 2)的隱變數,來生成新的動漫人物的全身影像。注意,這裡只需要一個姿勢。
給動漫人物的全身像新增動作
下圖展示了使用特定動漫人物和目標姿勢生成一段動畫的示例:
透過調整隱變數和給 PSGAN 提供連續的姿勢序列,我們可以為每一個動漫人物生成一段動畫。更具體地說,我們將特定的動漫人物的表徵對映到隱空間的隱變數中,作為 PSGAN 的輸入向量。
透過將指定的動漫人物對映到隱空間,並生成隱變數作為 PSGAN 的輸入,就可以生成特定動漫形象的任意動畫影片。
漸進式結構條件 GAN(PSGAN)
我們的關鍵思想是漸進地學習帶有結構條件的影像表徵。上圖展示了 PSGAN 中生成器 G 和鑑別器 D 的結構。PSGAN 在每個尺度下根據結構條件增強了生成影像的解析度,並生成了高解析度的影像。我們採用了和 Progressive GAN [Karras+18] 中影像生成器和辨別器相同的結構,但我們透過新增每個尺度對應解析度的姿勢對映,在生成器和鑑別器上新增了結構性條件,這顯著地穩定了訓練。帶有結構條件的 GAN 之前也有人提出過[Ma+17,Ma+18,Balakrishnan+18,Siarohin+18,Si+18,Hu+18,Qiao+18]。他們用的是單尺度條件,而我們用的是多尺度條件。具體而言,我們在每一個尺度上下采樣了全解析度的結構條件對映,組成多尺度條件對映。就每個尺度而言,生成器根據帶有結構條件的隱變數生成一張影像,而鑑別器根據結構條件區分生成影像和真實影像。N*N 的白色框表示在 N*N 的空間解析度上進行可學習的卷積層操作。N*N 的灰色框表示結構條件的不可學習下采樣層,這樣的操作將結構條件對映的空間解析度降到了 N*N。我們用 M 個通道表示 M 維結構條件(例如 M 個關鍵點)。
AVATAR 動漫形象資料集
我們用包含 600 個姿勢和 69 類服飾的 Unity 3D Avatar 模型建立了一個全新的資料集,該資料集包含解析度為 1024*1024 的全身影像以及精準的 2D 姿勢關鍵詞。下圖是建立資料的示例。動漫形象(每對圖的左側)和姿勢影像(每對圖的右側)如下圖所示。
對比
結構一致性對比
上圖所示是用 Progressive GAN [Karras+18] 和 PSGAN 在 DeepFashion [Liu+16] (256*256) 資料集上生成的影像。透過觀察可以看出 Progressive GAN 不能生成與全域性結構一致的自然影像(例如左邊四張圖)。而 PSGAN 可以透過在每個尺度上新增結構條件生成與全域性結構一致的合理影像。
基於姿勢條件生成影像的質量對比
上圖所示是 PSGAN 和姿勢引導的人像生成模型(Pose Guided Person Image Generation,PG2)[Ma+17] 在 256*256 版的 Avatar 資料集和 DeepFashion 資料集上生成的影像。從上圖可以看出,由於在每個尺度上新增了結構條件,PSGAN 生成的影像比 PG2 更清晰,細節也更多。
PG2 需要源影像和對應的目標姿勢,來將源影像轉換成具有目標姿勢的影像。與此同時,PSGAN 利用隱變數和目標姿勢生成帶有目標姿勢的影像,且無需成對的訓練影像。
原文連結:https://dena.com/intl/anime-generation/