GAN 自 2014 年提出以來得到了廣泛應用。前不久效果令人震驚的 ICLR 2019 論文 BigGAN 引發了眾多關注。去年英偉達投稿 ICLR 2018 的論文《Progressive Growing of GANs for Improved Quality, Stability, and Variation》效果也很驚豔。昨天 PGGAN 的作者再發論文,這次的效果更加真實。請戳視訊:
這款新型 GAN 生成器架構借鑑了風格遷移研究,可對高階屬性(如姿勢、身份)進行自動學習和無監督分割,且生成影像還具備隨機變化(如雀斑、頭髮)。該架構可以對影像合成進行直觀、多尺度的控制,在傳統的分佈質量指標上達到了當前最優,展示了更好的插值屬性,並且能夠更好地將潛在的變差因素解糾纏。
下圖展示了這款新型生成器的風格效果。它將隱編碼生成的風格(source)疊加在另一種隱編碼的風格子集(destination)上。
對空間解析度較低(4^2 – 8^2)的層的風格進行疊加的效果見「Coarse styles copied」部分:生成影像從 source 中複製了姿勢、大致髮型、臉形和眼鏡等高階屬性,但保留了 destination 影像的所有顏色(眼睛、頭髮、光線)和細節臉部特徵。
對空間解析度為 16^2 – 32^2 的層的風格進行疊加的效果見「Middle styles copied」部分:複製了 source 影像的細微面部特徵、髮型、眼睛睜開的狀態,同時保留了 destination 影像的姿勢、臉形和眼鏡。
對高解析度 (64^2 – 1024^2) 的層的風格進行疊加的效果見「Fine styles」:主要保留了 source 影像的顏色和微小特徵。
基於風格的生成器
如下圖所示,(a)PGGAN 生成器將隱編碼僅饋入輸入層,而(b)英偉達最近提出的基於風格的生成器首先將輸入對映到中間潛在空間 W,W 控制生成器在每個卷積層的自適應例項歸一化(adaptive instance normalization,AdaIN)。然後在應用非線性啟用之前在每個卷積層之後新增高斯噪聲。圖中 A 表示學到的仿射變換,B 表示學到的每個通道對噪聲輸入的比例因子。對映網路 f 包含 8 個層,合成網路 g 包含 18 個層(4^2、8^2、16^2、32^2、64^2、128^2、256^2、512^2、1024^2 這九種解析度中每種解析度有兩個層)。使用互相分離的 1 × 1 卷積將最後一層的輸出轉換成 RGB,與前作 PGGAN 類似。
基於風格的生成器的屬性
該生成器架構通過對風格的尺度調整來控制影像合成。對映網路和仿射變換用來從學到的分佈中獲取每種風格的取樣,合成網路用來基於多種風格生成新影像。每種風格的效果都在該網路內有呈現,即修改多種風格的特定子集以影響影像的某些特定屬性。
該研究介紹了該生成器的三個屬性,分別是風格混合、隨機變化(Stochastic variation)和全域性效應與隨機性的分離。
風格混合
上圖展示了在多種解析度情況下混合兩種隱編碼合成的影像示例。可以看到風格的每個子集控制影像的有意義高階屬性。
隨機變化
圖 4. 隨機變化的示例。(a)兩張生成的影像。(b)放大輸入噪聲的不同實現。儘管整體外觀大致相同,但個體毛髮細節還是有不同。(c)100 個不同實現中畫素的標準偏差,高亮處為影像受噪聲影響的區域。主要區域是頭髮、輪廓和部分背景,但眼睛的反射也有有趣的隨機變化。身份和姿勢等全域性特徵不受隨機變化的影響。
圖 5:生成器不同層的輸入噪聲對生成結果的影響。(a)噪聲被應用到所有層;(b)沒有噪聲;(c)噪聲僅應用到(64^2 - 1024^2)解析度的精細層;(d)噪聲僅應用到(4^2 - 32^2)解析度的粗糙層。我們可以看到人工消除噪聲可以讓影像看起來更正常,粗糙噪聲會導致大幅度的頭髮和背景扭曲;精細噪聲帶來的頭髮變形更加細緻,背景細節更加豐富,甚至能看到皮膚毛孔。
全域性效應與隨機性的分離
前文及隨附的視訊說明,雖然改變風格會產生全域性效應(global effect),如改變姿勢、ID 等,但噪聲只會影響無關緊要的隨機變化(如髮型、鬍子等)。這個觀察結果與風格遷移文獻一致,後者已經確定了空間不變的統計資料(格拉姆矩陣、通道均值、方差等)能夠可靠地編碼影像的風格 [17, 33],同時空間變化的特徵編碼特定例項。
在本文基於風格的生成器中,風格會影響整個影像,因為整個特徵圖會以同樣的值進行縮放和偏移。因此,姿勢、光線或背景風格等全域性效應可以得到連貫的控制。同時,噪聲被單獨新增到每個畫素中,因此非常適於控制隨機變化。如果該網路試圖用噪聲控制姿勢,那將會導致空間不一致的決策,然後被判別器懲罰。因此該網路學會了在沒有明確指導的情況下適當地使用全域性和區域性通道。
此外,英偉達還提出兩種可應用於任意生成器架構的新型自動化方法,並建立了一個包含千差萬別、高質量人臉影像的新型資料集 FlickrFaces-HQ(FFHQ)。該資料集中的影像來自於 Flickr 網站,並經過自動對齊和剪裁。該資料集包含 70000 張解析度為 1024^2 的高質量影像,其中的影像在年齡、種族、影像背景等方面比 CelebA-HQ [26] 具備更寬泛的變化,且涵蓋更多配飾,如眼鏡、太陽鏡、帽子等。