港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

機器之心發表於2020-07-28
SeFa 方法能夠識別出不同 GAN 模型的潛在語義,進而進行影像編輯。如下圖所示:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

除了動漫以外,SeFa 方法還可以處理場景、人物、動物、物體等不同的影像。

下圖展示了對「貓片」的操控效果:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

貓姿勢的左右移動。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

貓姿勢的上下移動。需要注意的是,在影像變換過程中,我們可以看到,還是有偽影的存在。

藉助 SeFa 方法,我們還可以調整車輛的形狀:

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

以及調整車輛方向:
港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

接下來,我們來看該問題的難點以及 SeFa 方法的新穎之處。

如何解釋 GAN 的潛在空間?

生成對抗網路(GAN)在影像合成領域的應用已經十分廣泛。近期的一些研究表明,在學習合成影像時,GAN 會自發地在潛在空間中表示出多種可解釋屬性,如用於人臉合成的性別特徵、用於場景合成的光照條件。透過正確識別這些語義,我們可以將 GAN 學習到的知識重新利用,合理地控制影像生成過程,從而實現影像編輯功能的更廣泛應用,如人臉操縱和場景編輯。

解釋 GAN 潛在空間的關鍵點在於找到與人類可理解屬性相對應的子空間。透過這種方法,將潛碼(latent code)向特定子空間的方向移動,即可對應地改變合成影像的語義。然而,由於潛在空間的高維性以及影像語義的多樣性,在潛在空間中尋找有效方向是極具挑戰性的。

現有的監督學習方法通常先隨機抽取大量潛碼,然後合成一組影像,並使用一些預定義標籤進行影像標註,最後利用這些標註樣本學習潛在空間中的分離邊界(separation boundary)。要想得到訓練該邊界的標籤,要麼引入預訓練語義預測器,要麼利用影像的一些簡單統計資訊。

港中文周博磊等人提出新方法「SeFa」,解釋 GAN 內部表徵

以往的方法嚴重依賴於預定義的語義和標註樣本,存在侷限性。最近,來自香港中文大學的研究者提出了一種新的生成方法,不再將合成樣本作為中間步驟,而是透過直接探索 GAN 的生成機制來解釋其內部表徵

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

  • 論文地址:https://arxiv.org/pdf/2007.06600.pdf

  • 程式碼地址:https://github.com/genforce/sefa

  • 專案主頁:https://genforce.github.io/sefa/

具體而言,對於所有基於神經網路的 GAN,第一步通常採用一個全連線層將潛碼輸入到生成器中,它提供了將潛在空間投影到變換空間(transformed space)的驅動力。這種變換實際上過濾了潛在空間中一些不重要的方向,從而突出了影像合成的關鍵方向。

能夠識別這些重要的潛在方向,我們就能夠控制影像生成過程,即編輯合成影像的語義。

在這篇論文中,研究者提出了一種新穎而簡單的閉式方法「SeFa」,可用於 GAN 的潛在語義分解。現有方法通常使用三個步驟(取樣、標註和邊界搜尋),而 SeFa 方法只需使用 GAN 模型學得的權重進行語義發現。

實驗結果表明,這一方法能夠透過非常快速和高效的實現(1 秒內),識別通用的潛在語義,在無監督條件下即可從不同型別的 GAN 模型中識別多種語義。具體方法可見論文。

下圖展示了一些操作例項。即使我們不知道影像中物件的底層 3D 模型或姿態標籤,也仍然進行旋轉,並且該方法支援在 PGGAN、StyleGAN、BigGAN、StyleGAN2 等多個 GAN 模型中發現人類可理解的語義。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

SeFa 的實驗效果

研究者在多個 SOTA GAN 模型上進行大量實驗,以評估所提出方法的效果,這些模型包括 PGGAN、StyleGAN、BigGAN 和 StyleGAN2。這些模型在多個資料集上進行了訓練,包括人臉(CelebA-HQ 和 FF-HQ)、動漫人臉、場景和物體(LSUN)、街景和 ImageNet 等。為了對人臉進行定量分析,研究者在之前研究 [23] 的基礎上,使用 ResNet-50 在 CelebA 資料集上訓練了一個屬性預測器。

無監督基準的對比

下圖 3 展示了與基於取樣的無監督方法之間的定性對比。

可以看出,SeFa 的生成結果(b 行)更接近於監督方法 InterFaceGAN(c 行)所生成的結果。例如在 StyleGAN 上使用 PCA 編輯姿勢時,身份和髮型會發生變化(a 行)。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 3:語義定性對比。(a)基於取樣的無監督方法 [10];(b)該研究提出的閉式方法 SeFa;(c)監督方法 InterFaceGAN。

接下來是與基於學習的無監督方法的對比。

以下圖 4 為例,當使用 Info-PGGAN 進行編輯時,頭髮的顏色會發生變化。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 4:Info-PGGAN (a) 和 SeFa (b) 發現語義的定性對比。

監督方法對比和語義屬性分析

接下來,研究者對比了 SeFa 與監督學習 SOTA 方法 InterFaceGAN 在潛在語義發現方面的效能,具體而言從以下兩個角度進行分析:(a)在分離語義方面的區別,(b)識別語義的多樣性。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

表 2 展示了透過評估語義得分隨潛碼調整而發生的變化,對不同方法進行重新評分分析。每一行展示了將潛碼朝某個方向移動的結果。

在下圖 5 中,研究者將本文方法與監督方法 InterFaceGAN 進行對比。如圖 5 (a) 所示,SeFa 成功地識別了與髮色、髮型和膚色這些要素對應的方向。同時該方法還可以識別更復雜的屬性 ,如圖 5 (b) 中的不同髮型。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 5:a)多樣化的語義,InterFaceGAN 因缺乏語義預測期而無法識別;b)無法用二元屬性描述的不同髮型。

隨後,研究者將 GAN 逆對映方法引入到這項工作中,以實現真實影像的處理。具體而言,給定一個待編輯的目標影像,我們首先將它投影到潛碼,然後使用發現的潛在語義來調整逆程式碼。

如下圖 6 所示,該研究提出的閉式方法所發現的語義是足夠精確的,可以操縱真實的影像。例如,研究人員設法在輸入影像中新增或刪除眼鏡(圖 6 的第四列)。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 6:對真實影像進行不同面部屬性的處理。所有語義都是用 SeFa 找到的,GAN 逆對映用於將作為目標的真實影像投影回 StyleGAN 的潛在空間。

在其他 GAN 模型上的泛化表現

這部分驗證了 SeFa 演算法的泛化能力,即應用到在不同資料集上訓練的各類 SOTA GAN 模型的效果。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 7:從基於風格的生成器中發現的層級語義。其中街景模型使用了 StyleGAN2 進行訓練,其他模型使用了 StyleGAN。

港中文周博磊團隊最新研究:無監督條件下GAN潛在語義識別指南

圖 8:從 BigGAN 中發現的多樣性語義,該模型在 ImageNet 上進行了有條件的訓練。這些語義被進一步用於處理不同類別的影像。

相關文章