生成對抗網路(GAN)可以產生複雜且逼真到令人驚訝的影象,但它會忽略可能存在於場景中的多個實體間的顯式空間互動。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網路。該模型以其邊緣分佈的目標影象為條件,通過明確學習可能的互動,在聯合分佈中產生逼真的影象。實驗結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的互動關係,並以合理的方式在測試時輸出組合場景的新的例項。
1. 引言
生成對抗網路(GAN)是在給定輸入的條件下生成影象的一種強大方法。輸入的格式可以是影象 [9,37,16,2,29,21]、文字短語 [33,24,23,11] 以及類標籤佈局 [19,20,1]。大多數 GAN 例項的目標是學習一種可以將源分佈中的給定樣例轉換為輸出分佈中生成的樣本的對映。這主要涉及到單個目標的轉換(從蘋果到橙子、從馬到斑馬或從標籤到影象等),或改變輸入影象的樣式和紋理(從白天到夜晚等)。但是,這些直接的以輸入為中心的轉換無法直觀體現這樣一個事實:自然影象是 3D 視覺世界中互動的多個物件組成的 2D 投影。本文探索了組合在學習函式中所起到的作用,該函式將從邊緣分佈(如椅子和桌子)採集到的目標不同的影象樣本對映到捕獲其聯合分佈的組合樣本(桌椅)中。
由於不同物件間在相對縮放、空間佈局、遮擋以及視角變換等方面可能存在複雜的互動關係,在自然影象中對組合建模是一個極具挑戰的問題。近期的研究在 GAN 框架 [15] 中使用空間變換網路 [10],通過在幾何扭曲引數空間中進行操作,找到前景物件的幾何糾正來分解該問題。但這種方法僅限於固定的背景,也並未考慮真實世界中更加複雜的互動關係。近期的另一項研究是以文字和場景圖為條件生成場景的,這項研究明確地對物件和其互動關係進行了推理。
我們開發的這種方法可以對影象中的目標組合建模。我們將組合兩個輸入物件影象的任務視為生成一個聯合影象,該影象可以捕獲這兩個物件在自然影象中的聯合互動關係。例如,給定椅子和桌子的影象,可以產生一張包含相同的成對桌椅的自然互動的影象。一個可以正確捕捉組合特徵的模型需要對遮擋排序(如桌子在椅子前面)和空間佈局(如椅子在桌子內滑動)有所瞭解。據我們所知,我們是第一個在沒有任何清晰的關於目標佈局的先前顯式資訊的情況下,在影象條件空間中解決該問題的組。
我們的工作重點是將兩個目標組合的問題重構為先組合好給定的目標影象以生成可以對目標互動關係建模的聯合影象,再將聯合影象分解,以獲得單個目標。這樣的重構可以通過組合-分解網路加強自洽約束 [37]。但在一些場景中無法用組合合成影象對相同的目標例項的成對樣例進行訪問,例如,要根據給定桌子和椅子的影象生成聯合影象,除了指定的桌子外我們可能沒有任何有關指定椅子的樣例,但我們可能有其他桌子和椅子的影象。我們在組合分解層新增了修復網路,以處理這樣的不配對情況。
通過定性和定量實驗,我們在兩個訓練場景中評估了我們提出的 Compositional-GAN 方法:(a)配對:當我們有權用相關組合影象訪問單個物件影象的成對樣例時;(b)未配對:當資料集源於聯合分佈且沒有與來自邊緣分佈的任何一張圖進行配對時。
聯合 GAN 程式碼和資料集請參閱:https://github.com/azadis/ CompositionalGAN
論文:Compositional GAN: Learning Conditional Image Composition
論文連結:https://arxiv.org/pdf/1807.07560v1.pdf
生成對抗網路(GAN)可以產生複雜且逼真到令人驚訝的影象,但它一般會從單個潛在源取樣建模,從而忽略可能存在於場景中的多個實體間的顯式空間互動。在相對縮放、空間佈局、遮擋或視角轉移等情況下在不同目標間捕獲複雜的互動關係是極具挑戰的問題。本文提出以 GAN 為框架、將目標組合建模為自洽的組合-分解網路。該模型以其邊緣分佈的目標影象為條件,通過明確學習可能的互動,在聯合分佈中產生逼真的影象。我們在對單獨的目標進行配對和不配對的兩個場景中通過定性實驗和使用者評估對模型進行了評估,在訓練過程中也給出了聯合場景。結果表明,訓練後的模型可以在作為輸入的兩個給定的目標域間捕獲潛在的互動關係,並以合理的方式在測試時輸出組合場景的新的例項。
圖 1:組合 GAN 對配對和未配對訓練資料訓練得到的模型。黃色框指的是用於在給定第二物件被遮擋的情況下合成第一物件的新視角的 RAFN 步驟,該過程僅用於成對資料的訓練過程。橙色框表示用未配對資料修復輸入分割的過程。對配對和未配對的情況而言模型的剩餘部分相似,都包括 STN,再之後是自洽組合-分解網路。
圖 2:使用配對或未配對資料訓練桌椅組合任務的測試結果。「NN」代表成對訓練集中最接近的影象,「NoInpaint」表示在沒有修復網路的情況下未配對模型的結果。在配對和未配對情況中,cˆ before 和 cˆ after 分別表示在推理細化網路之前和之後的生成器的結果。cˆ after s 表示細化步驟後的有遮掩的轉置輸入的總和。
4 實驗
圖 3:用配對或未配對資料對籃子-瓶子組合任務訓練後的測試結果。「NN」表示在配對的訓練集中最近的影象,「NoInpaint」表示在沒有修復網路的情況下用未配對資料訓練得到的模型。在配對和未配對情況中,cˆ before 和 cˆ after 分別表示在推理細化網路之前和之後生成器的輸出結果。此外,cˆ after s 表示細化步驟之後遮掩情況下轉置輸入的總和。
表 1:AMT 使用者評估比較我們提出的模型的不同元件。第一列表示在未配對場景中推理(未細化)期間要細化的影象的偏好百分比。第二列表示與未配對情況相比,通過配對資料訓練策略生成的細化影象的偏好百分比。
圖 4:面部-太陽鏡組合任務的測試樣例。前兩行表示輸入的太陽鏡影象和麵部影象,第三行和第四行分別表示用配對和未配對資料訓練的組合 GAN 的輸出。最後一行表示 ST-GAN 模型生成的影象。