CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

劉曉坤發表於2018-04-23
研究展示頁:https://compvis.github.io/vunet/

簡介

最近用於影像合成的生成模型備受關注 [7, 12, 18, 24, 49, 51, 32]。生成目標的影像需要對它們的外觀和空間佈局的詳細理解。因此,我們必須分辨基本的目標特徵。一方面,與觀察者視角相關的有目標的形狀和幾何輪廓(例如,一個人坐著、站著、躺著或者拎著包)。另一方面,還有由顏色和紋理為特徵的本質外觀屬性(例如棕色長卷髮、黑色短平頭,或者毛茸茸的樣式)。很明顯,目標可以自然地改變其形狀,同時保留本質外觀(例如,將鞋子弄彎曲也不會改變它的樣式)。然而,由於變換或者自遮擋等原因,目標的影像特徵會在這個過程中發生顯著變化。相反,衣服的顏色或者面料的變化對其形狀是沒有影響的,但是,它還是很清晰地改變了衣服的影像特徵。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 1:變分 U-Net 模型學習從左邊的查詢中進行推理,然後生成相同外觀的目標在第一行所示的不同姿態下的影像。

由於深度學習的使用,生成模型最近有很大的進展,尤其是生成對抗網路 (GAN) [1, 8, 10, 27, 38]、變分自編碼器 [16],以及它們的組合 [2, 17]。儘管有著引人注目的結果,但是這些模型在有著較大空間變化的影像分佈上還是面臨著效能較差的問題:儘管在完美註冊的人臉資料集(例如對齊的 CelebA 資料集 [22])上能夠生成高解析度的影像 [19,13],然而從像 COCO[20] 多樣化的資料集中合成整個人體仍然是一個開放性的問題。導致這個問題的主要原因是,雖然這些生成模型能夠直接合成一個目標的圖片,但是它無法對生成影像的外觀和形狀之間複雜的相互影響進行建模。所以,它們可以容易地向一張人臉新增鬍鬚和眼鏡,因為這相當於給那些影像區域重新著色。將這個與人物移動胳膊相比,後者相當於給舊的位置的胳膊用背景顏色著色,並且將新位置的背景轉變為一隻胳膊。我們所缺失的就是一個能夠改變物體形狀,而不是僅能夠調整顏色的生成模型。

所以,在生成影像的過程中,我們要對外觀、形狀以及兩者之間的複雜影響進行建模。對於通用的適用性,我們希望能夠僅從靜態的影像資料集中進行學習,而不需要展示同一目標不同形狀的一系列圖片。為此,研究者提出了條件 U-Net[30] 架構,這個架構用於從形狀到目標影像的對映,以及將關於外觀的變分自編碼器的潛在表徵條件化。為了解耦形狀和外貌,我們允許利用與形狀相關的簡單可用資訊,例如邊緣或者身體關節位置的自動估計。然後該方法能實現條件影像生成和轉換:為了合成不同的幾何輪廓或者或者改變目標的外觀,一個查詢圖片的外觀或者形狀會被保留,同時未被保留的那一部分就會被自由改變,甚至從其他影像匯入。此外,模型也允許在不改變形狀的情況下對外觀分佈進行取樣。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 2: 條件 U-Net 與變分自編碼器相結合。x:查詢影像,y hat:形狀估計,z:外觀。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 3: 僅僅將邊緣影像作為輸入時的生成影像(左側的 GT 影像被保留了)。研究者在鞋子資料集 [43] 和挎包資料集 [49] 上將本文的方法與 pix2pix 進行了對比。在圖的右側是從變分 U-Net 的潛在外觀分佈中的取樣。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

表 1: 在 DeepFashion 和 Market1501 資料集上重建影像的結構相似性(SSIM)和 Inception score(IS)。本文的方法要比 pix2pix[12] 和 PG^2[24] 具有更好的 SSIM 效能,至於 IS 效能,本文的方法要比 pix2pix 好一些,並且和 PG^2 有著相當的結果。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 4:僅僅將曲棍球擊球手作為輸入的生成影像(GT 影像被保留)。在 Deepfashion 和 Market-1501 資料集上將本文的方法與 pix2pix[12] 進行比較。影像右側是從潛在外觀分佈中所得的取樣。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 5: 草圖著色:比較 pix2pix[12] 和本文的模型的生成能力,本文的模型是在實際影像上進行的訓練。任務是為鞋子和挎包的手繪草圖生成合理的外觀 [9]。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 6: Market-1501 資料集上的外觀轉換。外觀由左側底部的影像提供。yˆ(中間)是從頂部影像中自動提取,並向底部進行轉換。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 7: DeepFashion 資料集上外觀轉換的穩定性。每一行都是使用最左側影像的外觀資訊合成的,每一列都是對應於第一行的姿態的合成。需要注意的是,推理得到的外觀在很多視角上都是不變的。

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

圖 8:影像轉換與 PG^2 的比較。左側:Market 資料集上的結果。右側:DeepFashion 資料集上的結果。外觀是從條件影像中推理得到的,姿態是從目標影像中推理的得到的。要注意,本文的方法不需要關於人物身份的標籤。

論文:A Variational U-Net for Conditional Appearance and Shape Generation(用於條件式生成外貌和形狀的變分 U-Net)

CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

論文連結:https://arxiv.org/abs/1804.04694

深度生成模型在影像合成領域展現了優異的效能。然而,由於它們是直接生成目標的影像,而沒有對其本質形狀和外觀之間的複雜相互影響進行建模,所以在空間轉換時就會存在效能退化。我們針對形狀指導影像生成提出了條件 U-Net,將變分自編碼器輸出的外觀條件化。這個方法在影像資料集上進行端到端的訓練,不需要同一個物體在不同的姿態或者外觀下的取樣。實驗證明,這個模型能夠完成條件影像生成和轉換。所以,查詢影像的外觀或者形狀能夠被保留,同時能夠自由地改變未被保留的另一個。此外,在保留形狀的時候,由於外觀的隨機潛在表徵,它可以被取樣。在 COCO、 DeepFashion,、shoes、 Market-1501 以及 handbags 資料集上進行的定性和定量實驗表明,我們的方法比目前最先進的方法都有所提升。CVPR 2018 Spotlight論文:變分U-Net,可按條件獨立變換目標的外觀和形狀

相關文章