2019 IJCNN之GAN(image transfer(face)):Attention-Guided Generative Adversarial Networks for Unsupervis

matlabLKL發表於2020-06-27

Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation

當前的問題及概述
通過GAN網路針對image-to-image translation任務目前只能轉換low-level特徵,而不能轉換high-level特徵,主要原因是生成器無法檢測出影像中最能體現語義的部分,從而導致生成的影像質量較差。
針對這一侷限性,本文提出了一種基於注意力引導的生成對抗網路(AGGAN),該網路可以在不使用額外資料和模型的情況下,檢測出最具辨識性的語義物件,並將不需要的部分變化最小化。AGGAN中的注意導向發生器通過內建的注意機制產生attention mask,然後將輸入影像與注意遮罩融合,得到高質量的目標影像。此外,本文還提出了一種新的只考慮被關注區域的注意力引導鑑別器。
在這裡插入圖片描述
上圖左邊是cycleGAN、DualGAN等框架,右邊是本文所提出的AGGAN,AGGAN的生成器可以通過內建的注意模組生成attention mask(Mx和My),然後將生成的attention mask和content mask與輸入影像混合,得到目標影像。此外,我們還提出了兩種僅考慮被關注區域的注意導向鑑別器DXA和DYA。
模型及loss
AGGAN:
在這裡插入圖片描述
2.1注意力指導的Generator:
G部分分為兩個GX→Y:x→[My, Ry, Gy]和GY→X:y→[Mx, Rx, Gx],其中最終生成圖Gy:
在這裡插入圖片描述
attention mask My使面部肌肉變化的一些特定區域得到了更多的聚焦,將其應用到內容mask Ry上,可以生成動態區域清晰,靜態區域不清晰的影像。然後對靜態區域進行增強,使生成的影像與原始真實影像相似。
2.2注意力指導的Discriminator:
在鑑別器中增加註意力機制,使其只考慮被注意的區域。注意引導D在結構上與普通D相同,但以attention mask作為輸入,試圖區分偽影像對[My, Gy]和真實影像對[My, y]。
2.3 loss:
常用的GAN loss:
在這裡插入圖片描述
本文的注意力機制指導GAN loss:
在這裡插入圖片描述
Cycle loss:
在這裡插入圖片描述
Pixel loss(一次生成影像與輸入影像作l1 loss,雖然這個loss在本文中還是說的通,因為本文的任務是轉化影像人物表情,所以影像的大部分還是相似的,但對其他image-to-image還是不一定適用的):
在這裡插入圖片描述
Attention Loss:
在這裡插入圖片描述
Overall:
在這裡插入圖片描述
實驗
資料集:
Large-scale Celeb Faces Attributes (CelebA) dataset
RaFD dataset
AR Face
Bu3dfe
與其他框架比較:
在這裡插入圖片描述
在這裡插入圖片描述
消融實驗:
在這裡插入圖片描述在這裡插入圖片描述
總結
本文在以往以cycleGAN為主體的框架中加入了注意力指導機制和mask影像,在生成器和判別器中都加入了這兩點進行端對端訓練,同時還有的不同點是除了基礎的cycleGAN loss之外還使用了pixel loss和attention loss進行學習。

相關文章