2019 IJCNN之GAN(image transfer(face)):Attention-Guided Generative Adversarial Networks for Unsupervis
Attention-Guided Generative Adversarial Networks for Unsupervised Image-to-Image Translation
當前的問題及概述:
通過GAN網路針對image-to-image translation任務目前只能轉換low-level特徵,而不能轉換high-level特徵,主要原因是生成器無法檢測出影像中最能體現語義的部分,從而導致生成的影像質量較差。
針對這一侷限性,本文提出了一種基於注意力引導的生成對抗網路(AGGAN),該網路可以在不使用額外資料和模型的情況下,檢測出最具辨識性的語義物件,並將不需要的部分變化最小化。AGGAN中的注意導向發生器通過內建的注意機制產生attention mask,然後將輸入影像與注意遮罩融合,得到高質量的目標影像。此外,本文還提出了一種新的只考慮被關注區域的注意力引導鑑別器。
上圖左邊是cycleGAN、DualGAN等框架,右邊是本文所提出的AGGAN,AGGAN的生成器可以通過內建的注意模組生成attention mask(Mx和My),然後將生成的attention mask和content mask與輸入影像混合,得到目標影像。此外,我們還提出了兩種僅考慮被關注區域的注意導向鑑別器DXA和DYA。
模型及loss:
AGGAN:
2.1注意力指導的Generator:
G部分分為兩個GX→Y:x→[My, Ry, Gy]和GY→X:y→[Mx, Rx, Gx],其中最終生成圖Gy:
attention mask My使面部肌肉變化的一些特定區域得到了更多的聚焦,將其應用到內容mask Ry上,可以生成動態區域清晰,靜態區域不清晰的影像。然後對靜態區域進行增強,使生成的影像與原始真實影像相似。
2.2注意力指導的Discriminator:
在鑑別器中增加註意力機制,使其只考慮被注意的區域。注意引導D在結構上與普通D相同,但以attention mask作為輸入,試圖區分偽影像對[My, Gy]和真實影像對[My, y]。
2.3 loss:
常用的GAN loss:
本文的注意力機制指導GAN loss:
Cycle loss:
Pixel loss(一次生成影像與輸入影像作l1 loss,雖然這個loss在本文中還是說的通,因為本文的任務是轉化影像人物表情,所以影像的大部分還是相似的,但對其他image-to-image還是不一定適用的):
Attention Loss:
Overall:
實驗:
資料集:
Large-scale Celeb Faces Attributes (CelebA) dataset
RaFD dataset
AR Face
Bu3dfe
與其他框架比較:
消融實驗:
總結:
本文在以往以cycleGAN為主體的框架中加入了注意力指導機制和mask影像,在生成器和判別器中都加入了這兩點進行端對端訓練,同時還有的不同點是除了基礎的cycleGAN loss之外還使用了pixel loss和attention loss進行學習。
相關文章
- 論文解讀(GAN)《Generative Adversarial Networks》
- CIAGAN: Conditional Identity Anonymization Generative Adversarial Networks閱讀筆記IDE筆記
- Wasserstein Generative adversarial Networks (WGANs) 學習WGAN資料彙總
- 語音合成論文翻譯:2019_MelGAN: Generative Adversarial Networks for Conditional Waveform SynthesisORM
- 去噪論文 Attention-Guided CNN for Image DenoisingGUIIDECNN
- 映象批次遷移利器:image-transfer
- 論文閱讀 A Data-Driven Graph Generative Model for Temporal Interaction Networks
- [論文閱讀筆記] Adversarial Learning on Heterogeneous Information Networks筆記ORM
- 論文翻譯:2020_Generative Adversarial Network based Acoustic Echo Cancellation
- 遷移學習(DANN)《Domain-Adversarial Training of Neural Networks》遷移學習AI
- Call for Papers | IJCNN 2019 Special Section 徵稿通道開啟CNN
- IJCNN註冊流程CNN
- GAN網路從入門教程(二)之GAN原理
- 閱讀筆記:XGPT: Cross-modal Generative Pre-Training for Image Captioning筆記GPTROSAIAPT
- 【人臉偽造檢測後門攻擊】Imperceptible Face Forgery Attack via Adversarial Semantic Mask
- 解讀生成對抗網路(GAN) 之U-GAN-IT
- [論文閱讀] VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNITION
- Image Super-Resolution Using DeepConvolutional Networks論文閱讀筆記筆記
- Flutter之Text和ImageFlutter
- EJB設計模式之Data Transfer Object (轉)設計模式Object
- GAN網路之入門教程(三)之DCGAN原理
- Deep Inside Convolutional Networks: Visualising Image Classification Models and Saliency MapsIDE
- free Generative AI courses All In OneAI
- 參加2010IJCNN會議CNN
- 也談Hypertext Transfer Protocol中Transfer的譯法Protocol
- SciTech-BigDataAIML-LLM-Generative modelAI
- RAG-Multi-Modal-Generative-AI-AgentAI
- 「GAN優化」GAN訓練的小技巧優化
- 萬字綜述之生成對抗網路(GAN)
- Face Detection APIAPI
- 【機器學習】李宏毅——Flow-based Generative Models機器學習
- GAN入門
- 蘋果 Face ID 開放《iPhone X ARKit Face Tracking》蘋果iPhone
- LeetCode之Flipping an Image(Kotlin)LeetCodeKotlin
- 能量視角下的GAN模型:GAN=“挖坑”+“跳坑”模型
- WPF Image Image clip EllipseGeometry
- 【backdoor attack】 POISONED FORGERY FACE: TOWARDS BACKDOOR ATTACKS ON FACE FORGERY DETECTION
- 能量視角下的GAN模型(二):GAN=“分析”+“取樣”模型