深度學習《patchGAN》

星海千尋發表於2020-12-05

這一篇比較簡單,於是也就簡單學習下。

在以往的GAN學習中,判別器D網路的輸出是一個標量,介於0~1之間,代表是真實圖片的概率。

而patchGAN則是輸出是NxN的矩陣X,每一個元素x[i][j]表示一個patch,對應於影像的一個感受野,最後取各個patch部位的均值來表示最後總的來看是真實圖片的概率。

直觀上理解就可以了,普通GAN輸出一個數,像是一言堂,PatchGAN輸出一個矩陣,最終結果求平均,考慮到影像的不同部分的影響,就像考慮了多人的建議然後給出決定。

實際上,一些研究表明對於要求高解析度、高清細節的影像領域中,普通GAN判別器並不適合,由此引入了PatchGAN,它的感受域對於與輸入中的一小塊區域,也就是說,X[i][j]對應了判別器對輸入影像的一小塊的判別輸出,這樣訓練使模型更能關注影像細節。
在這裡插入圖片描述

1.這種機制,將區域性影像特徵和整體影像特性相融合,這樣的方法 通過每個patch 進行差別的判別, 實現了區域性影像特徵的提取和表徵, 有利於實現更為高解析度的影像生產;同時,對最後的 分類特徵圖進行平均後,也能夠實現真實圖片和虛假圖片的相比。

2.單標量輸出的更為精確的整體差異表示,相當於對整體進行加權求和平均,對於某些特徵差異大的區域性影像特徵, 能夠實現比傳統的 D網路 更為合理的 損失表示。

學到了這裡,發現很多GAN的設計都是可以糅合在一起,因為很多GAN都是部分結構上的設計的優化,因此可以組合起來形成更加強大的模型。

相關文章