優化GAN的分佈的梯度問題,WGAN

MAR-Sky發表於2020-12-22

參考資料:http://blog.csdn.net/sallyxyl1993/article/details/64123922
     https://baijiahao.baidu.com/s?id=1580024390078548003&wfr=spider&for=pc
     https://sherlockliao.github.io/2017/06/20/gan_math/
     http://blog.csdn.net/u011534057/article/details/52840788
     https://zhuanlan.zhihu.com/p/25071913
注意:(由於符號是擷取不同的圖片,不同的兩種表示兩種分佈情況)

經典的GAN網路簡介

最初的目標函式
引數含義:
在這裡插入圖片描述
在這裡插入圖片描述
對目標函式的變換:(先將G固定)
在這裡插入圖片描述
上式中,由於在G固定的情況下,訓練D對真實資料判斷的最大值。而z分佈通過固定的G之後會被對映到x的分佈中,但有些不在x分佈中,則它的概率就是0,所以公式的後半部分就簡化為z能夠對映到x的範圍中的計算。
在這裡插入圖片描述在這裡插入圖片描述

若想得到D的最大值這得到上式的最大值,如第二個式子的形式的最大值,通過求導為0可以得到最大值為:a/(a+b),及在G固定的情況下,目標函式最大值是:
在這裡插入圖片描述
當最優的判別器確定後,若想得到最好的G,則兩個分佈相同時,也就是pdata(x)=pg(x)=0.5,判別式可轉換為如下所示,

在這裡插入圖片描述
由於常數的均值不變,則C(G) = -log 4,及最優的情況下目標函式值,也是在D確定的情況下,G的最小值。在沒有達到最優的G時,可以將上式提出一個-log 4,通過變化得到下面的式子(參考:https://blog.csdn.net/stalbo/article/details/79283399):
在這裡插入圖片描述
在這裡插入圖片描述
在這裡插入圖片描述
又知道JS散度的計算公式
在這裡插入圖片描述
可將上面的式子最終化簡為,
在這裡插入圖片描述

目標函式的問題

參考:https://www.zhihu.com/question/315253041/answer/877635189
對於前面提到的目標函式的最優解:
在這裡插入圖片描述
以及當D為最優時的G的目標函式
在這裡插入圖片描述
下面是KL散度的公式,兩中分佈(P,Q)可能出現多種情況,
在這裡插入圖片描述
P和Q無重合分佈點,這生成器分佈Q(x)=0,此時,KL的散度無意義,JS散度會成為一個常數。下面是二維平面資料分佈的幾種情況,

在這裡插入圖片描述
在實際中,分佈的情況是多維的,而上圖中只是二維,可以想象一下三維空間的兩個平面的分佈設為(F1,F2),這時的分佈的重合範圍就是一條線,相比與整個分佈來說可以忽略,如果到更高維的分佈則重合部分的比重會更少。也就是**JS散度是常數log 2,此時,梯度下降法的梯度為0 。**而且當D無線接近最優解時,生成器的梯度消失越嚴重,則訓練越困難。

重新定義的目標函式

在這裡插入圖片描述
其中lb是指log 2,結合前面提到的演算法,該式子可以轉換為
在這裡插入圖片描述
在這裡插入圖片描述
其中式10,要求兩個分佈的概率相同,但式11,要求兩個分佈不一樣,這中情況下不可能得到最優解。當對單一條件得到最優解:
只是滿足式子10時,
在這裡插入圖片描述
這個說明生成了最真實的樣本,但沒有多樣性,生成正確重複的樣本,也不會生成多樣性樣本,就是模式崩潰。

只是滿足式子11時,
在這裡插入圖片描述
該情況下,樣本生成的隨機性較強,但沒能生成真實樣本。

Wasserstein距離又叫Earth-Mover(EM)距離

比較普遍的解釋就是移動圖堆或搬磚的方式,通過調整現有的分佈將生成網路的分佈調整到對應的真實分佈一樣。
在這裡插入圖片描述

在這裡插入圖片描述
上圖,有點兒怪,但可以理解為兩個特殊分佈,一個分佈在x=θ處,一個分佈在x=0處,會得到如下關係
在這裡插入圖片描述
其中,W是一個平滑的目標值,即使兩個分佈完全無交集,也有合理的度量

相關文章