Wasserstein GAN

Candy_GL發表於2018-07-21

原文網址 : https://blog.csdn.net/candy_gl/article/details/81146068

轉自：https://blog.csdn.net/shadow_guo/article/details/56003908

來自Martin Arjovsky 100 等人的“Wasserstein GAN”。

1. 簡介

本文關心的問題為無監督學習問題。學習11個概率分佈意味著什麼？傳統的回答：學習概率密度。常通過定義密度(Pθ)θ∈Rd(Pθ)θ∈Rd的引數化（parameterized）簇，並找到最大化我們資料上似然的引數來完成：若有真實資料樣本{x(i)}mi=1{x(i)}i=1m，求解問題：

maxθ∈Rd1m∑i=1mlogPθ(xi)maxθ∈Rd1m∑i=1mlogPθ(xi)

真實資料的分佈PrPr給出概率密度，而PθPθ為引數化的概率密度PθPθ，那麼，學習概率密度漸近等於最小化Kullback-Leibler散度KL(Pr||Pθ)KL(Pr||Pθ)。
為使其有意義，需存在模型密度PθPθ。但這並不是常見的處理低維流形支撐的模型流形，且意味著KL距離未被定義（或只是無窮大）。
一般可對模型分佈新增噪聲項來補救。所以，經典機器學習文獻中，幾乎所有的生成模型都包括噪聲項。最簡單的情況：為覆蓋所有樣本，假設較高頻寬的高斯噪聲。眾所周知，如影象生成模型，新增噪聲會降低樣本質量，並會模糊影象。如（最近的文章 [22]）：最大似然生成影象中每個畫素時，對模型所新增噪聲，噪聲的最優標準差大約為0.10.1，此時已歸一化畫素範圍至[0,1][0,1]。噪聲巨大，以至於文章作者給出模型生成的樣本時，未在似然上新增噪聲項。換言之，影象生成問題上，新增噪聲項顯然不正確，但仍需用最大似然方法。

不再估計可能不存在的PrPr密度，可定義有固定分佈p(z)p(z)的隨機變數ZZ，傳入11個參函式（parametric function）gθ:Z→Xgθ:Z→X（典型為一神經網路），參函式按確定的分佈PθPθ來直接生成樣本。改變θθ，使模型分佈PθPθ接近真實資料分佈PrPr。有兩點好處：

該方法可表示受低維流形限制的分佈；
易生成樣本比了解密度的數值更有用（如影象超解析度和語義分割中，給定輸入影象，考慮輸出影象的條件分佈）。

總之，給定任意高維的密度，計算上難以生成樣本 [15] 。

變分自編碼器（VAEs） [9] 和生成的對抗網路（GANs）[4] 為參函式生成影象方法的範例。VAEs近似樣本的似然，所以，受限標準模型，需耐心調整額外的噪聲項；GANs定義目標函式（包括Jensen-Shannon [4]，所有ff散度 [16] 及奇異的（exotic）合併 [6]）時更靈活，另一方面，眾所周知，GANs的訓練微妙且不穩定，原因見理論研究 [1]。

本文轉而關注用不同的方法來度量模型分佈接近真實分佈的程度，或者說，定義距離或散度ρ(Pθ,Pr)ρ(Pθ,Pr)。不同距離間主要區別是它們對概率分佈序列收斂的影響。當且僅當存在分佈P∞P∞，使ρ(Pt,P∞)ρ(Pt,P∞)趨於00時，分佈(Pt)t∈N(Pt)t∈N收斂，此時完全取決於距離ρρ的定義。通俗地說，距離ρρ引入更弱的拓撲，使分佈序列更易收斂。第22節澄清概率距離在收斂上的不同。

當ρρ下的收斂序列集為ρ′ρ′下的收斂序列集的超集時，ρρ引入的拓撲弱於ρ′ρ′引入的拓撲。

為優化引數θθ，當然希望定義的模型分佈PθPθ可使對映θ→Pθθ→Pθ連續。連續性意味著當引數序列θtθt收斂至θθ時，分佈PθtPθt也收斂至分佈PθPθ。然而，分佈序列PθtPθt收斂取決於如何計算分佈間的距離。距離越弱，分佈序列越易收斂，因此越易定義從θθ空間到PθPθ空間的連續對映。考慮對映θ→Pθθ→Pθ連續是因為：若ρρ為兩分佈間的距離，希望損失函式θ→ρ(Pθ,Pr)θ→ρ(Pθ,Pr)連續，等價於使用分佈ρρ間的距離時，對映θ→Pθθ→Pθ連續。

本文的貢獻有：

第22節，全面地理論分析學習分佈時，相比流行的概率距離和散度，推土機距離（Earth Mover distance）的表現。
第33節，定義一種GAN，稱其為Wasserstein-GAN。有效合理地近似EM距離，最小化EM距離。並理論上顯示對應的優化問題可靠。
第44節，經驗上顯示WGANs解決了GANs主要的訓練問題。特別地，（i）訓練WGANs不要求小心平衡生成器和判別器的訓練；（ii）不要求小心設計網路結構；（iii）顯著減少GANs中典型的模式減少（mode dropping）現象；（iv）訓練判別器至最優來連續估計EM距離；（v）繪製學習曲線有助除錯和超引數搜尋，並與觀測到的影象質量緊密關聯。

2. 不同的距離

標記介紹。令XX為緊度量集（如影象空間[0,1]d[0,1]d）101，並令ΣΣ為XX所有Borel子集的集合。令Prob(X)Prob(X)為定義在XX上的概率度量空間。

樣本方差不為00，所以為Borel子集 102 。

定義22個分佈Pr,Pg∈Prob(X)Pr,Pg∈Prob(X)間基本的距離和散度：

全變差（Total Variation，TV）距離
σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.σ(Pr,Pg)=supA∈Σ|Pr(A)−Pg(A)|.
Kullback-Leibler（KL）距離 103
KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),KL(Pr||Pg)=∫log(Pr(x)Pg(x))Pr(x)dμ(x),

其中，假設PrPr和PgPg絕對連續，關於定義在XX上用相同的度量μμ輸出密度。KL散度不對稱，且當存在點使Pg(x)=0且Pr(x)>0Pg(x)=0且Pr(x)>0時，KL散度可能為無窮大。

概率分佈Pr∈Prob(X)Pr∈Prob(X)輸出關於μμ的概率密度pr(x)pr(x)，即，∀A∈Σ,Pr(A)=∫APr(x)dμ(x)∀A∈Σ,Pr(A)=∫APr(x)dμ(x)，當且僅當Pr(x)Pr(x)關於μμ絕對連續，即，∀A∈Σ,μ(A)=0→Pr(A)=0∀A∈Σ,μ(A)=0→Pr(A)=0。

Jensen-Shannon（JS）距離

JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),JS(Pr,Pg)=12KL(Pr||Pm)+12KL(Pg||Pm),

其中，Pm=Pr+Pg2Pm=Pr+Pg2。JS散度對稱，且可選μ=Pmμ=Pm，此時JS散度總有定義（defined）。
推土機（Earth-Mover，EM）距離

W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)W(Pr,Pg)=infγ∈∏(Pr,Pg)E(x,y)∼γ[||x−y||],(1)

其中，∏(Pr,Pg)∏(Pr,Pg)為所有聯合分佈γ(x,y)γ(x,y)的集合，它的邊緣分佈分別為PrPr和PgPg。直觀上看，γ(x,y)γ(x,y)表明：為轉移分佈PrPr至分佈PgPg，必須從xx到yy來轉移多少“質量”。那麼，EM距離為最優傳輸計劃（optimal transport plan）的“代價”。

EM距離求下確界，即至少要轉移多少“質量”。所以，原文中，作者用“must”描述。

後面舉例說明用EM距離來收斂概率分佈序列多簡單，但上面定義的其它距離和散度無法收斂。

例1 （學習平行線）。令Z∼U[0,1]Z∼U[0,1]（單位區間上的均勻分佈）。令P0P0為(0,Z)∈R2(0,Z)∈R2的分佈（xx軸上為00，yy軸上為隨機變數ZZ，經過原點的垂直線段上的均勻分佈）。令gθ(z)=(θ,z),θgθ(z)=(θ,z),θ為單個實引數。此時有：

W(P0,Pθ)=|θ|,W(P0,Pθ)=|θ|,
JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,JS(P0,Pθ)={log2,if θ≠0,0,if θ=0,
KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,KL(Pθ||P0)=KL(P0||Pθ)={+∞,if θ≠0,0,if θ=0,
σ(P0||Pθ)={1,if θ≠0,0,if θ=0.σ(P0||Pθ)={1,if θ≠0,0,if θ=0.

已知：P0={1,if x=0,0≤y≤1,0,otherwise.P0={1,if x=0,0≤y≤1,0,otherwise., Pθ={1,if x=θ,0≤y≤1,0,otherwise.Pθ={1,if x=θ,0≤y≤1,0,otherwise.
θ≠0θ≠0時，
KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)KL(P0||Pθ)=∑x,y∈R2P0(x,y)logP0(x,y)−∑x,y∈R2P0(x,y)logPθ(x,y)=0log0+1log1−(1log0+0log1)=0+0−(−∞)+0=+∞=KL(Pθ||P0)
θ=0θ=0時，
KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0KL(P0||Pθ)=KL(P0||P0)=0log0+1log1=0

已知：Pm=Pr+Pg2=⎧⎩⎨0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.Pm=Pr+Pg2={0.5,if x=0,0≤y≤1,0.5,if x=θ,0≤y≤1,0,otherwise.，JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)JS(P0||Pθ)=12KL(P0||Pm)+12KL(Pθ||Pm)
θ≠0θ≠0時，
KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2KL(P0||Pm)=0log0+1log1−(1log0.5+0log0.5+0log0)=log2=KL(Pθ||Pm)→JS(P0||Pθ)=log2
θ=0θ=0時，
KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0KL(P0||Pm)=KL(P0||P0)=0→JS(P0||Pθ)=0

本例的兩條線段相距θ，||x−y||≡θ→θ，||x−y||≡θ→ 兩條線段間距離的期望的下確界為θθ。

P0P0和PθPθ表示概率分佈，範圍為[0,1]→|P0−Pθ|[0,1]→|P0−Pθ|的上確界為11（θ≠0θ≠0時）或00（θ=0θ=0時）。

當θ→0θ→0時，EM距離使序列(Pθt)t∈N(Pθt)t∈N收斂至P0P0，但用JS，KL，逆KL或TV散度時不會收斂。圖11為EM距離和JS距離。

例11說明EM距離上梯度下降可學到低維流形上的概率分佈。不可用其它距離，因它們的損失函式甚至不連續。即使該例基於不相交支集的分佈，當支集非空但包含00測度集時，結論同樣成立。當22個低維以任意位置相交時 [1]，碰巧也成立。
因Wasserstein距離比JS距離更弱，問題變成：溫和假設下，W(Pr,Pθ)W(Pr,Pθ)是否為關於θθ的連續損失函式。

定理 1. 令PrPr為XX上的固定分佈。令ZZ為另11個空間ZZ上的隨機變數（如：高斯分佈空間）。令g:Z×Rd→Xg:Z×Rd→X為11個函式。用zz作第11個座標，θθ作第22個座標來表示gθ(z)gθ(z)。令PθPθ為gθ(z)gθ(z)的分佈。那麼，
1. 若gg在θθ上連續，W(Pr,Pθ)W(Pr,Pθ)在θθ上也連續。
2. 若gg為區域性Lipschitz，並滿足規則假設11，則W(Pr,Pθ)W(Pr,Pθ)處處連續，幾乎處處可微。
3. 對JS散度和所有KL散度，宣告1−21−2為假。

證明見附錄CC。

後面推論告訴我們：用神經網路來最小化EM距離（至少理論上）可行。

推論 1. 令gθgθ為任意用θθ引數化的前向神經網路，且p(z)p(z)為zz上的先驗，使得Ez∼p(z)[||z||]<∞Ez∼p(z)[||z||]<∞（如，高斯分佈，均勻分佈等）。則滿足假設11，因此，W(Pr,Pθ)W(Pr,Pθ)處處連續，幾乎處處可微。

證明見附錄CC。

所有這些說明：對我們的問題，至少與JS散度相比，EM距離作損失函式更合理。後面定理描述這些距離和散度引入拓撲的相對強度：KL最強，緊隨JS和TV，EM最弱。

推論 2. 令PP為緊空間XX上的分佈，且(Pn)n∈N(Pn)n∈N為XX上的分佈序列。那麼，當n→0n→0時，考慮所有的限制，
1. 下面宣告等價
- σ(Pn,P)→0σ(Pn,P)→0，σσ為全變差距離；
- JS(Pn,P)→0JS(Pn,P)→0，JSJS為Jensen-Shannon散度。
2. 下面宣告等價
- W(Pn,P)→0W(Pn,P)→0；
- Pn⟶DPPn⟶DP，其中，⟶D⟶D表示關於隨機變數的分佈的收斂。
3. KL(Pn||P)→0KL(Pn||P)→0或KL(P||Pn)→0KL(P||Pn)→0隱含（imply）宣告(1)(1)。
4. 宣告(1)(1)隱含宣告(2)(2)。

證明見附錄CC。

這裡強調的事實：學習低維流形支撐的分佈時，KL，JS和TV距離為不合理的損失函式。但此時EM距離卻合理：

EM距離可使概率序列收斂至真實資料的概率分佈，其它距離不可收斂；
EM距離的損失函式連續，可用梯度下降學習低維流形上的概率分佈；其它距離的損失函式不連續；
EM距離引入的拓撲相對強度最弱。

3. Wasserstein GAN

定理22指出，W(Pr,Pθ)W(Pr,Pθ)可能比JS(Pr,Pθ)JS(Pr,Pθ)有更好的屬性。(1)(1)中的下確界很難解。
另一方面，由Kantorovich-Rubinstein二重性（duality） [21] 知

W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)W(Pr,Pθ)=sup||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)](2)

其中，上確界覆蓋所有11-Lipschitz函式f:X→Rf:X→R。注意到，若替換||f||L≤1||f||L≤1為||f||L≤K||f||L≤K（考慮常數KKde KK-Lipschitz），則EM距離變為K⋅W(Pr,Pθ)K⋅W(Pr,Pθ)。因此，若有參函式簇{fw}w∈W{fw}w∈W，對某些KK，參函式都為KK-Lipschitz，考慮求解：

maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)maxw∈WEx∼Pr[fw(x)]−Ez∼p(z)[fw(gθ(z))](3)

且對某些w∈Ww∈W（類似證明估計器一致性時的假設的一強假設），當獲得(2)(2)中的上確界時，求解過程計算出的W(Pr,Pθ)W(Pr,Pθ)能達到乘常數KK。進一步，考慮估計Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反傳方程(2)(2)來求導W(Pr,Pθ)W(Pr,Pθ)。雖這全是直覺，現在證明最優假設下該過程是有原則的（principled）。

定理 3. 令PrPr為任意分佈。令PθPθ為gθ(Z)gθ(Z)的分佈（ZZ為隨機變數，該分佈的概率密度為pp，gθgθ為滿足假設11的函式）。那麼，對問題

max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]max||f||L≤1Ex∼Pr[f(x)]−Ex∼Pθ[f(x)]

存在解f:X→Rf:X→R，當PrPr和PθPθ都為良定時，有：

∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]∇θW(Pr,Pθ)=−Ez∼p(z)[∇θf(gθ(z))]

證明見附錄CC。

接著，最大化方程(2)(2)來找函式ff。為近似求解ff，用緊空間XX中的權重ww來引數化一神經網路，訓練該網路。然後，同典型的GAN，用Ez∼p(z)[∇θfw(gθ(z))]Ez∼p(z)[∇θfw(gθ(z))]反傳。注意到WW緊緻，則對某些僅取決WW（而非個別網路權重）的KK，所有函式fwfw將為KK-Lipschitz。因此，近似(2)(2)至一無關的縮放因子和“評價者”（critic）fwfw的容量。為使引數ww落入緊空間，每次梯度更新後夾緊權重至固定的範圍即可（假設W=[−0.01,0.01]lW=[−0.01,0.01]l）。方法11描述Wasserstein生成對抗網路（WGAN）過程。

方法1

注：“評價者”和“判別器”應是一回事，我更習慣用GAN框架來說明，所以後面統一用“判別器”替換“評價者”。原作者用兩個不同的詞，考慮到後面比較GAN判別器（判別器）和WGAN判別器（評價者）時便於說明。所以，這裡，WGAN與GAN比較時，將“評價者”替換為“WGAN判別器”；無比較時，仍用“判別器”。
θθ為生成網路的引數，決定生成模型的分佈與真實資料分佈的距離；ww為判別網路的引數，最大化EM距離損失函式來獲得最優判別網路的引數。

EM距離處處連續，且幾乎處處可微，所以應該能訓練判別器至最優。引數簡單，訓練判別器的時間越長，得到的EM距離的梯度越可靠。

判別器越好，JS散度的梯度越可靠。但會因JS散度區域性飽和，真實梯度為00，梯度消失，見圖11和 [1] 中定理2.42.4。

圖22中，為證明這點，訓練GAN判別器和WGAN判別器至最優。GAN判別器很快學會區分真偽資料，同期望一樣，並未提供可靠的梯度資訊。然而，WGAN判別器不飽和，收斂至線性函式並處處給出很明確的梯度；約束梯度限制了函式，使其可能在空間不同部分至多線性增長。

訓練WGAN判別器至最優不會破壞（collapse）模式。固定判別器來找最優生成器是指使判別器輸出最大值的點上變數增量的和 [11]。

後面介紹新方法的實際效益，深入比較WGAN與傳統GAN。

4. 經驗結果

用Wasserstein-GAN方法生成影象，相比標準GANs，有顯著的實際效益，主要有兩點：

有意義的損失度量：關聯生成器的收斂性和樣本質量；
優化過程更穩定。

4.1 實驗過程

生成影象實驗。真實資料分佈為LSUN-臥室資料集 [23] - 室內臥室自然影象的集合。基線比較為DCGAN，DCGAN用−logD−logD，標準的GAN過程訓練一卷積網路結構的GAN。生成樣本為解析度64×6464×64的33通道影象。

4.2 有意義的損失度量

因每次生成器更新前（方法11的行1010），WGAN試圖訓練出相對較好的WGAN判別器ff（方法11的行2−82−8），此時損失函式為估計EM距離，上界為某常數，該常數與我們約束ff的Lipschitz常數有關。

實驗11表明估計EM距離與生成樣本密切相關。除卷積的DCGAN結構，用44層ReLU-MLP（每層包含512512個隱含單元）只替換生成器或同時替換生成器和判別器來執行實驗。

圖33為33種結構的WGAN訓練時，估計的EM距離的變化。該圖清楚顯示，曲線與生成樣本的視覺質量密切相關。

然而，還不能定量評估生成模型。常數縮放因子取決於WGAN判別器的結構，所以，不同的WGAN判別器模型間難以比較。甚至，實際上判別器容量有限，所以，難以瞭解真實的EM距離與估計的EM距離多接近。可話說回來，用該損失度量重複且成功驗證了實驗，相比之前GAN的訓練能力有巨大的提高。

相反，圖44為GAN訓練時，估計的JS散度的變化。更確切地，GAN訓練時，訓練判別器來最大化：

L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]L(D,gθ)=Ex∼Pr[logD(x)]+Ex∼Pθ[log(1−D(x))]

注：x∼Prx∼Pr時，xx為真實樣本，希望D(x)↑D(x)↑；x∼Pθx∼Pθ時，xx為生成樣本，希望D(x)↓D(x)↓。

其中，L(D,gθ)L(D,gθ)的下界為2JS(Pr,Pθ)−2log22JS(Pr,Pθ)−2log2。圖中，值12L(D,gθ)+log212L(D,gθ)+log2為JS距離的下界。

JS距離的下界與樣本質量關係很差。估計的JS距離通常保持不變或上升（而非下降）。實際上，JS估計值常保持為接近log2≈0.69log2≈0.69（JS距離的最大值）。換句話說，JS距離飽和，GAN判別器損失為00，某些情況下（DCGAN生成器，右上圖）生成樣本有意義，其它情況下被破壞為無意義影象。該現象的理論解釋見 [1]，強調見 [11]。

用−logD−logD時，判別器損失與生成器損失不同。附錄的圖88繪製相同的圖，但用生成器損失（而非判別器損失）。結論不變。

負面結果：當對WGAN判別器用基於動量的優化方法（如Adam）或用很高的學習率時，訓練WGAN會偶爾不穩定。因WGAN判別器的損失並非穩態，基於動量的方法可能會表現更糟。因損失爆炸和生成樣本變差時，Adam步與梯度的餘弦角變為負值，所以動量可能為潛在的原因。訓練不穩定時，餘弦角必為負值。很不平穩時，改用RMSProp效果不錯。

4.3 改善穩定性

可訓練WGAN判別器至最優。訓練判別器時，僅需為生成器提供訓練其它網路時所用到的損失。不再需合理均衡生成器和判別器的容量。判別器越好，訓練生成器所用梯度的質量越高。

改變生成器的結構時，WGAN比其它GANs更魯棒。為此，33個不同的生成器結構上執行實驗：（1）卷積DCGAN生成器；（2）卷積DCGAN生成器，不帶塊歸一化，濾波器數目不變；（3）512512個隱含單元組成的44層ReLU-MLP。後面22中用GANs表現很差。所以，為WGAN判別器和GAN判別器保留卷積DCGAN結構。
圖55，圖66和圖77顯示用到WGAN和GAN時，33種結構生成的樣本。整頁的生成樣本見附錄FF。樣本未經優選。

圖5，6，7

實驗中，從未見過用WGAN時模式被破壞。

5. 相關工作

積分概率度量（Integral Probability Metric，IPMs）上有很多工作。給定從XX到RR的函式集合，定義

dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)dF(Pr,Pθ)=supf∈FEx∼Pr[f(x)]−Ex∼Pθ[f(x)](4)

為關聯函式類FF的積分概率度量。易證對任意f∈Ff∈F，有−f∈F−f∈F，則dFdF為非負，滿足三角不等式，且對稱。因此，dFdF為Prob(X)Prob(X)的偽距離。
IPMs可能公式相似，但不同的函式類會得到完全不同度量。

由Kantorovich-Rubinstein對偶可知，當FF為1−Lipschitz1−Lipschitz函式集合時，W(Pr,Pθ)=dF(Pr,Pθ)W(Pr,Pθ)=dF(Pr,Pθ)。進一步，若FF為K−LipschitzK−Lipschitz函式，則K⋅W(Pr,Pθ)=dF(Pr,Pθ)K⋅W(Pr,Pθ)=dF(Pr,Pθ)。
當FF為所有−1−1到11之間的可測量函式（或所有[−1,1][−1,1]上的連續函式）時，恢復為全變差距離：dF(Pr,Pθ)=σ(Pr,Pθ)dF(Pr,Pθ)=σ(Pr,Pθ) [14]。這告訴我們損失函式從1−Lipschitz1−Lipschitz函式變至1−1−有界函式，大大改變了空間的拓撲和dF(Pr,Pθ)dF(Pr,Pθ)的正則性（regularity）（見定理11和定理22）。
-可認為基於能量的GANs（EBGANs）是用全變差距離的生成方法。附錄DD中宣告和進一步證明這一關聯,關鍵為判別器作為函式ff來最大化方程44，唯一的限制是對常數mm，函式輸出約束在[0,m][0,m]。取決於無關優化的常數縮放因子，同樣可約束至[−1,1][−1,1]。因此，當判別器接近最優時，生成器的代價將逼近全變差距離σ(Pr,Pθ)σ(Pr,Pθ)。
因全變差距離與JS散度的正則性相似，可看出，無論是否能訓練判別器至最優，EBGANs與經典的GANs問題相同，因此它的梯度也很不完美。
當F={f∈H:||f||inf≤1}F={f∈H:||f||inf≤1}（其中，HH為關聯給定核kk的再生核Hilbert空間（Reproducing Kernel Hilbert Space，RKHS），核kk：X×X→RX×X→R）時，最大均值矛盾（Maximum Mean Discrepancy，MMD）[5] 為積分概率度量的特殊情況。如 [5] 中所證，MMD只是個合適的度量，且當核通用時不僅是偽度量。具體地，當H=L2(X,m)H=L2(X,m)時，XX上用歸一化Lebesgue度量FF，可知FF中包含{f∈Cb(x),||f||∞≤1}{f∈Cb(x),||f||∞≤1}，因此dF(Pr,Pθ)≤σ(Pr,Pθ)dF(Pr,Pθ)≤σ(Pr,Pθ)。所以，以MMD距離為損失函式的正則性與全變差距離的正則性同樣差。然而這是非常極端的例子，因為需要很強大的核來近似L2L2。但即使高斯核也僅能檢測微小的噪聲模式 [19]。尤其當使用低頻寬的核時，距離可能接近類似全變差距離或JS距離的飽和方法。顯然不需要每個核都如此，弄清不同MMDs如何及哪些更接近Wasserstein距離或全變差距離也很有趣。
MMD的優勢為用核方法後無需為RKHS球空間來訓練單獨的網路來最大化方程(4)(4)。然而，MMD的劣勢為計算代價隨用於估計(4)(4)中期望的樣本數目二次增長；MMD可伸縮性有限，因此無法用於許多現實應用。線性計算代價估計ＭＭＤ距離大多時候會很有用，但樣本複雜度太高。
生成矩匹配網路（Generative Moment Match Nework，GMMD）類似MMD。反傳方程(4)(4)的核化形式，直接優化dMMD(Pr,Pθ)dMMD(Pr,Pθ)（當FF為前面項時的IPM，見P12）。如前所述，不要求單獨的網路來近似最大化方程(4)(4)。然而，GMMNs應用有限，部分原因是樣本數目的函式為二次代價，用低頻寬核時梯度會消失。並且實際用到的一些核不適合如自然影象等高維樣本空間中獲得的距離非常差。[18]　中表明，為讓典型的高斯MMD測試可靠，需樣本數目與維度數目線性增長。估計方程(4)(4)中時用的塊，MMD的計算代價與樣本數目二次增長。有可靠的估計器的代價與維度數目二次增長，不適用高維問題。如64×6464×64大小的標準影象，所需小塊的大小至少40964096（不考慮　[18]　邊界中的常數，使樣本數目更多）,且每次迭代的總代價為4096240962。當用標準的塊大小64×6464×64時，比11次GAN迭代多55個數量級。
話雖如此，比較MMDs的理論樣本複雜度和GANs的經驗樣本複雜度時（一般會更高），對MMD不公平。然而，原GMMN文章中用到的小塊大小為10001000，遠大於標準的3232或6464（即使出現二次計算代價時）。儘管存線上性計算代價作樣本數目的函式，樣本複雜度仍更高。就我們所知，生成領域尚未應用GMMNs。

6. 結論

介紹WGAN，可替換傳統GAN的訓練。新模型中，提高了學習的穩定性，克服了模式被破壞等問題，並提供方便除錯和超引數搜尋的學習曲線。進一步，顯示對應的優化問題合理，併為分佈間其它距離的深入關聯提供理論工作。

全文未經他人校正，如有問題歡迎指出。

7. 小記

並不是數學出身，但後面的證明還是看了。考慮到最近賊忙以及附錄部分的編輯量，所以先忘了它吧… 但附錄部分如有問題歡迎討論。嗯，共同進步… ٩(๑òωó๑)۶

Wasserstein GAN and the Kantorovich-Rubinstein Duality
2024-07-26
更快更穩定：這就是Wasserstein GAN
2018-11-20
令人拍案叫絕的 Wasserstein GAN，徹底解決GAN訓練不穩定問題
2018-07-20
ICML 2017大熱論文：Wasserstein GAN | 經典論文復現
2018-10-31
當支援向量機遇上神經網路：這項研究揭示了SVM、GAN、Wasserstein距離之間的關係
2020-09-02
神經網路
PyTorch 實戰：計算 Wasserstein 距離
2019-03-19
PyTorch
「GAN優化」GAN訓練的小技巧
2019-10-19
優化
GAN入門
2022-01-30
李弘毅老師GAN筆記（三），Unsupervised Conditional GAN
2018-07-31
筆記
GAN網路從入門教程（二）之GAN原理
2020-07-05
能量視角下的GAN模型：GAN＝“挖坑”＋“跳坑”
2019-02-12
模型
「GAN優化」詳解SNGAN(頻譜歸一化GAN)
2019-08-27
優化
解讀生成對抗網路（GAN）之U-GAN-IT
2020-08-05
能量視角下的GAN模型（二）：GAN＝“分析”＋“取樣”
2019-02-20
模型
李巨集毅GAN學習（四）GAN的基本理論
2018-12-27
Wasserstein Generative adversarial Networks (WGANs) 學習WGAN資料彙總
2020-11-19
GAN實戰筆記——第一章GAN簡介
2021-10-18
筆記
「GAN優化」如何選好正則項讓你的GAN收斂
2019-09-26
優化
BAIR提出MC-GAN，使用GAN實現字型風格遷移
2018-03-27
AI
GAN生成影象綜述
2019-05-13
GAN生成影像綜述
2019-05-13
利用NAS尋找最佳GAN：AutoGAN架構搜尋方案專為GAN打造
2019-10-07
架構
GAN 論文大彙總
2019-03-04
GAN訓練技巧彙總
2020-10-21
CNN，GAN，AE和VAE概述
2019-03-03
CNN
優於VAE，為萬能近似器高斯混合模型加入Wasserstein距離
2018-07-07
模型
「GAN優化」從動力學視角看GAN是一種什麼感覺？
2019-08-28
優化
谷歌開源的 GAN 庫–TFGAN
2019-03-01
谷歌
日月光華的gan小例子
2020-09-28
pytorch訓練GAN時的detach()
2020-11-09
PyTorch
關於GAN的個人理解
2019-02-11
簡單使用PyTorch搭建GAN模型
2021-08-25
PyTorch模型
白話生成對抗網路 GAN，50 行程式碼玩轉 GAN 模型！【附原始碼】
2018-07-31
行程模型原始碼
GAN實戰筆記——第五章訓練與普遍挑戰：為成功而GAN
2022-03-03
筆記
GAN實戰筆記——第三章第一個GAN模型：生成手寫數字
2022-02-21
筆記模型
關於GAN的靈魂七問
2019-04-12
使用 GAN 生成新的遊戲角色
2019-02-20
遊戲
論文解讀（GAN）《Generative Adversarial Networks》
2022-02-03

Wasserstein GAN

1. 簡介

2. 不同的距離

3. Wasserstein GAN

4. 經驗結果

5. 相關工作

6. 結論

7. 小記

相關文章