論文連結:https://arxiv.org/abs/1806.07755
摘要:評估生成對抗網路(GAN)本質上非常有挑戰性。本論文重新討論了多個代表性的基於樣本的 GAN 評估指標,並解決了如何評估這些評估指標的問題。我們首先從一些使指標生成有意義得分的必要條件開始,比如區分真實物件和生成樣本,識別模式丟棄(mode dropping)和模式崩塌(mode collapsing),檢測過擬合。經過一系列精心設計的實驗,我們對現有的基於樣本的指標進行了綜合研究,並找出它們在實踐中的優缺點。基於這些結果,我們觀察到,核最大均值差異(Kernel MMD)和 1-最近鄰(1-NN)雙樣本檢驗似乎能夠滿足大部分所需特性,其中樣本之間的距離可以在合適的特徵空間中計算。實驗結果還揭示了多個常用 GAN 模型行為的有趣特性,如它們是否記住訓練樣本、它們離學到目標分佈還有多遠。
1 引言
生成對抗網路(GAN)(Goodfellow et al., 2014)近年來得到了廣泛研究。除了生成驚人相似的影象(Radford et al., 2015; Larsen et al., 2015; Karras et al., 2017; Arjovsky et al., 2017; Gulrajani et al., 2017),GAN 還創新性地應用於半監督學習(Odena, 2016; Makhzani et al., 2015)、影象到影象轉換(Isola et al., 2016; Zhu et al., 2017)和模擬影象細化(Shrivastava et al., 2016)等領域中。然而,儘管可用的 GAN 模型非常多(Arjovsky et al., 2017; Qi, 2017; Zhao et al., 2016),但對它們的評估仍然主要是定性評估,通常需要藉助人工檢驗生成影象的視覺保真度來進行。此類評估非常耗時,且主觀性較強、具備一定誤導性。鑑於定性評估的內在缺陷,恰當的定量評估指標對於 GAN 的發展和更好模型的設計至關重要。
或許最流行的指標是 Inception Score(Salimans et al., 2016),它使用外部模型即谷歌 Inception 網路(Szegedy et al., 2014)評估生成影象的質量和多樣性,該模型在大規模 ImageNet 資料集上訓練。一些其他指標雖然應用沒有那麼廣泛,但仍然非常有價值。Wu et al. (2016) 提出一種取樣方法來評估 GAN 模型的對數似然,該方法假設高斯觀測模型具備固定的方差。Bounliphone et al. (2015) 提出使用最大均值差異(MMD)進行 GAN 模型選擇。Lopez-Paz & Oquab (2016) 使用分類器雙樣本檢驗方法(一種統計學中得到充分研究的工具),來評估生成分佈和目標分佈之間的差異。
儘管這些評估指標在不同任務上有效,但目前尚不清楚它們的分數在哪些場景中是有意義的,在哪些場景中可能造成誤判。鑑於評估 GAN 非常有難度,評估評估指標則更加困難。大部分已有研究嘗試通過展示這些評估指標和人類評估之間的關聯性來證明它們的正當性。但是,人類評估有可能偏向生成樣本的視覺質量,忽視整體分佈特徵,而後者對於無監督學習來說非常重要。
這篇論文綜合回顧了有關基於樣本的 GAN 定量評估方法的文獻。我們通過精心設計的一系列實驗解決了評估評估指標的難題,我們希望藉此回答以下問題:(1)目前基於樣本的 GAN 評估指標的行為合理特徵是什麼?(2)這些指標的優缺點有哪些,以及基於此我們應該優先選擇哪些指標?實驗觀察表明 MMD 和 1-NN 雙樣本檢驗是最合適的評估指標,它們能夠區分真實影象和生成影象,對模式丟棄和崩塌較為敏感,且節約算力。
最後,我們希望這篇論文能夠對在實踐環境中選擇、解釋和設計 GAN 評估指標構建合適的原則。所有實驗和已檢驗指標的原始碼均已公開,向社群提供現成工具來 debug 和改進他們的 GAN 演算法。
原始碼地址:https://github.com/xuqiantong/GAN-Metrics
圖 1:基於樣本的典型 GAN 評估方法。
2.2 基於樣本的距離度量
我們主要關注於基於樣本的評估度量,這些度量方法都遵循圖 1 所示的一般設定。度量計運算元是 GAN 中的關鍵因素,本論文簡要介紹了 5 種表徵方法:Inception 分數(Salimans et al., 2016)、Mode 分數(Che et al., 2016)、Kernel MMD(Gretton et al., 2007)、Wasserstein 距離、Fréchet Inception 距離(FID,Heusel et al., 2017)與基於 1-最近鄰(1-NN)的雙樣本測試(Lopez-Paz & Oquab, 2016)。所有這些度量方法都不需要知道特定的模型,它只要求從生成器中獲取有限的樣本就能逼近真實距離。
Inception 分數可以說是文獻中採用最多的度量方法。它使用一個影象分類模型 M 和在 ImageNet(Deng et al., 2009)上預訓練的 Inception 網路(Szegedy et al., 2016),因而計算:
其中 p_M(y|x) 表示由模型 M 在給定樣本 x 下預測的標籤分佈,
即邊緣分佈 p_M(y|x) 在概率度量 P_g 上的積分。p_M(y|x) 上的期望和積分都可以通過從 P_g 中取樣的獨立同分布(i.i.d.)逼近。更高的 IS 表示 p_M(y|x) 接近於點密度,這隻有在當 Inception 網路非常確信影象屬於某個特定的 ImageNet 類別時才會出現,且 p_M(y) 接近於均勻分佈,即所有類別都能等價地表徵。這表明生成模型既能生成高質量也能生成多樣性的影象。Salimans et al. (2016) 表示 Inception 分數與人類對影象質量的判斷有相關性。作者強調了 Inception 分數兩個具體的屬性:1)KL 散度兩邊的分佈都依賴於 M;2)真實資料分佈 P_r 甚至是其樣本的分佈並不需要使用。
Mode 分數是 Inception 分數的改進版。正式地,它可以通過下式求出:
其中
為在給定真實樣本下邊緣標註分佈在真實資料分佈上的積分。與 Inception 分數不同,它能通過 KL(p_M(y) || p_M(y*))散度度量真實分佈 P_r 與生成分佈 P_g 之間的差異。
Kernel MMD(核最大均值差異)可以定義為:
在給定一些固定的和函式 k 下,它度量了真實分佈 P_r 與生成分佈 P_g 之間的差異。給定分別從 P_r 與 P_g 中取樣的兩組樣本,兩個分佈間的經驗性 MMD 可以通過有限樣本的期望逼近計算。較低的 MMD 表示 P_g 更接近與 P_r。Parzen window estimate (Gretton et al., 2007) 可以被視為 Kernel MMD 的特例。
P_r 與 P_g 分佈之間的 Wasserstein 距離(推土機距離)可以定義為:
其中 Γ(Pr, Pg) 表示邊緣分佈分別為 Pr 與 Pg 的所有聯合分佈(即概率耦合)集合,且 d(x^r, x^g) 表示兩個樣本之間的基礎距離。對於密度為 pr 與 pg 的離散分佈,Wasserstein 距離通常也被稱為推土機距離(EMD),它等價於解最優傳輸問題:
該式表示實踐中 WD(P_r, P_g) 的有限樣本逼近。與 MMD 相似,Wasserstein 距離越小,兩個分佈就越相似。
Fréchet Inception 距離(FID)是最近由 Heusel et al. (2017) 引入並用來評估 GAN 的度量方法。對於適當的特徵函式φ(預設為 Inception 網路的卷積特徵),FID 將 φ(P_r) 和 φ(P_g) 建模為高斯隨機變數,且其樣本均值為 µ_r 與 µ_g、樣本協方差為 C_r 與 C_g。兩個高斯分佈的 Fréchet 距離(或等價於 Wasserstein-2 距離)可通過下式計算:
1-最近鄰分類器用於成對樣本檢驗以評估兩個分佈是否相同。給定兩組樣本
,我們可以計算在 S_r 和 S_g 上進行訓練的 1-NN 分類器的留一(LOO)準確率,其中 S_r 全部標註為正樣本、S_g 全部標註為負樣本。與常用的準確率不同,但|S_r|=|S_g|都非常大時,1-NN 分類器應該服從約為 50% 的 LOO 準確率,這在兩個分佈相匹配時能夠達到。當 GAN 的生成分佈過擬合真實取樣分佈 Sr 時,LOO 準確度將低於 50%。在理論上的極端案例中,如果 GAN 記憶住 Sr 中的每一個樣本,並精確地重新生成它,即在 S_g=S_r 時,準確率將為零。因為 Sr 中的每一個樣本都將有一個來自 S_g 的最近鄰樣本,它們之間的距離為零。1-NN 分類器成對樣本檢驗族,理論上任意二元分類器都能採用這種方法。我們只考慮 1-NN 分類器,因為它不需要特殊的訓練並只需要少量超引數調整。
Lopez-Paz & Oquab (2016) 認為 1-NN 準確率主要作為成對樣本檢驗的統計量。實際上,將其分為兩個類別來獨立地分析能獲得更多的資訊。例如典型的 GAN 生成結果,由於 mode collapse 現象,真實和生成影象的主要最近鄰都是生成影象。在這種情況下,真實影象 LOO 1-NN 準確率可能會相對較低(期望):真實分佈的模式通常可由生成模型捕捉,所以 Sr 中的大多數真實樣本週圍都充滿著由 Sg 生成的樣本,這就導致了較低的 LOO 準確率;而生成影象的 LOO 準確度非常高(不期望的):生成樣本傾向於聚集到少量的模式中心,而這些模式由相同類別的生成樣本包圍,因此會產生較高的 LOO 準確率。
3 GAN 評估指標實驗
圖 2:從真實影象和 GAN 生成影象的混合集合中區分出真實影象。對於有判別力的指標,其分數應該隨著混合集合中 GAN 生成樣本數量增加而增加。RIS 和 RMS 失敗了,因為在 LSUN 上它們的分數隨著 S_g 中的 GAN 生成樣本數量增加而減少。在畫素空間中 Wasserstein 和 1-NN accuracy (real) 也失敗了,因為它們的分數沒有增加反而下降了。
圖 3:模擬模式崩塌實驗。指標分數應該增加,以反映隨著更多模式向聚類中心崩塌真實分佈和生成分佈之間的不匹配。所有指標在卷積空間中都作出了正確的響應。而在畫素空間中,Wasserstein distance 和 1-NN accuracy (real) 失敗了,因為它們的分數沒有增加反而下降了。
圖 4:模擬模式丟棄實驗。指標分數應該增加,以反映隨著更多模式丟棄真實分佈和生成分佈之間的不匹配。所有指標(除了 RIS 和 RMS)都作出了正確的響應,因為在幾乎所有模式都丟棄時它們仍然有輕微的上升。
圖 5:關於每個指標對小量變換(旋轉和平移)的魯棒性的實驗。所有指標應該對真實影象和變換後的真實樣本保持不變,因為變換不會改變影象語義。所有指標都在卷積空間中作出了正確的響應,但不是畫素空間。該實驗證明畫素空間中距離的不適應性。
圖 6:不同指標在樣本數作為 x 軸的函式上的分數。完美指標應該帶來 real-real
和 real-fake
曲線之間的巨大差距,以利用盡可能少的樣本區分真實分佈和偽分佈。與 Wasserstein 距離相比,MMD 和 1-NN accuracy 判別真實影象和生成影象所需的樣本量更少,而 RIS 在 LSUN 上完全失敗,因為其在生成影象上的分數甚至優於(低於)真實影象。
圖 8:檢測生成樣本過擬合的實驗。隨著更多的生成樣本與訓練集中的真實樣本重疊,驗證得分和訓練得分之間的差距應該增加至訊號過擬合(signal overfitting)。所有指標的行為都是正確的,除了 RIS 和 RMS,因為這兩個的分數不會隨著重疊樣本數量的增加而增加。
4 討論和結論
基於以上分析,我們可以總結這六個評估指標的優勢和本質缺陷,以及它們在什麼條件下可以生成有意義的結果。使用部分指標,我們能夠研究過擬合問題(詳見 Appendix C)、在 GAN 模型上執行模型選擇,並基於精心挑選的樣本對比不同模型(詳見 Appendix D),無需使用人類評估。
Inception Score 展示出生成影象的質量和多樣性之間的合理關聯,這解釋了其在實踐中廣泛應用的原因。但是,它在大部分情況下並不合適,因為它僅評估 P_g(作為影象生成模型),而不是評估其與 P_r 的相似度。一些簡單的擾動(如混入來自完全不同分佈的自然影象)能夠徹底欺騙 Inception Score。因此,它可能會鼓勵模型只學習清晰和多樣化影象(甚至一些對抗噪聲),而不是 P_r。這也適用於 Mode Score。此外,Inception Score 無法檢測過擬合,因為它無法使用留出驗證集。
Kernel MMD 在預訓練 ResNet 的特徵空間中執行時,效能驚人地好。它總是能夠識別生成/噪聲影象和真實影象,且它的樣本複雜度和計算複雜度都比較低。鑑於這些優勢,即使 MMD 是有偏的,但我們仍推薦大家在實踐中使用它。
當距離在合適的特徵空間中進行計算時,Wasserstein 距離的效能很好。但是,它的樣本複雜度很高,Arora 等人 2017 年也發現了這一事實。另一個主要缺陷是計算 Wasserstein 距離所需的實踐複雜度為 O(n^3),且隨著樣本數量的增加而更高。與其他方法相比,Wasserstein 距離在實踐中作為評估指標的吸引力較差。
Fréchet Inception Distance 在判別力、魯棒性和效率方面都表現良好。它是 GAN 的優秀評估指標,儘管它只能建模特徵空間中分佈的前兩個 moment。
1-NN 分類器幾乎是評估 GAN 的完美指標。它不僅具備其他指標的所有優勢,其輸出分數還在 [0, 1] 區間中,類似於分類問題中的準確率/誤差。當生成分佈與真實分佈完美匹配時,該指標可獲取完美分數(即 50% 的準確率)。從圖 2 中可以看到典型 GAN 模型對真實樣本(1-NN accuracy (real))的 LOO 準確率較低,而對生成樣本(1-NN accuracy (fake))的 LOO 準確率較高。這表明 GAN 能夠從訓練分佈中捕捉模型,這樣分佈在模式中心周圍的大部分訓練樣本的最近鄰來自於生成影象集合,而大部分生成影象的周圍仍然是生成影象,因為它們一起崩塌。該觀測結果表明模式崩塌問題在典型 GAN 模型中很普遍。但是,我們還注意到這個問題無法通過人類評估或廣泛使用的 Inception Score 評估指標來有效檢測到。
總之,我們的實證研究表明選擇計算不同指標的特徵空間至關重要。在 ImageNet 上預訓練 ResNet 的卷積空間中,MMD 和 1-NN accuracy 在判別力、魯棒性和效率方面都是優秀的指標。Wasserstein 距離的樣本效率較差,而 Inception Score 和 Mode Score 不適合與 ImageNet 差異較大的資料集。我們將釋出所有這些指標的原始碼,向研究者提供現成的工具來對比和改進 GAN 演算法。
基於這兩個主要指標 MMD 和 1-NN accuracy,我們研究了 DCGAN 和 WGAN(詳見 Appendix C)的過擬合問題。儘管人們廣泛認為 GAN 對訓練資料過擬合,但我們發現這隻在訓練樣本很少的情況下才會發生。這提出了一個關於 GAN 泛化能力的有趣問題。我們希望未來的研究能夠幫助解釋這一現象。