換個角度看GAN:另一種損失函式

機器之心發表於2019-01-02

選自Medium,作者:Phúc Lê,機器之心編譯,參與:張璽。

「本質上,GAN 就是另一種損失函式。」

Jeremy Howardf 老師曾在生成對抗網路(GAN)課程中說過:「……本質上,GAN 就是另一種損失函式。」

本文將在適合的相關背景下討論上面的觀點,並向大家闡述 GAN 這種「學得」(learned)損失函式的簡潔優美之處。

首先,我們先介紹相關背景知識:

從函式逼近的角度看神經網路

在數學中,我們可以把函式當做機器,往機器中輸入一或多個數字,它會相應地生成一或多個數字。

換個角度看GAN:另一種損失函式

將函式比作「機器」或「黑箱」。(圖源:https://www.wikiwand.com/en/Function_%28mathematics%29)

如果我們能夠用數學公式表示函式,這很好。可如果大家不能或尚未想明白如何將想要的函式寫成一系列加減乘除(譬如分辨輸入是貓影象還是狗影象的函式)又該如何呢?

如果無法用公式表達,那我們能否至少逼近函式呢?

神經網路來拯救我們了。萬能逼近定理表明,一個具有充足隱藏單元且足夠大的神經網路可以計算「任何函式」。

換個角度看GAN:另一種損失函式

具備 4 個隱藏單元的簡單神經網路逼近塔型函式。(圖源:http://neuralnetworksanddeeplearning.com/chap4.html)

神經網路的顯式損失函式

掌握神經網路後,我們就可以構建一個神經網路以逐步逼近上文所述的貓狗分類函式,而無需顯式地表達該分類函式。

為了獲得更好的函式逼近能力,神經網路首先需要知道其當前效能有多差。計算神經網路誤差的方式被稱為損失函式。

目前已經有很多損失函式,對於損失函式的選擇依賴於具體任務。然而,所有損失函式具有一個共同特性──它必須能以精確的數學表示式表示損失函式。

  • L1 損失(絕對誤差):用於迴歸任務

  • L2 損失(平方誤差):與 L1 類似,但對於異常值更加敏感

  • 交叉熵誤差:通常用於分類任務

  • Dice 損失 (IoU) :用於分割任務

  • KL 散度:用於衡量兩種分佈之間的差異

  • ……

關於神經網路逼近特性的好壞,損失函式承擔著十分重要的作用。對於神經網路構建人員來說,針對具體任務去理解和選擇恰當的損失函式是最重要的技能。

目前,設計更好的損失函式也是活躍度極高的研究領域。譬如,論文《Focal Loss for Dense Object Detection》介紹了一種名為「Focal loss」的新型損失函式,用於解決單階段目標檢測模型的不平衡性。

顯式損失函式的侷限

前文所述的損失函式在分類、迴歸及影象分割等任務中的表現相當不錯,而針對輸出具有多模態分佈的情況,則效果堪憂。

以黑白圖片著色任務為例。

換個角度看GAN:另一種損失函式

L2 損失函式的思考過程。(圖源:https://youtu.be/8881p8p3Guk?t=2971)
  • 輸入是黑白色的鳥,真實影象是相同的藍色的鳥。

  • 採用 L2 損失函式計算模型的輸出顏色與真實影象的畫素級差異。

  • 接下來,輸入是與剛才實驗相似的一隻黑白色的鳥;真實影象是一隻相同的紅色的鳥。

  • L2 損失函式試圖最小化模型的輸出顏色與紅色的差異。

  • 基於 L2 損失函式的反饋,模型已學習出一隻相似的鳥,但模型應該輸出一種與紅色及藍色都接近的顏色。模型會怎麼做?

  • 模型會輸出一種黃色的鳥,這是最小化紅色與藍色距離的最安全選擇,即便模型在訓練過程中從未觀察到一隻黃色的鳥。

  • 由於實際上沒有黃色鳥,所以你知道模型不夠逼真。

換個角度看GAN:另一種損失函式

基於均方差預測的下一幀影象非常模糊。(圖源:https://arxiv.org/pdf/1605.08104.pdf)

這種均化效應在許多例項中會導致非常糟糕的結果。以預測視訊下一幀任務為例,下一幀的可能性非常多,你想要的是能輸出「其中某一幀」的模型。但是,如果採用 L2 或 L1 訓練模型,模型將平均所有可能結果,生成一張十分模糊的均化影象。

GAN 作為新的損失函式

首先,你並不知道複雜函式的精確數學表示式(比如函式的輸入是一組數字,輸出是一張狗狗的逼真影象),所以你使用神經網路逼近此函式。

神經網路需要損失函式告知它目前效能的好壞,但沒有任何顯式損失函式能夠很好的完成此項工作。

嗯,要是有一種既無需顯式數學表示式,又能夠直接逼近神經網路損失函式的方法,該多好。譬如神經網路?

所以,如果我們用神經網路模型替代顯式損失函式,將會怎樣?恭喜,你發現了 GAN。

通過下面的 GAN 架構和 Alpha-GAN 架構,你能觀察地更清晰。如圖,白色框代表輸入,粉色框和綠色框代表你想構建的網路,藍色框代表損失函式。

換個角度看GAN:另一種損失函式

GAN 架構。(圖源:http://efrosgans.eecs.berkeley.edu/CVPR18_slides/VAE_GANS_by_Rosca.pdf)

換個角度看GAN:另一種損失函式

Alpha-GAN 架構。(圖源:http://efrosgans.eecs.berkeley.edu/CVPR18_slides/VAE_GANS_by_Rosca.pdf)

在原版 GAN 中僅有一種損失函式——判別器網路 D,其自身就是另一種神經網路。

而在 Alpha-GAN 中,模型有 3 種損失函式:輸入資料的判別器 D、用於已編碼潛變數的潛碼判別器 C,以及傳統畫素級 L1 損失函式。其中,D 和 C 並不是顯式損失函式,而只是其近似──神經網路。

梯度

如果將判別器(同樣也是神經網路)作為損失函式來訓練生成器網路(與 Alpha-GAN 的編碼器),那麼用什麼損失函式來訓練判別器呢?

判別器的任務是區分真實資料分佈與生成資料分佈。用監督方式訓練判別器時,標籤可隨意使用,所以採用二元交叉熵等顯式損失函式訓練判別器就很簡單。

但由於判別器是生成器的損失函式,這代表判別器的二元交叉熵損失函式的累積梯度同樣會被用於更新生成器網路。

觀察 GAN 中的梯度變化,就非常容易發現改變其軌跡的新思路。如果顯式損失函式的梯度無法在兩個神經網路間(判別器和生成器)迴流,卻可以在三個神經網路間迴流,那麼它能被應用在何處?如果梯度無法通過傳統損失函式迴流,卻可在這些神經網路之間直接來回呢?從基本原理出發,我們很容易發現未被探索的路徑以及未被解答的問題。

結論

通過傳統損失函式與神經網路的整合,GAN 使將神經網路作為損失函式來訓練另一神經網路成為可能。兩個神經網路間的巧妙互動使得深度神經網路能夠解決一些先前無法完成的任務(如生成逼真影象)。

將 GAN 本質上視為一種學得的損失函式,我希望這篇文章能夠幫助大家理解 GAN 的簡潔和力量。

換個角度看GAN:另一種損失函式

原文連結:



相關文章