傳說中的推土機距離基礎,最優傳輸理論瞭解一下

機器之心發表於2018-10-04

最優傳輸理論常以大量數學術語的形式出現,這會嚇跑我們當中的非數學家,不過與現代機器學習研究最相關的最優傳輸的理論部分通常是很直觀的。在第一篇文章中,作者將從確定性和概率性的角度闡述(Kantorovich)最優傳輸問題。可能很多讀者都是被 Wasserstein GAN 吸引而來的,作者會在該系列的後續文章中介紹 Wasserstein GAN,同時本文將介紹對偶最優傳輸問題,並論證 Kantorovich-Rubinstein 的對偶性,這是對抗方法的理論基礎。

最優傳輸問題

最優傳輸問題可以用一種非常直觀的形式來表述。例如:電商有 N 個儲存區域,同時 M 個訂購電子書閱讀器的客戶。假設第 n 個儲存區域 x_n 有 m_n 個閱讀器,第 k 個客戶 y_k 訂購 h_k 個閱讀器。傳輸代價 c(x,y) 是儲存區域 y 與客戶 x 之間的距離。最優傳輸問題就是要找到最合適的方式,將儲存區域中的所有閱讀器運送到訂購它們的客戶那裡。傳輸地圖Γ可以視為一個矩陣,矩陣的條目或元素Γ_nk 表示從第 n 個儲存區域傳送到第 k 個客戶的電子閱讀器數量。為了保持一致,離開第 n 個儲存區域的所有閱讀器總數必須等於在該區域中儲存的閱讀器總數,同時所有顧客收到的閱讀器總和必須等於顧客訂購的電子書閱讀器的數量。這是傳輸問題的硬性約束條件,具體公式如下:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

最後的約束條件是矩陣的元素必須為正值。在約束條件下使代價最小化的傳輸矩陣即為最優解 T hat。

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

在以上表示式中,我們假設從 x_n 到 y_k 運輸 L 個閱讀器的代價是運輸一個閱讀器的 L 倍。雖然這種假設在大多數實際傳輸問題中並不現實,因為傳輸代價並不會隨著傳輸數量的增加而線性增加。但是使用線性增長簡化這個問題可以得到一個高效有用的數學理論。

概率性最優傳輸

機器學習和統計學中,用概率項重新定義最優傳輸問題是很有效的。考慮兩個有限概率空間 (X,P) 和 (Y,Q),其中 X 和 Y 是有限集合,P 和 Q 是分別給各自集合的元素分配概率的概率函式。P 和 Q 間的最優傳輸就是使下列損失函式最小化的條件概率函式γ(y|x):

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

最小化上式需要服從以下的邊緣約束:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

這意味著聯合概率Γ(y|x)P(x) 的邊緣分佈是 Q(y)。換句話說,Γ(y_n|x_k) 將分佈 P(x) 傳輸為了 Q(y)。這種傳輸可以看做是一個將 x 作為輸入,以概率γ(y|x) 將 y 作為輸出的隨機函式。所以問題就是找到將概率分佈 P 轉換為概率分佈 Q 的隨機傳輸,同時使期望傳輸代價最小化。可以看出,這個問題在形式上和我在前一節介紹的確定性問題相同。傳輸矩陣Γ_nk 由Γ(y_n|x_k)P(x_k) 給出。這可以保證自動滿足第一個約束,但第二個約束仍然需要強制執行。

連續型公式

將概率性最優傳輸的定義延伸到連續型概率分佈是十分簡單的。可以用概率密度 p(x) 和 q(x) 替換概率分佈 P(x) 和 Q(x),再用積分求和來表達最優化過程:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

邊緣化約束類似變為:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

這種連續型最優傳輸問題會用一種稍微不同(在我看來不夠主觀)的形式引入。我會將聯合密度γ(y|x)p(x) 表示為γ(x,y)。這個問題便可如下表示為:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

加上兩個邊緣化約束得:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

最優傳輸散度

在許多情況下,最感興趣的不是最優傳輸路線。相反,我們感興趣的是使用最優傳輸代價作為兩個概率分佈間的統計散度。統計學散度是一個函式,它以兩個概率分佈作為輸入,輸出一個非負數值,該函式當且僅當兩個分佈相同時輸出為 0。統計學散度如 KL 散度被大量應用於統計和機器學習中,是測量兩個概率分佈差異的一種方式。統計學散度在統計機器學習的幾個最活躍的領域中起著核心作用,例如生成模型和變分貝葉斯推斷等。

最優傳輸散度和 Wasserstein 距離

最優傳輸散度定義為兩個概率分佈間的最優傳輸代價:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中優化過程常受到邊緣化約束。只要代價為非負,且對於所有 x 能保證 c(x,x) 代價為零,那該表示式就提供了有效散度。代價函式常常用歐氏距離平方來表示:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

利用歐氏距離作為代價函式,我們就會得到著名的(平方)2-Wasserstein 距離:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

W_2[p,q]^2 的平方根是概率分佈間合適的度量函式,因為它遵從三角不等式。對於大多數機器學習應用程式來說,使用合適的度量函式(如 Wasserstein 距離)代替其他最優傳輸散度並不重要,但這些新型度量函式可以簡化數學處理。

最後給定一個整數 k,則 k-Wasserstein 距離定義如下:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中||·||_k 表示 L_k 範數

對偶問題和 Wasserstein GAN

最優傳輸問題是線性規劃問題的一個特例,因為要優化的函式和約束都是傳輸圖的線性函式。線性規劃背後的原理可以追溯到上世紀初,這是數學優化的基石之一。線性規劃的一個最基本的結果是所有線性問題都存在對偶問題,且對偶解為原問題的解提供了上界。幸運的是,在最優傳輸的情況下,對偶問題的解不僅僅提供邊界,而且確實與原始問題的解相同。此外,最優傳輸問題的對偶公式是對抗演算法和 Wasserstein GAN 的出發點。最優傳輸散度的對偶公式如下所示:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中 L_c 是函式集合,且邊界限制在 c 之內:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

為什麼這個表示式和我在前邊章節裡給出的原始表示式等價呢?我會在接下來的文章裡證明這個結果,不過公式本身就很直觀。如果 p 和 q 相等,那它們在任意函式 f 中的期望差都為零,因此散度將消失。假設 p 和 q 在某些地方不同,則需要通過找期望差最大的函式 f 來確定散度。換句話說,f 就像是特徵檢測器,可以最大限度地提取 p 和 q 的差異性特徵。例如,假設 p 是純淨的天空,而 q 在天空中有一架飛機。在這種情況下,最優函式 f 將是飛機檢測器。從這個例子中你可以看到 f 如何在 Wasserstein GAN 中起到鑑別器的作用。注意,如果 f 中沒有任何限制,任何分佈中的微小差異都可以任意放大,散度將變為正無窮。

對偶性證明

為了證明對偶性,我們需要將原問題中的有約束優化重新表示為無約束優化。思考下面的優化:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中 f 可以是任意函式,減法左邊的項表示 f 在 p 下的期望值,右邊的項表示在邊緣分佈∫γ(x,y)dy 下的期望。如果滿足 p 的邊緣約束,則該表示式對於所有可能的 f 都為零,因為這兩個項是相同的。然而,如果不滿足約束,則對於兩個邊緣不同的值,可以將 x 的值 f 設為任意值,並且優化的結果將是無窮大。因此,將此形式的兩項新增到優化問題的損失函式中,將不會在滿足約束的情況下改變問題,但它將排除不滿足約束的所有解。還要注意左邊的項(∫f(x')p(x')dx')可以移項到右邊的期望積分裡面,因為引數的期望積分就是常數本身:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

現在我們可以使用約束條件修正損失函式

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

下一步要交換無窮大和上確界的順序。這可以通過 sion 極小極大定理來實現,因為損失函式在 f 和γ中都是線性的:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

其中:

傳說中的推土機距離基礎,最優傳輸理論瞭解一下

表示式右邊 f 的最優化可以轉為約束條件。事實上,如果對於所有 x 和 y 都有 l(x,y)≥0,那麼下確界為零,這種情況會將全部概率密度分配到 x = y 的子空間。相反,如果有一個區域 l(x,y)< 0,代價則和該區域密度同樣大。通過將這一項轉化為約束條件,我們就得到了最優傳輸問題的對偶形式。

原文連結:

https://www.mindcodec.com/an-intuitive-guide-to-optimal-transport-for-machine-learning/

相關文章