擴散模型、最優傳輸存在什麼關係?法國數學家4頁論文引網友圍觀

机器之心發表於2024-12-03

擴散模型和最優傳輸之間到底存在怎樣的聯絡?對很多人來說還是一個未解之謎。

但有一點很清楚的是:在相似的資料集上訓練的不同擴散模型傾向於恢復出相似的對映關係。

這就提出一個問題:如果這些對映關係不是最優傳輸(OT,Optimal Transport )對映,那麼它們到底在什麼意義上是最優呢?

2022 年,博科尼大學助理教授 Hugo Lavenant 與里昂第一大學教授 Filippo Santambrogio 合作,在論文《 THE FLOW MAP OF THE FOKKER-PLANCK EQUATION DOES NOT PROVIDE OPTIMAL TRANSPORT 》中探討了流模型在最優傳輸框架中的應用,並提供了一個反例,表明在某些情況下,流模型並不能實現最優傳輸。
圖片
論文地址:https://cvgmt.sns.it/media/doc/paper/5469/counterexample_flow_v3.pdf

在這篇文章的摘要部分,作者表示,Khrulkov 和 Oseledets 在先前研究中(論文:Understanding DDPM Latent Codes Through Optimal Transport)提出了一個猜想,該猜想認為透過積分 Fokker-Planck 方程的 Wasserstein 速度得到的 ODE 流,可以獲得一個最優傳輸對映。

然而,在 Kim 和 Milman 的論文中《A generalization of Caffarelli’s contraction theorem via (reverse) heat flow》,這一結果被認為是錯誤的,但沒有提供證明。Hugo Lavenant、Filippo Santambrogio 的這篇論文正好展示了 Khrulkov 和 Oseledets 所聲稱的結果不能成立。

但這篇文章過於晦澀難懂,全篇論文看下來幾乎都是推導公式且篇幅又長。

為此,法國數學家 Gabriel Peyré 在論文《 Diffusion models and Optimal Transport 》中給出了一個很好的概括,文章重述了 Hugo Lavenant 和 Filippo Santambrogio 關於簡潔證明的主要內容,即一般情況下,擴散模型不能定義最優傳輸對映。
圖片
圖片
地址:https://github.com/mathematical-tours/mathematical-tours.github.io/blob/971ddb3aab5803c7a4abef122f878292f6a6c25d/book-sources/diffusion-models/note-diffusion-ot.pdf

接下來,我們看看這篇文章講了什麼內容。

生成模型旨在在參考分佈 α(通常是各向同性高斯分佈)和資料分佈 β 之間構建傳輸對映 T。用 T♯α 表示 α 被 T 向前推進(如果 α 是由 Dirac 質量在 x_i 處構成的,那麼 T♯α 是由 Dirac 質量在 T(x_i)處構成的)。

因此,目標是找到 T,使得 T♯α = β 。很明顯,對於任何 β,這樣的對映總是存在的,但找到 T 的明確構造方法卻出奇地困難。

這裡有兩種標準方法,分別是最優傳輸和整合擴散過程的逆向積分伴隨的平流場。

最優傳輸

最優傳輸透過求解 Monge 問題求出 T:
圖片
1991 年,Brenier 著名定理表明這個對映是存在的,且是唯一的,並且可以寫成一個凸函式 T =∇φ 的梯度。根據質量守恆定律,即 T♯α = β ,等價於說 φ 解決了 Monge-Ampère 方程:
圖片
逆向 Flow Map

擴散模型需要考慮 β_0 = β 和 β_∞= α =N (0,Id) 之間的差值 β_t ,求解過程定義如下:
圖片
請注意,使用 y 來表示空間變數,因為演化是逆向進行的,即從資料 β 到後一個變數 α,它收斂於 β_∞= α。
圖片
將方程寫成離散形式:
圖片
這表明,如果已經計算出了 β_t,那麼這種演化可以根據向量場 v 演化粒子來獲得。
圖片
對映 S_t 就是 flow map :
圖片
逆向 Flow Map 不是最優傳輸

人們很自然地想知道逆向 Flow Map 圖片 是否是 (1) 的解。在一維情況下,S_t 定義微分同胚( diffeomorphism),因此圖片是單調的,圖片也是單調的。因此,它是凸函式的梯度,根據 Brenier 定理使其最優。如果 β 是高斯分佈,直到空間旋轉以使協方差對角化,則擴散對映由沿每個軸的單調對映定義,並且也是最優傳輸。

Lavenant 和 Santambrogio 透過矛盾證明,一般來說,逆向 flow map 並不是最優傳輸。他們構造了一個接近各向同性高斯 α 的 β,但他們沒有證明 β 的猜想是錯誤的,而是證明存在一些 t ≥ 0,使得從 α 到 β_t 的逆向 Flow Map T_t 不是最優傳輸。他們實際上表明,對於某些 t_0 > 0,T_t 並不是所有 t ∈ (0, t_0] 的最優傳輸。

用 S_t 表示從 β_0 = β 到 β_t 的 Flow Map。如果猜想成立,則從 α 到 β_t 的逆向 Flow Map T_t 是所有 t 的最優傳輸。根據 Flow Map 的構成規則,該 Map 為:
圖片
並且圖片目標是證明:如果 β 選擇得當(具體來說,非常接近 α,且特定的二階和四階對數密度導數為 0),那麼 T_t 是所有 t 的最優傳輸會導致矛盾。根據 Brenier 定理,T_t 是最優傳輸意味著它是凸函式的梯度,這相當於:
圖片
結合:
  • 對 (7) 對 t 求微分

  • 對流 ODE (4) 對 x 求微分

然後在 t = 0 時評估所獲得的方程,Hugo 和 Filippo 透過顯式計算表明,這會導致:
圖片
利用基本性質:A、B 對稱且 AB 對稱圖片則 (8) 意味著:
圖片
為了達到矛盾,假設 G (y) 和 H (y) 對於所有 y 都是可交換的。由於圖片並且 T 和 S 是逆最優傳輸對映,因此將圖片表示為 ψ 凸。Monge-Amp`ere 方程 (2) 意味著:
圖片
為了使 β 接近 α,請考慮:對於較小的 ε,
圖片
在泰勒級數中展開,經過一些計算:
圖片
著眼於 y = 0,目標是透過設計 h 來達到矛盾,使得圖片圖片不能交換。在 0 附近,h 必須至少是 4 次多項式。二維情況下的一個示例是:圖片
產生:
圖片

相關文章