再次顛覆學界想象,何愷明發表新作:擴散模型不一定需要噪聲條件

机器之心發表於2025-02-21
一直以來,研究者普遍認為,去噪擴散模型要想成功執行,噪聲條件是必不可少的。

而大神何愷明的一項最新研究,對這個觀點提出了「質疑」。

「受影像盲去噪研究的啟發,我們研究了各種基於去噪的生成模型在沒有噪聲調節的情況下的表現。出乎我們意料的是,大多數模型都表現出了優美的退化,它們甚至在沒有噪聲條件的情況下表現得更好。」
截圖2025-02-20 09.18.25.png
  • 論文標題:Is Noise Conditioning Necessary for Denoising Generative Models?

  • 論文地址:https://arxiv.org/pdf/2502.13129

研究者對這些模型在無噪聲條件情況下的行為進行了理論分析。具體來說,他們研究了噪聲水平分佈中固有的不確定性、在沒有噪聲條件的情況下去噪所造成的誤差以及迭代取樣器中的累積誤差。綜合這些因素,提出了一個誤差邊界,該誤差邊界的計算無需任何訓練,完全取決於噪聲條件和資料集。

實驗表明,這個誤差邊界與所研究的模型的噪聲 - 無條件行為有很好的相關性,特別是在模型出現災難性失敗的情況下,其誤差邊界要高出幾個數量級。

由於噪聲 - 無條件模型很少被考慮,專門為這種未充分探索的情況設計模型是有價值的。為此,研究者從 EDM 模型中提出了一個簡單的替代方案。在沒有噪聲條件的情況下,該變體可以實現很強的效能,在 CIFAR10 資料集上的 FID 得分達到 2.23。這一結果大大縮小了噪聲 - 無條件系統與噪聲 - 條件系統之間的差距(例如,EDM 的 FID 為 1.97)。

關於未來,研究者希望消除噪聲條件將為基於去噪的生成模型的新進展鋪平道路,激勵業界重新審視相關方法的基本原理,並探索去噪生成模型領域的新方向。例如,只有在沒有噪聲條件的情況下,基於分數的模型才能學習到獨特的分數函式,並實現經典的、基於物理學的朗格文動力學。

對於這項新研究,有人評論稱:我們花了數年時間來完善噪聲條件技術,到頭來卻發現即使沒有噪聲條件,模型同樣能執行得很好。所以,科學其實就是利用額外數學的反覆試錯。
image.png
去噪生成模型的重構

研究者提出了一種可以總結各種去噪生成模型訓練和取樣過程的重構(reformulation),核心動機是隔離神經網路 NN_θ,從而專注於其在噪聲條件方面的行為。

首先來看去噪生成模型的訓練目標。在訓練期間,從資料分佈 p (x) 中取樣一個資料點 x,並從噪聲分佈 p (ϵ)(例如正態分佈 N (0, I))中取樣噪聲 ϵ。噪聲影像 z 由以下公式得出:
image.png
一般來說,去噪生成模型涉及最小化損失函式,該函式可以寫成:
image.png
現有幾種方法(iDDPM、DDIM、EDM 和 FM)的排程函式具體如下表 1 所示。值得注意的是,在研究者的重構中,他們關注的是迴歸目標 r 與神經網路 NN_θ 直接輸出之間的關係。
image.png
其次是取樣。給定訓練好的 NN_θ,取樣器迭代地進行去噪。具體來講,對於初始噪聲 x_0 ~ N (0, b (t_max)^2I),取樣器迭代地計算如下:
image.png
最後是噪聲條件網路。在現有方法中,神經網路 NN_θ(z|t) 以 t 指定的噪聲水平為條件,具體可以參見圖 1(左)。

同時,t-embedding 提供時間級資訊作為網路額外輸入。本文的研究涉及這種噪聲條件的影響,即考慮了 NN_θ(z) 和 NN_θ(z|t),參見圖 1(右)。
image.png
無噪聲條件模型

基於上述重構,研究者對消除噪聲條件的影響進行了理論分析,其中涉及到了訓練目標和取樣過程。他們首先分析了訓練階段的有效迴歸目標和單個去噪步驟中的誤差,然後給出了迭代取樣器中累積誤差的上限。

有效目標

形式上,最佳化公式 (2) 中的損失等同於最佳化以下損失,其中預期 E [・] 中的每個項都有對應的唯一有效目標:
image.png
對於無噪聲條件的有效目標,同樣地,如果網路 NN_θ(z) 不接受 t 作為條件,則其唯一的有效目標 R (z) 應該僅取決於Z。在這種情況下,損失為:
image.png
唯一有效目標如下:

image.png

後驗集中 p (t|z)

接下來,研究者探究了 p (t|z) 與狄拉克 δ 函式的相似度。對於影像等高維資料,人們早已意識到可以可靠地對噪聲水平進行估計,這意味著可以得到一個集中的 p (t|z)。

陳述 1:(p (t|z) 集中)。考慮單個資料點 x ϵ [-1, 1]^d,則 ϵ~(0, I),t~U [-0, 1] 以及 z = (1 - t) x + tϵ(流匹配情況)。給定一個由已有 t_⁎生成的噪聲影像 z = (1 - t_⁎) x + t_⁎ϵ,條件分佈 p (t|z) 下 t 的方差如下:

image.png

有效迴歸目標的誤差

使用 p (t|z),研究者探究了有效迴歸目標 R (z) 和 R (z|t) 之間的誤差。在形式上,考慮如下:
image.png
他們表明,方差 E (z) 明顯小於 R (z) 的範數。

陳述 2(有效迴歸目標的誤差)。考慮到陳述 1 中的場景以及流匹配情況,公式 (10) 中定義的誤差滿足如下:
image.png
取樣中的累積誤差

到目前為止,研究者關注到了單個迴歸步驟的誤差。而在去噪生成模型中,推理取樣器是迭代的,因而進一步研究了迭代取樣器中的累積誤差。

為了便於分析,研究者假設網路 NN_θ 足以擬合有效迴歸目標 R (z|t) 或 R (z)。在此假設下,他們將上面公式 (4) 中的 NN_θ 替換為 R。這就有了以下陳述 3:

陳述 3(累積誤差的上限)。考慮公式 (4) 中 N 個步驟的取樣過程,從相同的初始噪聲 x_0 = x’_0 開始。透過噪聲調節,取樣器計算如下:
image.png
而在無噪聲條件下,計算如下:
image.png
作為參考,EDM 設定為image.png,其中 σ_d 為資料標準差。由於圖片是應用於網路 NN_θ 的係數,因而研究者將其設定為常數以使該網路不用建模一個 t - 依賴尺度。在實驗中,這種簡單的設計表現出了比 EDM 更低的誤差上限(陳述 3),因而被命名為了 uEDM,它是無噪聲條件的縮寫。

實驗結果

研究者對各種模型的噪聲條件影響進行了實證評估:
  • 擴散:iDDPM、ADM、uEDM

  • 基於流的模型:此處採用了 Rectified Flow (1-RF)

  • 一致性模型:iCT ECM

下表 2 總結了不同生成模型中的 FID 變化情況,有或無噪聲調節分別用 “w/t ” 和 “w/o t ” 表示。
2025-02-20_093403.png
劃重點如下:

(i) 與通常的看法相反,噪聲條件並不是大多數基於去噪模型發揮作用的有利因素。大多數變體都能優雅地工作,表現出微小但適當的衰減(黃色);
(ii) 在去除噪聲條件後,一些基於流的變體可以獲得更好的 FID(綠色);
(ili) uEDM 變體在不使用噪聲條件的情況下實現了 2.23 的 FID,縮小了與噪聲條件方法的強基線的差距;
(iv) 與擴散模型相關但目標函式有很大不同的一致性模型,也可以表現得很優美;
(v) 在本文研究的所有變體中,只有「DDIM w/ ODEsampler*」會導致災難性失敗(紅色),FID 顯著惡化至 40.90。圖 5 (a) 展示了其定性表現:模型仍然能夠理解形狀和結構,但 「overshoot」或「undershoot」會產生過飽和或噪聲結果。
2025-02-20_093642.png
在圖 4 中,研究者根據經驗評估了在 100 步 ODE 取樣器下不同方法的陳述 3 中的誤差邊界。誤差邊界的計算只取決於每種方法的時間表和資料集。圖 4 也展示了理論邊界與經驗行為之間的緊密聯絡。具體來說,DDIM 的災難性失敗可以用其誤差邊界高出幾個數量級來解釋。另一方面,EDMFM 和 uEDM 在整個過程中的誤差邊界都很小。2025-02-20_093803.png
隨機性水平。在表 2 中,DDIM 只在確定性 ODE 取樣器中失敗;在 SDE 取樣器(即 DDPM 取樣器)中仍然表現良好。

如圖 6 所示,隨機性越大,FID 分數越高。當 λ=1 時,DDIM 的表現與 iDDP 類似。
image.png

相關文章