[Paper Reading] DDIM: DENOISING DIFFUSION IMPLICIT MODELS

fariver發表於2024-03-12

名稱

DDIM DENOISING DIFFUSION IMPLICIT MODELS

TL;DR

這篇文章介紹了一種名為去噪擴散隱式模型(Denoising Diffusion Implicit Models, DDIMs)的新型生成模型,它是基於去噪擴散機率模型(DDPMs)的改進版本。DDIMs旨在加速DDPMs的取樣過程,透過引入非馬爾可夫鏈的擴散過程來實現更高效的樣本生成。文章展示了DDIMs在影像生成任務中的優越效能,包括更快的生成速度、更好的樣本質量和支援潛在空間的語義插值。

Method

主要貢獻

引入非馬爾可夫鏈的正向擴散過程,允許模型在更少的步驟中生成樣本。
證明了非馬爾可夫鏈的變分目標與DDPMs的目標在數學上是等價的,這意味著可以使用相同的訓練目標來訓練DDIMs。

DDIM取樣過程

主要差別在於只有特定步驟加入隨機方差,不加入隨機方差的狀態轉移可以合併到相鄰的取樣,從而加速生成過程,即取樣過程使用reverse process的子序列也能生成合理的樣本。

Q:如何直觀理解DDIM相對於DDPM取樣過程可以加速?

從DDPM訓練過程來看,給定各階段alpha、原圖X0以及取樣時刻t,那麼訓練Loss也就確定了,所以訓練過程以某個時刻狀態進行訓練,並不是一定要依賴於相鄰時刻的狀態。並且,訓練過程Loss可以將多步高斯噪聲取樣的馬爾可夫鏈合併成一個高斯噪聲取樣,那麼推理時也可以做中間某幾步的取樣合併,從而減少取樣步數,加速生成速度。

Q:如何直觀理解DDIM相對於DDPM可插值屬性變強?

假如DDIM每一步取樣都不加高斯方差那項,那麼生成過程就變成由潛空間隨機噪聲一步生成影像,語義上連貫性要比生成過程中間增加多步高斯噪聲干擾要更好。

From kimichat FromChatGPT(提示詞:為什麼說DDIM生成影像的過程允許語義上的插值呢?) DDIM(Denoising Diffusion Implicit Models)生成影像的過程允許語義上的插值,主要是因為其生成過程是基於潛在空間的確定性對映,而不是基於隨機取樣。以下是DDIM能夠支援語義插值的關鍵特性:

潛在空間的連續性:DDIM的生成過程透過潛在空間進行,這個空間是由模型在學習資料分佈時隱式定義的。由於生成過程是確定性的,潛在空間中的點與資料特徵之間存在連續的對映關係。這意味著在潛在空間中移動時,生成的影像會平滑地過渡,保持語義上的連貫性。

高階特徵的保留:DDIM在訓練過程中學習到了資料的高階特徵,這些特徵在潛在空間中被編碼。由於生成過程是確定性的,當在潛在空間中進行插值時,這些高階特徵得以保留,從而生成的影像在語義上與原始影像相似。

非馬爾可夫鏈的結構:DDIM使用的非馬爾可夫鏈結構允許模型在生成過程中跳過一些中間狀態,直接從噪聲狀態轉移到接近最終資料分佈的狀態。這種結構使得模型能夠在潛在空間中進行有效的插值,而不需要逐步模擬整個擴散過程。

生成過程的可控性:由於DDIM的生成過程是確定性的,研究者可以精確控制生成的每一步,包括插值的過程。這種可控性使得在潛在空間中的任何兩點之間進行插值都能夠產生有意義的結果,而不是依賴於隨機性。

訓練目標的一致性:DDIM在訓練過程中使用的是與DDPM相同的變分目標函式,這意味著模型已經學習瞭如何從潛在空間中的噪聲狀態恢復出清晰的資料。因此,即使在生成過程中進行插值,模型也能夠保持資料的語義資訊。

綜上所述,DDIM之所以能夠支援語義上的插值,是因為其生成過程在潛在空間中是連續和確定性的,能夠保留資料的高階特徵,並且允許精確控制生成的每一步。這些特性共同使得DDIM在生成影像時能夠進行語義上有意義的插值。

Experiment

  1. DDIMs在多個資料集上生成的影像質量優於DDPMs。
  2. DDIMs能夠在10到100倍的速度提升下保持或提高樣本質量。
  3. DDIMs還展示了在潛在空間中進行語義插值的能力,這是DDPMs所不具備的。

思考

其實在看DDPM訓練過程的推導應該可以聯想到生成過程可以使用類似的套路合併取樣次數。

相關連結

DDIM DENOISING DIFFUSION IMPLICIT MODELS
https://spaces.ac.cn/archives/9181

相關文章