Diffusion系列 - DDIM 公式推導 + 程式碼 -（三）

gaobowen發表於2024-10-10

原文網址 : https://www.cnblogs.com/gaobw/p/18456198

DENOISING DIFFUSION IMPLICIT MODELS (DDIM)

從DDPM中我們知道，其擴散過程(前向過程、或加噪過程)被定義為一個馬爾可夫過程，其去噪過程(也有叫逆向過程)也是一個馬爾可夫過程。對馬爾可夫假設的依賴，導致重建每一步都需要依賴上一步的狀態，所以推理需要較多的步長。

\[q(x_t|x_{t-1}) := \mathcal{N}(x_t;\sqrt{\alpha_t}x_{t-1},{1-\alpha_t}I) \\ q(x_t|x_{0}) := \mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_{0},{(1-\bar{\alpha}_t})I) \]

\[\begin{align*} q(x_{t-1}|x_t,x_0) &\overset{Bayes}{=} \dfrac{q(x_t|x_{t-1},x_0)q(x_{t-1}|x_0)}{q(x_t|x_0)} \\ &\overset{Markov}{=} \dfrac{q(x_t|x_{t-1})q(x_{t-1}|x_0)}{q(x_t|x_0)} \end{align*} \]

DDPM中對於其逆向分佈的建模使用馬爾可夫假設，這樣做的目的是將式子中的未知項 \(q(x_t|x_{t-1},x_0)\)，轉化成了已知項 \(q(x_t|x_{t-1})\)，最後求出 \(q(x_{t-1}|x_t,x_0)\) 的分佈也是一個高斯分佈 \(\mathcal{N}(x_{t-1};\mu_q(x_t,x_0),\Sigma_q(t))\)。

從DDPM的結論出發，我們不妨直接假設 \(q(x_{t-1}|x_t,x_0)\) 的分佈為高斯分佈，在不使用馬爾可夫假設的情況下，嘗試求解 \(q(x_{t-1}|x_t,x_0)\) 。

由 DDPM 中 \(q(x_{t-1}|x_t,x_0)\) 的分佈 \(\mathcal{N}(x_{t-1};\mu_q(x_t,x_0),\Sigma_q(t))\) 可知，均值為一個關於 \(x_t,x_0\) 的函式，方差為一個關於 \(t\) 的函式。

我們可以把 \(q(x_{t-1}|x_t,x_0)\) 設計成如下分佈：

\[q(x_{t-1}|x_t,x_0) := \mathcal{N}(x_{t-1}; a x_0 + b x_t,\sigma_t^2 I) \]

這樣，只要求解出 \(a,b,\sigma_t\) 這三個待定係數，即可確定 \(q(x_{t-1}|x_t,x_0)\) 的分佈。
重引數化 \(q(x_{t-1}|x_t,x_0)\) ：

\[x_{t-1}=a x_0 + b x_t + \sigma_t \varepsilon^{\prime}_{t-1} \]

假設訓練模型時輸入噪聲圖片的加噪引數與DDPM完全一致
由 \(q(x_t|x_{0}) := \mathcal{N}(x_t;\sqrt{\bar{\alpha}_t}x_{0},(1-\bar{\alpha}_t)I)\) ：

\[x_t=\sqrt{\bar{\alpha}_t}x_{0}+\sqrt{1-\bar{\alpha}_t}\varepsilon^{\prime}_{t} \]

代入 \(x_t\) 有：

\[\begin{align*} x_{t-1} &=a x_0 + b(\sqrt{\bar{\alpha}_t}x_{0}+\sqrt{1-\bar{\alpha}_t}\varepsilon^{\prime}_{t}) + \sigma_t \varepsilon^{\prime}_{t-1} \\ &= (a + b\sqrt{\bar{\alpha}_t}) x_0 + (b\sqrt{1-\bar{\alpha}_t}\varepsilon^{\prime}_{t} + \sigma_t \varepsilon^{\prime}_{t-1}) \\ &= (a + b\sqrt{\bar{\alpha}_t}) x_0 + (\sqrt{b^2(1-\bar{\alpha}_t)+ \sigma_t^2}) \bar{\varepsilon}_{t-1} \end{align*} \]

又：

\[x_{t-1}=\sqrt{\bar{\alpha}_{t-1}} x_0 + \sqrt{1-\bar{\alpha}_{t-1}} \varepsilon^{\prime}_{t-1} \]

觀察係數可以得到方程組：

\[\begin{cases} a + b\sqrt{\bar{\alpha}_t} = \sqrt{\bar{\alpha}_{t-1}} \\ \sqrt{b^2(1-\bar{\alpha}_t)+ \sigma_t^2} = \sqrt{1-\bar{\alpha}_{t-1}} \end{cases} \]

三個未知數兩個方程，可以用 \(\sigma_t\) 表示 \(a,b\)：

\[\begin{cases} a = \sqrt{\bar{\alpha}_{t-1}} - \sqrt{\bar{\alpha}_t} \sqrt{\dfrac{1-\bar{\alpha}_{t-1}-\sigma_t^2}{1-\bar{\alpha}_t}} \\ b = \sqrt{\dfrac{1-\bar{\alpha}_{t-1}-\sigma_t^2}{1-\bar{\alpha}_t}} \end{cases} \]

\(a, b\) 代入 \(q(x_{t-1}|x_t,x_0) := \mathcal{N}(x_{t-1}; a x_0 + b x_t,\sigma_t^2 I)\)

\[q(x_{t-1}|x_t,x_0) := \mathcal{N}(x_{t-1}; \underbrace{ \left( \sqrt{\bar{\alpha}_{t-1}} - \sqrt{\bar{\alpha}_t} \sqrt{\dfrac{1-\bar{\alpha}_{t-1}-\sigma_t^2}{1-\bar{\alpha}_t}}\right ) x_0 + (\sqrt{\dfrac{1-\bar{\alpha}_{t-1}-\sigma_t^2}{1-\bar{\alpha}_t}}) x_t}_{\mu_q(x_t,x_0,t)},\sigma_t^2 I) \]

又

\[x_t=\sqrt{\bar{\alpha}_t} x_0 + \sqrt{1-\bar{\alpha}_t} \bar{\varepsilon}_0 \\ x_0 = \dfrac{1}{\sqrt{\bar{\alpha}_t}}x_t - \dfrac{\sqrt{1-\bar{\alpha}_t}}{\sqrt{\bar{\alpha}_t}} \bar{\varepsilon}_0 \\ \]

代入 \(x_0\) 有：

\[\mu_q(x_t,x_0,t) = \sqrt{\bar{\alpha}_{t-1}} \dfrac{x_t-\sqrt{1-\bar{\alpha}_t} \bar{\varepsilon}_0}{\sqrt{\bar{\alpha}_{t}}} + \sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \bar{\varepsilon}_0 \\ \]

\[\begin{align*} x_{t-1} &= \mu_q(x_t,x_0,t) + \sigma_t \varepsilon_0 \\ &= \sqrt{\bar{\alpha}_{t-1}} \underbrace{\dfrac{x_t-\sqrt{1-\bar{\alpha}_t} \bar{\varepsilon}_0}{\sqrt{\bar{\alpha}_{t}}}}_{預測的x_0} + \underbrace{\sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \bar{\varepsilon}_0}_{x_t的方向} + \underbrace{\sigma_t \varepsilon_0}_{隨機噪聲擾動} \end{align*} \]

透過觀察 \(x_{t-1}\) 的分佈，我們建模取樣分佈為高斯分佈：

\[p_\theta(x_{t-1}|x_t):=\mathcal{N}(x_{t-1};\mu_\theta(x_t,t), \Sigma_\theta(x_t,t)I) \]

並且均值和方差也採用相似的形式：

\[\begin{align*} \mu_\theta(x_t,t) &= \sqrt{\bar{\alpha}_{t-1}} \dfrac{x_t-\sqrt{1-\bar{\alpha}_t} \epsilon_\theta(x_t,t) }{\sqrt{\bar{\alpha}_{t}}} + \sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \epsilon_\theta(x_t,t) \\ \Sigma_\theta(x_t,t) &= \sigma_t^2 \end{align*} \]

其中 \(\epsilon_\theta(x_t,t)\) 為預測的噪聲。

此時，確定最佳化目標只需要 \(q(x_{t-1}|x_t,x_0)\) 和 \(p_\theta(x_{t-1}|x_t)\) 兩個分佈儘可能相似，使用KL散度來度量，則有：

\[\begin{align*} &\quad \ \underset{\theta}{argmin} D_{KL}(q(x_{t-1}|x_t,x_0)||p_\theta(x_{t-1}|x_t)) \\ &=\underset{\theta}{argmin} D_{KL}(\mathcal{N}(x_{t-1};\mu_q, \Sigma_q(t))||\mathcal{N}(x_{t-1};\mu_\theta, \Sigma_q(t))) \\ &=\underset{\theta}{argmin} \dfrac{1}{2} \left[ log\dfrac{|\Sigma_q(t)|}{|\Sigma_q(t)|} - k + tr(\Sigma_q(t)^{-1}\Sigma_q(t)) + (\mu_q-\mu_\theta)^T \Sigma_q(t)^{-1} (\mu_q-\mu_\theta) \right] \\ &=\underset{\theta}{argmin} \dfrac{1}{2} \left[ 0 - k + k + (\mu_q-\mu_\theta)^T (\sigma_t^2I)^{-1} (\mu_q-\mu_\theta) \right] \\ &\overset{內積公式A^TA}{=} \underset{\theta}{argmin} \dfrac{1}{2\sigma_t^2} \left[ ||\mu_q-\mu_\theta||_2^2 \right] \\ &\overset{代入\mu_q,\mu_\theta}{=} \underset{\theta}{argmin} \dfrac{1}{2\sigma_t^2} (\sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} - \dfrac{\sqrt{\bar{\alpha}_{t-1}} \sqrt{1-\bar{\alpha}_t}}{\sqrt{\bar{\alpha}_t}}) \left[ ||\bar{\varepsilon}_0-\epsilon_\theta(x_t,t)||_2^2 \right] \end{align*} \]

恰好與DDPM的最佳化目標一致，所以我們可以直接複用DDPM訓練好的模型。

\(p_{\theta}\) 的取樣步驟則為：

\[x_{t-1} = \sqrt{\bar{\alpha}_{t-1}} \underbrace{\dfrac{x_t-\sqrt{1-\bar{\alpha}_t} \epsilon_\theta(x_t,t)}{\sqrt{\bar{\alpha}_{t}}}}_{預測的x_0} + \underbrace{\sqrt{1-\bar{\alpha}_{t-1}-\sigma_t^2} \epsilon_\theta(x_t,t)}_{x_t的方向} + \underbrace{\sigma_t \varepsilon}_{隨機噪聲擾動} \]

令 \(\sigma_t=\eta \sqrt{\dfrac{(1-{\alpha}_{t})(1-\bar{\alpha}_{t-1})}{1-\bar{\alpha}_{t}}}\)

當 \(\eta =1\) 時，前向過程為 Markovian ，取樣過程變為 DDPM 。

當 \(\eta =0\) 時，取樣過程為確定過程，此時的模型稱為隱機率模型(implicit probabilstic model)。

DDIM如何加速取樣：
在 DDPM 中，基於馬爾可夫鏈 \(t\) 與 \(t-1\) 是相鄰關係，例如 \(t=100\) 則 \(t-1=99\)；
在 DDIM 中，\(t\) 與 \(t-1\) 只表示前後關係，例如 \(t=100\) 時，\(t-1\) 可以是 90 也可以是 80、70，只需保證 \(t-1 < t\) 即可。
此時構建的取樣子序列 \(\tau=[\tau_i,\tau_{i-1},\cdots,\tau_{1}] \ll [t,t-1,\cdots,1]\) 。
例如，原序列 \(\Tau=[100,99,98,\cdots,1]\)，取樣子序列為 \(\tau=[100,90,80,\cdots,1]\) 。

DDIM 取樣公式為：

\[x_{\tau_{i-1}} = \sqrt{\bar{\alpha}_{\tau_{i-1}}} {\dfrac{x_{\tau_{i}}-\sqrt{1-\bar{\alpha}_{\tau_{i}}} \epsilon_\theta(x_{\tau_{i}},{\tau_{i}})}{\sqrt{\bar{\alpha}_{\tau_{i}}}}} + {\sqrt{1-\bar{\alpha}_{\tau_{i-1}}-\sigma_{\tau_{i}}^2} \epsilon_\theta(x_{\tau_{i}},{\tau_{i}})} + {\sigma_{\tau_{i}} \varepsilon} \]

當 \(\eta= 0\) 時，DDIM 取樣公式為：

\[ x_{\tau_{i-1}} = \dfrac{\sqrt{\bar{\alpha}_{\tau_{i-1}}}}{\sqrt{\bar{\alpha}_{\tau_{i}}}} x_{\tau_{i}} + \left( \sqrt{1-\bar{\alpha}_{\tau_{i-1}}} - \dfrac{\sqrt{\bar{\alpha}_{\tau_{i-1}}}}{\sqrt{\bar{\alpha}_{\tau_{i}}}} \sqrt{1-\bar{\alpha}_{\tau_{i}}} \right) \epsilon_\theta(x_{\tau_i},\tau_i) \]

程式碼實現

訓練過程與 DDPM 一致，程式碼參考上一篇文章。取樣程式碼如下：

device = 'cuda'
torch.cuda.empty_cache()
model = Unet().to(device)
model.load_state_dict(torch.load('ddpm_T1000_l2_epochs_300.pth'))
model.eval()

image_size=96
epochs = 500
batch_size = 128
T=1000
betas = torch.linspace(0.0001, 0.02, T).to('cuda') # torch.Size([1000])

# 每隔20取樣一次
tau_index = list(reversed(range(0, T, 20))) #[980, 960, ..., 20, 0]
eta = 0.003


# train
alphas = 1 - betas # 0.9999 -> 0.98
alphas_cumprod = torch.cumprod(alphas, axis=0) # 0.9999 -> 0.0000
sqrt_alphas_cumprod = torch.sqrt(alphas_cumprod)
sqrt_one_minus_alphas_cumprod = torch.sqrt(1-alphas_cumprod)

def get_val_by_index(val, t, x_shape):
    batch_t = t.shape[0]
    out = val.gather(-1, t)
    return out.reshape(batch_t, *((1,) * (len(x_shape) - 1))) # torch.Size([batch_t, 1, 1, 1])

def p_sample_ddim(model):
    def step_denoise(model, x_tau_i, tau_i, tau_i_1):
        sqrt_alphas_bar_tau_i = get_val_by_index(sqrt_alphas_cumprod, tau_i, x_tau_i.shape)
        sqrt_alphas_bar_tau_i_1 = get_val_by_index(sqrt_alphas_cumprod, tau_i_1, x_tau_i.shape)

        denoise = model(x_tau_i, tau_i)
        
        if eta == 0:
            sqrt_1_minus_alphas_bar_tau_i = get_val_by_index(sqrt_one_minus_alphas_cumprod, tau_i, x_tau_i.shape)
            sqrt_1_minus_alphas_bar_tau_i_1 = get_val_by_index(sqrt_one_minus_alphas_cumprod, tau_i_1, x_tau_i.shape)
            x_tau_i_1 = sqrt_alphas_bar_tau_i_1 / sqrt_alphas_bar_tau_i * x_tau_i \
                + (sqrt_1_minus_alphas_bar_tau_i_1 - sqrt_alphas_bar_tau_i_1 / sqrt_alphas_bar_tau_i * sqrt_1_minus_alphas_bar_tau_i) \
                * denoise            
            return x_tau_i_1

        sigma = eta * torch.sqrt((1-get_val_by_index(alphas, tau_i, x_tau_i.shape)) * \
        (1-get_val_by_index(sqrt_alphas_cumprod, tau_i_1, x_tau_i.shape)) / get_val_by_index(sqrt_one_minus_alphas_cumprod, tau_i, x_tau_i.shape))
        
        noise_z = torch.randn_like(x_tau_i, device=x_tau_i.device)
        
        # 整個式子由三部分組成
        c1 = sqrt_alphas_bar_tau_i_1 / sqrt_alphas_bar_tau_i * (x_tau_i - get_val_by_index(sqrt_one_minus_alphas_cumprod, tau_i, x_tau_i.shape) * denoise)  
        c2 = torch.sqrt(1 - get_val_by_index(alphas_cumprod, tau_i_1, x_tau_i.shape) - sigma) * denoise
        c3 = sigma * noise_z
        x_tau_i_1 = c1 + c2 + c3

        return x_tau_i_1

    
    img_pred = torch.randn((4, 3, image_size, image_size), device=device)

    for k in range(0, len(tau_index)):
        # print(tau_index)
        # 因為 tau_index 是倒序的，tau_i = k, tau_i_1 = k+1，這裡不能弄反
        tau_i_1 = torch.tensor([tau_index[k+1]], device=device, dtype=torch.long)
        tau_i = torch.tensor([tau_index[k]], device=device, dtype=torch.long)
        img_pred = step_denoise(model, img_pred, tau_i, tau_i_1)

        torch.cuda.empty_cache()
        if tau_index[k+1] == 0: return img_pred

    return img_pred

with torch.no_grad():
    img = p_sample_ddim(model)
    img = torch.clamp(img, -1.0, 1.0)

show_img_batch(img.detach().cpu())

DDIM
https://arxiv.org/pdf/2010.02502
https://github.com/ermongroup/ddim

Diffusion|DDIM 理解、數學、程式碼
2024-07-27
[Paper Reading] DDIM: DENOISING DIFFUSION IMPLICIT MODELS
2024-03-12
三角函式公式推導
2024-05-06
函式公式
LOAM原始碼分析附公式推導
2020-10-11
原始碼公式
二項式定理公式推導
2020-10-18
公式
四元數旋轉公式推導
2020-02-28
公式
FlashAttention逐代解析與公式推導
2024-10-18
公式
一文徹底理解邏輯迴歸：從公式推導到程式碼實現
2022-03-04
邏輯迴歸公式
四元數的旋轉公式推導
2018-07-08
公式
高斯公式對高斯定理的推導
2024-05-28
公式
一個線性迴歸例項的公式推導、程式碼實現、問題解析以及模型評價
2020-11-21
公式模型
核化線性降維中部分公式的推導
2018-11-11
公式
線性迴歸模型公式推導完整簡潔版
2024-03-13
模型公式
SpringBoot原始碼解讀系列三——引導註解
2022-02-11
Spring Boot原始碼
【diffusion】擴散模型詳解！理論＋程式碼
2024-03-12
模型
統一場理論公式推導和筆記——part5
2024-05-04
公式筆記
統一場理論公式推導和筆記——part6
2024-05-04
公式筆記
擴充套件歐幾里得演算法公式快速推導
2024-10-25
套件演算法公式
總結：生成函式（斐波那契通項公式推導）
2021-02-11
函式公式
從DDPM到DDIM(三) DDPM的訓練與推理
2024-07-25
SQL 改寫系列六：謂詞推導
2022-07-18
SQL
三維旋轉矩陣推導
2019-03-15
矩陣
三角測量原理推導
2024-07-21
提高SAR ADC精度的外圍電路RC元件取值公式推導
2024-09-01
元件公式
挑選方案問題（牛客競賽思維題+推導公式）
2020-12-22
公式
從DDPM到DDIM
2024-07-17
機器學習導圖系列（4）：演算法(含61公式)
2019-04-10
機器學習演算法公式
Diffusion Model 擴散模型-[通俗易懂+程式碼講解
2024-03-12
模型
三個求和公式
2019-10-17
公式
三款好用的前端程式碼編輯器推薦！
2021-12-14
前端
SVM大解密（附程式碼和公式）
2018-04-07
解密公式
矩陣求導公式【轉】
2019-02-22
矩陣求導公式
Markdown 公式指導手冊
2020-12-09
公式
Python推導式（列表推導式、元組推導式、字典推導式和集合推導式)
2020-09-24
Python
《神經網路的梯度推導與程式碼驗證》之CNN的前向傳播和反向梯度推導
2020-09-03
神經網路梯度CNN
《神經網路的梯度推導與程式碼驗證》之LSTM的前向傳播和反向梯度推導
2020-09-07
神經網路梯度
MCMC-2|機器學習推導系列（十六）
2020-10-06
機器學習
三大分佈密度函式推導
2024-12-10
函式

Diffusion系列 - DDIM 公式推導 + 程式碼 -（三）

DENOISING DIFFUSION IMPLICIT MODELS (DDIM)

程式碼實現

相關文章