Diffusion|DDIM 理解、數學、程式碼

jasonzhangxianrong發表於2024-07-27

原文網址 : https://www.cnblogs.com/zhangxianrong/p/18326855

DIFFUSION 系列筆記|DDIM 數學、思考與 ppdiffuser 程式碼探索

論文：DENOISING DIFFUSION IMPLICIT MODELS

參考部落格open in new window; 參考 aistudio notebook 連結，其中包含詳細的公式與程式碼探索： linkopen in new window

該文章主要對 DDIM 論文中的公式進行小白推導，同時筆者將使用 ppdiffuser 中的 DDIM 與 DDPM 探索兩者之間的聯絡。讀者能夠對論文中的大部分公式如何得來，用在了什麼地方有初步的瞭解。

本文將包括以下部分：

總結 DDIM。
Non-Markovian Forward Processes：從 DDPM 出發，記錄論文中公式推導
探索與思考：
- 驗證當 $\eta=1$ DDIMScheduler 的結果與 DDPMScheduler 基本相同。
- DDIM 的加速取樣過程
- DDIM 取樣的確定性
- INTERPOLATION IN DETERMINISTIC GENERATIVE PROCESSES

DDIM 總覽

不同於 DDPM 基於馬爾可夫的 Forward Process，DDIM 提出了 NON-MARKOVIAN FForward Processes。（見 Forward Process）
基於這一假設，DDIM 推匯出了相比於 DDPM 更快的取樣過程。（見探索與思考）
相比於 DDPM，DDIM 的取樣是確定的，即給定了同樣的初始噪聲 $x_t$ ，DDIM 能夠生成相同的結果 $x_0$ 。（見探索與思考）
DDIM 和 DDPM 的訓練方法相同 ，因此在 DDPM 基礎上加上 DDIM 取樣方案即可。（見探索與思考）

Forward process

DDIM 論文中公式的符號與 DDPM 不相同，如 DDIM 論文中的 $\alpha$ 相當於 DDPM 中的 $\bar\alpha$ ，而 DDPM 中的 $\alpha_t$ 則在 DDIM 中記成 $\frac {\alpha_t}{\alpha_{t-1}}$ ，但是運算思路一致，如 DDIM 論文中的公式 $(1)-(5)$ 都在 DDPM 中能找到對應公式。
以下我們統一採用 DDPM 中的符號進行標記。即 $\bar\alpha_t = \alpha_1\alpha_2...\alpha_t$

在 DDPM 筆記擴散模型探索：DDPM 筆記與思考open in new window 中，我們總結了 DDPM 的取樣公式推導過程為：

x_t\xrightarrow{model} \epsilon_\theta(x_t,t) \xrightarrow {P(x_t|x_0)\rightarrow P(x_0|x_t,\epsilon_\theta)}\hat x_0(x_t, \epsilon_\theta) \\ \xrightarrow {\text{ 推導 }}\mu(x_t, \hat x_0),\beta_t\xrightarrow{P(x_{t-1}|x_t, x_0)}\hat x_{t-1}

而後我們用 $\hat x_{t-1}$ 來近似 $x_{t-1}$ ，從而一步步實現取樣的過程。不難發現 DDPM 取樣和最佳化損失函式過程中，並沒有使用到 $p(x_{t-1}|x_t)$ 的資訊。因此 DDIM 從一個更大的角度，大膽地將 Forward Process 方式更換了以下式子（對應 DDIM 論文公式 $(7)$ ）：

q_\sigma\left(\mathbf{x}_{t-1} \mid \mathbf{x}_t, \mathbf{x}_0\right)=\mathcal{N}\left(\mathbf{x}_{t-1} ; \sqrt{\bar\alpha_{t-1}} \mathbf{x}_0+\sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} \frac{\mathbf{x}_t-\sqrt{\bar\alpha_t} \mathbf{x}_0}{\sqrt{1-\bar\alpha_t}}, \sigma_t^2 \mathbf{I}\right)\tag1

論文作者提到了 $(1)$ 式這樣的 non-Markovian Forward Process 滿足 :

q(x_t|x_0) =N (x_t; \sqrt {\bar \alpha_t} x_0, (1-\bar\alpha_t)I),\bar \alpha_t=\prod_T\alpha_t\tag 2

公式 $(1)$ 能夠透過貝葉斯公式：

q(x_t|x_{t-1},x_0) = \frac{q(x_{t-1}|x_t,x_0)q(x_t|x_0)}{q(x_{t-1}|x_0)}\tag 3

推導得來。至於如何推導，生成擴散模型漫談（四）：DDIM = 高觀點 DDPMopen in new window 中透過待定係數法給出了詳細的解釋，由於解釋計算過程較長，此處就不展開介紹了。

根據 $(1)$ ，將 DDPM 中得到的公式（同 DDIM 論文中的公式 $(9)$ ）：

x_0 = \frac{\boldsymbol{x}_t-\sqrt{1-\bar\alpha_t} \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar\alpha_t}}\tag 4

帶入，我們能寫出取樣公式（即論文中的核心公式 $(12)$ ）：

\boldsymbol{x}_{t-1}=\sqrt{\bar\alpha_{t-1}} \underbrace{\left(\frac{\boldsymbol{x}_t-\sqrt{1-\bar\alpha_t} \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar\alpha_t}}\right)}_{\text {" predicted } \boldsymbol{x}_0 \text { " }}+\underbrace{\sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} \cdot \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}_{\text {"direction pointing to } \boldsymbol{x}_t \text { " }}+\underbrace{\sigma_t \epsilon_t}_{\text {random noise }}\tag 5

其中， $\sigma$ 可以參考 DDIM 論文的公式 $(16)$ ：

\sigma_t =\eta \sqrt {(1-\bar\alpha_{t-1})/(1-\bar\alpha_t)} \sqrt{1-\bar\alpha_t/\bar\alpha_{t-1}}\tag 6

如果 $\eta = 0$ ，那麼生成過程就是確定的，這種情況下為 DDIM。

論文中指出， 當 $\eta=1$ ，該 forward process 變成了馬爾科夫鏈，該生成過程等價於 DDPM 的生成過程 。也就是說當 $\eta=1$ 時，公式 $(5)$ 等於 DDPM 的取樣公式，即公式 $(7)$ ：

\begin{aligned} \hat x_{t-1}&=\frac 1{\sqrt { \alpha_t}}(x_t-\frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}}\epsilon_\theta(x_t,t)) + \sigma_t z\\ &\text{where }z=N(0,I) \end{aligned}\tag 7

將 $(6)$ 式帶入到 $(1)$ 式中得到 DDPM 分佈公式（本文章標記依照 DDPM 論文，因此有 $\bar \alpha_t=\prod_T\alpha_t$ ）：

\sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} =\frac{1-\bar\alpha_{t-1}}{\sqrt{1-\bar\alpha_t}}\sqrt{\alpha_t} \tag 8

上式的推導過程

\begin{aligned} \frac {\sqrt{1-\bar\alpha_t}}{\sqrt{1-\bar\alpha_t}} \sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} &= \frac{\sqrt{[(1-\bar\alpha_{t-1}-(\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t})(1-\alpha_t)](1-\bar\alpha_t)}}{\sqrt{1-\bar\alpha_t}}\\ &=\frac{\sqrt{(1-\bar\alpha_{t-1})(1-(\frac{1-\bar\alpha_{t-1}}{1-\bar\alpha_t})(1-\alpha_t))(1-\bar\alpha_{t-1})}}{\sqrt{1-\bar\alpha_t}} \\ &= \frac{\sqrt{(1-\bar\alpha_{t-1})(1-\bar\alpha_t-1+\frac{\bar\alpha_t}{\bar\alpha_{t-1}})}}{\sqrt{1-\bar\alpha_t}}\\ &= \frac{\sqrt{(1-\bar\alpha_{t-1})(1-\bar\alpha_{t-1})\frac{\bar\alpha_t}{\bar\alpha_{t-1}}}}{\sqrt{1-\bar\alpha_t}} \\&=\frac{1-\bar\alpha_{t-1}}{\sqrt{1-\bar\alpha_t}}\sqrt{\alpha_t} \end{aligned}

因此

\begin{aligned} \boldsymbol{x}_{t-1}&=\sqrt{\bar\alpha_{t-1}} \underbrace{\left(\frac{\boldsymbol{x}_t-\sqrt{1-\bar\alpha_t} \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar\alpha_t}}\right)}_{\text {" predicted } \boldsymbol{x}_0 \text { " }}+\underbrace{\sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} \cdot \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}_{\text {"direction pointing to } \boldsymbol{x}_t \text { " }}+\underbrace{\sigma_t \epsilon_t}_{\text {random noise }} \\&= \sqrt \frac{\bar\alpha_{t-1}}{\bar\alpha_t} x_t-\sqrt \frac{\bar\alpha_{t-1}}{\bar\alpha_t} \sqrt {1-\bar\alpha_t} \epsilon_\theta^{(t)} + \frac{1-\bar\alpha_{t-1}}{\sqrt{1-\bar\alpha_t}}\sqrt{\alpha_t} \epsilon_\theta^{(t)} + \sigma_t \epsilon_t \\&=\frac 1{\sqrt\alpha_t}x_t - \frac 1{\sqrt\alpha_t \sqrt{1-\bar\alpha_t}}\left(1-\bar\alpha_t+(1-\bar\alpha_{t-1})\alpha_t \right)\epsilon_\theta^{(t)} + \sigma_t \epsilon_t\\ &=\frac 1{\sqrt\alpha_t}\left(x_t - \frac{1-\alpha_t}{\sqrt{1-\bar\alpha_t}} \epsilon_\theta^{(t)} \right)+ \sigma_t \epsilon_t\\ &=\frac 1{\sqrt\alpha_t}\left(x_t - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}} \epsilon_\theta^{(t)} \right)+ \sigma_t \epsilon_t \end{aligned} \tag 9

因此，根據推導， $\eta=1$ 時候的 Forward Processes 等價於 DDPM，我們將在 notebook 後半部分，透過程式碼的方式驗證當 $\eta=1$ DDIM 的結果與 DDPM 基本相同。

探索與思考

接下來將根據飛槳開源的 PaddleNLP/ppdiffusers，探索以下四個內容：

驗證當 $\eta=1$ DDIM 的結果與 DDPM 基本相同。
DDIM 的加速取樣過程
DDIM 取樣的確定性
INTERPOLATION IN DETERMINISTIC GENERATIVE PROCESSES

讀者可以在 Aistudio 上使用免費 GPU 體驗以下的程式碼內容。連結：擴散模型探索：DDIM 筆記與思考open in new window

DDIM 與 DDPM 探索

驗證當 $\eta=1$ DDIM 的結果與 DDPM 基本相同。

我們使用 DDPM 模型訓練出來的 google/ddpm-celebahq-256 人像模型權重進行測試，根據上文的推導，當 $\eta=1$ 時，我們期望 DDIM 論文中的 Forward Process 能夠得出與 DDPM 相同的取樣結果。由於 DDIM 與 DDPM 訓練過程相同，因此我們將使用 DDPMPipeline 載入模型權重 google/ddpm-celebahq-256 ，而後採用 DDIMScheduler() 進行圖片取樣，並將取樣結果與 DDPMPipeline 原始輸出對比。如下：

# DDPM 生成圖片
pipe = DDPMPipeline.from_pretrained("google/ddpm-celebahq-256")

paddle.seed(33)
ddpm_output = pipe()  # 原始 ddpm 輸出

# 我們採用 DDPM 的訓練結果，透過 DDIM Scheduler 來進行取樣。
pipe.scheduler = DDIMScheduler()

# 設定與 DDPM 相同的取樣結果，令 DDIM 取樣過程中的 eta = 1.
paddle.seed(33)
ddim_output = pipe(num_inference_steps=1000, eta=1)

imgs = [ddpm_output.images[0], ddim_output.images[0]]
titles = ["ddpm", "ddim"]
compare_imgs(imgs, titles)  # 該函式在 notebook_utils.py 宣告

輸出結果：

透過執行以上程式碼，我們可以看出 $\eta=1$ 時，預設配置下 DDPM 與 DDIM 取樣結果有著明顯的區別。但這並不意味著論文中的推導結論是錯誤的，差異可能源於以下兩點：

計算機浮點數精度問題
Scheduler 取樣過程中存在的 clip 操作導致偏差。

嘗試去除 Clip 操作

Scheduler 取樣過程中存在的 clip 操作導致偏差。Clip 操作對取樣過程中生成的 x_0 預測結果進行了截斷，儘管 DDPM, DDIM 均在預測完 $x_0$ 後進行了截斷，但根據上文的推導公式，兩者取樣過程中 $x_0$ 權重的不同，可能導致了使用 clip 時，兩者的取樣結果有著明顯區別。

將 clip 配置設定成 False 後， DDPM 與 DDIM( $\eta=1$ ) 的取樣結果基本上相同了。如以下程式碼，我們嘗試測試去除 clip 配置後的取樣結果：

pipe = DDPMPipeline.from_pretrained("google/ddpm-celebahq-256")
pipe.progress_bar = lambda x:x  # uncomment to see progress bar

# 我們採用 DDPM 的訓練結果，透過 DDIM Scheduler 來進行取樣。
# print("Default setting for DDPM:\t",pipe.scheduler.config.clip_sample)  # True
pipe.scheduler.config.clip_sample = False
paddle.seed(33)
ddpm_output = pipe()

pipe.scheduler = DDIMScheduler()
# print("Default setting for DDIM:\t",pipe.scheduler.config.clip_sample)  # True
pipe.scheduler.config.clip_sample = False
paddle.seed(33)
ddim_output = pipe(num_inference_steps=1000, eta=1)

imgs = [ddpm_output.images[0], ddim_output.images[0]]
titles = ["DDPM no clip", "DDIM no clip"]
compare_imgs(imgs, titles)

可以驗證得到 DDPM 與 DDIM 論文中提出的 $\eta=1$ 情況下的取樣結果基本一致。

DDIM 加速取樣

論文附錄 C 有對這一部分進行詳細闡述。DDIM 最佳化時與 DDPM 一樣，對噪聲進行擬合，但 DDIM 提出了透過一個更短的 Forward Processes 過程，透過減少取樣的步數，來加快取樣速度：

從原先的取樣序列 $\{1,...,T\}$ 中選擇一個子序列來生成影像。如原序列為 1 到 1000，抽取子序列可以是 1, 100, 200, ... 1000 （類似 arange(1, 1000, 100)）。抽取方式不固定。在生成時同樣採用公式 $(1)$ ，其中的 timestep $t$ ，替換為子序列中的 timestep。其中的 $\bar\alpha_t$ 對應到訓練時候的數值，比如取樣 1, 100, 200, ... 1000 中的第二個樣本，則使用訓練時候採用的 $\bar\alpha_{100}$ （此處只能替換 alphas_cumprod $\bar\alpha$ ，不能直接替換 alpha 引數 $\alpha_t$ ）。

參考論文中的 Figure 3，在加速生成的情況下， $\eta$ 越小，生成的圖片效果越好，同時 $\eta$ 的減小能夠很大程度上彌補取樣步數減少帶來的生成質量下降問題。

Diffusion|DDIM 理解、數學、程式碼

我們嘗試對論文中提到的上述方法進行復現：

pipe.progress_bar = lambda x:x  # cancel process bar
etas = [0, 0.4, 0.8]
steps = [10, 50, 100, 1000]
fig = plt.figure(figsize=(7, 7))
for i in range(len(etas)):
    for j in range(len(steps)):
        plt.subplot(len(etas), len(steps), j+i*len(steps) + 1)
        paddle.seed(77)
        sample1 = pipe(num_inference_steps=steps[j], eta=etas[i])
        plt.imshow(sample1.images[0])
        plt.axis("off")
        plt.title(f"eta {etas[i]}|step {steps[j]}")
plt.show()

透過論文中的示例說明，以及上述實現結果可以發現幾點：

$\eta$ 越小，取樣步數產生的 圖片質量和風格差異 就越小。
$\eta$ 的減小能夠很大程度上彌補取樣步數減少帶來的生成質量下降問題。

DDIM 取樣的確定性

由於 DDIM 在生成過程中 $\eta=0$ ，因此取樣過程中不涉及任何隨機因素，最終生成圖片將由一開始輸入的圖片噪聲 $x_t$ 決定。我們採用不同的 random seed 進行取樣：

paddle.seed(77)
x_t = paddle.randn((1, 3, 256, 256))
paddle.seed(8)
sample1 = pipe(num_inference_steps=50,eta=0,x_t=x_t)
paddle.seed(9)
sample2 = pipe(num_inference_steps=50,eta=0,x_t=x_t)
compare_imgs([sample1.images[0], sample2.images[0]], ["sample(seed 8)", "sample(seed 9)"])

影像重建

在 DDIM 論文中，其作者提出了可以將一張原始圖片 $x_0$ 經過足夠長的步數 $T$ 加噪為 $x_T$ ，而後透過 ODE 推匯出來的取樣方式，儘可能的還原原始圖片。根據公式 $(5)$ （即論文中的公式 12），我們能夠推理得到論文中的公式 $(13)$ :

\frac{\boldsymbol{x}_{t-\Delta t}}{\sqrt{\alpha_{t-\Delta t}}}=\frac{\boldsymbol{x}_t}{\sqrt{\alpha_t}}+\left(\sqrt{\frac{1-\alpha_{t-\Delta t}}{\alpha_{t-\Delta t}}}-\sqrt{\frac{1-\alpha_t}{\alpha_t}}\right) \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right) \tag {10}

大致推導過程

\begin{aligned} \boldsymbol{x}_{t-1}&=\sqrt{\bar\alpha_{t-1}} \underbrace{\left(\frac{\boldsymbol{x}_t-\sqrt{1-\bar\alpha_t} \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar\alpha_t}}\right)}_{\text {" predicted } \boldsymbol{x}_0 \text { " }}+\underbrace{\sqrt{1-\bar\alpha_{t-1}-\sigma_t^2} \cdot \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}_{\text {"direction pointing to } \boldsymbol{x}_t \text { " }}+\underbrace{\sigma_t \epsilon_t}_{\text {random noise }} \\\frac{x_{t-1}}{\sqrt {\bar\alpha_{t-1}}}&= \frac {x_t}{\sqrt {\bar\alpha_t}} - \frac{\sqrt{1-\bar\alpha_t}}{\sqrt {\bar\alpha_t}}\epsilon_\theta^{(t)} + \frac{\sqrt {1-\bar\alpha_{t-1}}}{\sqrt {\bar\alpha_{t-1}}}\epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)\\ &\text {當 t 足夠大時可以看做}\\\frac{\boldsymbol{x}_{t-\Delta t}}{\sqrt{\bar\alpha_{t-\Delta t}}} &=\frac {x_t}{\sqrt {\bar\alpha_t}} + \left(\sqrt{\frac{1-\bar\alpha_{t-\Delta t}}{\bar\alpha_{t-\Delta t}}}-\sqrt{\frac{1-\bar\alpha_t}{\bar\alpha_t}}\right) \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right) \end{aligned}

而後進行換元，令 $\sigma=(\sqrt{1-\bar\alpha}/\sqrt{\bar\alpha}), \bar x = x/\sqrt{\bar\alpha}$ ，帶入得到：

\mathrm{d} \overline{\boldsymbol{x}}(t)=\epsilon_\theta^{(t)}\left(\frac{\overline{\boldsymbol{x}}(t)}{\sqrt{\sigma^2+1}}\right) \mathrm{d} \sigma(t)\tag{11}

於是，基於這個 ODE 結果，能透過 $\bar x({t}) + d\bar x(t)$ 計算得到 $\bar x(t+1)$ 與 $x_{t+1}$

根據 github - openai/improved-diffusionopen in new window，其實現根據 ODE 反向取樣的方式為：直接根據公式 $(5)$ 進行變換，把 $t-1$ 換成 $t+1$ ：

\boldsymbol{x}_{t+1}=\sqrt{\bar\alpha_{t+1}} \underbrace{\left(\frac{\boldsymbol{x}_t-\sqrt{1-\bar\alpha_t} \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}{\sqrt{\bar\alpha_t}}\right)}_{\text {" predicted } \boldsymbol{x}_0 \text { " }}+\underbrace{\sqrt{1-\bar\alpha_{t+1}} \cdot \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)}_{\text {"direction pointing to } \boldsymbol{x}_t \text { " }}+\underbrace{\sigma_t \epsilon_t}_{\text {random noise }}\tag{12}

而參考公式 $(11)$ 的推導過程， $(12)$ 可以看成下面這種形式：

\frac{\boldsymbol{x}_{t+\Delta t}}{\sqrt{\bar\alpha_{t+\Delta t}}} =\frac {x_t}{\sqrt {\bar\alpha_t}} + \left(\sqrt{\frac{1-\bar\alpha_{t+\Delta t}}{\bar\alpha_{t+\Delta t}}}-\sqrt{\frac{1-\bar\alpha_t}{\bar\alpha_t}}\right) \epsilon_\theta^{(t)}\left(\boldsymbol{x}_t\right)\tag {13}

以下我們嘗試對自定義的輸入圖片進行反向取樣（reverse sampling）和原圖恢復，我們匯入本地圖片：

根據公式 12 編寫反向取樣過程。ppdiffusers 中不存在 reverse_sample 方案，因此我們根據本文中的公式 $(12)$ 來實現一下 reverse_sample 過程，具體為：

def reverse_sample(self, model_output, x, t, prev_timestep):
        """
        Sample x_{t+1} from the model and x_t using DDIM reverse ODE.
        """

        alpha_bar_t_next = self.alphas_cumprod[t]
        alpha_bar_t = self.alphas_cumprod[prev_timestep] if prev_timestep >= 0 else self.final_alpha_cumprod

        inter = (
                        ((1-alpha_bar_t_next)/alpha_bar_t_next)** (0.5)- \
                        ((1-alpha_bar_t)/alpha_bar_t)** (0.5)
                    )
        x_t_next = alpha_bar_t_next** (0.5) * (x/ (alpha_bar_t ** (0.5)) + \
                    (
                    model_output * inter
                    )
                )

        return x_t_next

而後進行不斷的迭代取樣與圖片重建（具體的方式可以檢視擴散模型探索：DDIM 筆記與思考open in new window）。以下右圖為根據原圖進行反向 ODE 加噪後的結果，可以看出加噪後和電視沒訊號畫面相當。以下左圖為根據噪聲圖片取樣得來的結果，基本上取樣的結果還原了 90%以上原圖的細節，不過還有如右上角部分的一些顏色沒有被還原。

潛在的風格融合方式

透過兩個能夠生成不同圖片的噪聲 $z_1, z_2$ ，進行 spherical linear interpolation 球面線性插值。而後作為 $x_T$ 生成具有兩張畫面共同特點的圖片。有點類似風格融合的效果。參考 linkopen in new window。首先我們選取兩個不同的圖片進行融合：

paddle.seed(77)
pipe.scheduler.config.clip_sample = False

z_0 = paddle.randn((1, 3, 256, 256))
sample1 = pipe(num_inference_steps=50,eta=0,x_t=z_0)
paddle.seed(2707)
z_1 = paddle.randn((1, 3, 256, 256))
sample2 = pipe(num_inference_steps=50,eta=0,x_t=z_1)
compare_imgs([sample1.images[0], sample2.images[0]], ["sample from z_0", "sample from z_1"])

輸出結果：

以上選擇 seed 為 77 和 2707 的噪聲進行取樣，他們的取樣結果分別展示在上方。

以下參考 ermongroup/ddim/blob/main/runners/diffusion.pyopen in new window ，對噪聲進行插值，方式大致為：

x_t = \frac {\sin\left((1-\alpha)\theta\right)}{\sin(\theta)}z_0 + \frac{sin(\alpha\theta)}{\sin(\theta)}z_1,\\where\ \theta=\arccos\left(\frac{\sum z_1z_0}{||z_1|·||z_0||}\right)

def slerp(z1, z2, alpha):
    theta = torch.acos(torch.sum(z1 * z2) / (torch.norm(z1) * torch.norm(z2)))
    return (
        torch.sin((1 - alpha) * theta) / torch.sin(theta) * z1
        + torch.sin(alpha * theta) / torch.sin(theta) * z2
    )

可以看出，當 $\alpha$ 為 0.2， 0.8 時，我們能夠看到以下融合的效果，如頭髮顏色，無關特徵等。但在中間部分（ $\alpha=0.4,0.5,0.6$ ），取樣的圖片質量就沒有那麼高了。

那根據前兩節的闡述，我們可以實現一個小的 pipeline，具備接受使用 DDIM 接受兩張圖片，而後輸出一張兩者風格融合之後的圖片。

參考

Denoising Diffusion Implicit Modelsopen in new window

蘇建林 - 生成擴散模型漫談系列筆記open in new window

小小將 - 擴散模型之 DDIMopen in new window

github - openai/improved-diffusionopen in new window

Diffusion系列 - DDIM 公式推導 + 程式碼 -（三）
2024-10-10
公式
[Paper Reading] DDIM: DENOISING DIFFUSION IMPLICIT MODELS
2024-03-12
【diffusion】擴散模型詳解！理論＋程式碼
2024-03-12
模型
從DDPM到DDIM
2024-07-17
Diffusion Model 擴散模型-[通俗易懂+程式碼講解
2024-03-12
模型
AI數學基礎37-從程式碼角度深入理解梯度下降法2
2018-07-06
AI梯度
stable diffusion學習筆記
2024-03-09
筆記
Tiled Diffusion學習筆記
2024-03-26
筆記
無需複雜的數學描述，通過簡單程式碼理解卷積模組
2018-12-10
卷積
藉助ai來分析程式碼，理解程式碼
2024-04-02
AI
math-as-code數學即程式碼：數學符號和程式碼符號有什麼異同？
2020-06-13
符號
常用程式碼模板4——數學知識
2024-11-18
JS 的學習理解--->變數
2019-07-20
JS變數
我理解的Clean程式碼 - macerub
2020-08-05
Mac
關於diffusion model一些統計和數學的基礎知識
2024-05-05
零程式碼教你安裝部署Stable Diffusion 3，一鍵生成高質量影像
2024-07-12
程式碼規範&《數學之美》讀後感
2024-09-22
模型程式碼理解本地知識庫
2024-04-08
模型
Beam Search快速理解及程式碼解析
2021-11-02
Request 接收引數亂碼原理解析
2021-09-09
前端學習程式碼例項-JavaScript 生成隨機數
2019-04-30
前端JavaScript隨機
shell指令碼程式設計學習筆記——變數
2022-06-19
指令碼程式設計筆記變數
【HarmonyOS學習筆記】DevEco studio預設生成Hello World的程式碼理解
2020-09-23
筆記dev
機器學習(四)：通俗理解支援向量機SVM及程式碼實踐
2021-02-15
機器學習
【瞎寫程式碼】系列之redux表面理解
2019-04-09
Redux
精讀《對低程式碼搭建的理解》
2020-07-20
透過Python指令碼理解系統程式
2021-09-09
Python指令碼
diffusion model(一)：DDPM技術小結 (denoising diffusion probabilistic)
2024-05-24
使用 LoRA 進行 Stable Diffusion 的高效引數微調
2023-02-10
深入理解函數語言程式設計
2021-11-08
函數程式設計
[基礎] Stable Diffusion, High-Resolution Image Synthesis with Latent Diffusion Models
2024-03-14
工程數學上機實驗四：共軛梯度法程式設計程式碼
2024-06-08
梯度程式設計
第一行程式碼——書的理解
2019-01-14
行程
關於對健壯性程式碼的理解
2020-06-06
深入理解flutter的程式碼結構：元件
2024-06-05
Flutter元件
xss-程式碼角度理解與繞過filter
2021-06-05
Filter
Diffusion Model-DDPM
2024-06-22
統計程式碼行數
2021-01-13

Diffusion|DDIM 理解、數學、程式碼

DIFFUSION 系列筆記|DDIM 數學、思考與 ppdiffuser 程式碼探索

DDIM 總覽

Forward process

探索與思考

DDIM 與 DDPM 探索

嘗試去除 Clip 操作

DDIM 加速取樣

DDIM 取樣的確定性

影像重建

潛在的風格融合方式

參考

相關文章