DDMP中的損失函式

星辰大海,绿色星球發表於2024-06-16

原文網址 : https://www.cnblogs.com/wolfling/p/18250729

接著擴散模型簡述訓練擴散模型過程中用到的損失函式形式。完整的觀察資料\(x\)的對數似然如下：

\[\begin{aligned} \mathrm{log}\ p(x) &\geq \mathbb{E}_{q_{\phi}(z_{1:T}|z_0)} \mathrm{log} \frac{p(z_T)\prod_{t=0}^{T-1}p_{\theta}(z_t|z_{t+1})}{\prod_{t=0}^{T-1}q_{\phi}(z_{t+1}|z_t)} \\ &= \mathbb{E}_{q_{\phi}(z_{1}|z_0)} [\mathrm{log}\ p_{\theta}(z_0|z_1) ] - \mathbb{D}_{KL}(q_{\phi}(z_T|z_0)||p(z_T)) - \sum_{t=2}^{T} \mathbb{E}_{q_{\phi}(z_t|z_0)} [ \mathbb{D}_{KL}(q_{\phi}(z_{t-1}|z_t,z_0)||p_{\theta}(z_{t-1}|z_t)) ] \end{aligned} \tag {1} \]

其中，\(q_{\phi}(z_{t-1}|z_t,z_0)\)為了便於計算，已經近似為高斯分佈

\[\mathcal N(\mu_q(z_t,z_0), \Sigma_q(t)) \tag {2}\]

\[\mu_q(z_t, z_0) = \frac{\alpha_t(1-\bar{\alpha}_{t-1}^2) z_t + \bar{\alpha}_{t-1}( 1 - \alpha_t^2 ) z_0 }{ 1 - \bar {\alpha}_t^2 } \tag {3} \]

\[\Sigma_q(t) = \frac{ (1 - \alpha_t^2) (1 - \bar{\alpha}_{t-1}^2) }{ 1 - \bar{\alpha}_{t}^2 }I \tag {4} \]

形式一

為了使得去噪過程\(p_{\theta}(z_{t-1}|z_t)\)和“真實”的\(q_{\phi}(z_{t-1}|z_t,z_0)\)儘可能接近，因此也可以將\(p_{\theta}(z_{t-1}|z_t)\)建模為一個高斯分佈。又由於所有的\(\alpha\)項在每個時間步都是固定的，因此可以將其方差設計與“真實”的\(q(z_{t-1}|z_t,z_0)\)的方差是一樣的。且這個高斯分佈與初始值\(z_0\)是無關的，因此可以將其均值設計為關於\(z_t, t\)的函式，即設為\(\mu_{\theta}(z_t,t)\).

考慮兩個高斯分佈的KL散度等於

\[\begin{aligned} & \ \ \ \ \mathbb{D}_{KL} ( \mathcal N(x;\mu_x,\Sigma_x) || \mathcal N(y;\mu_y,\Sigma_y)) \\ & = \frac{1}{2}[log\frac{|\Sigma_y|}{|\Sigma_x|} - d + tr(\Sigma_y^{-1}\Sigma_x) + (\mu_y-\mu_x)^T\Sigma_y^{-1}(\mu_y-\mu_x)] \end{aligned} \tag {5} \]

應用到公式（1）中的第三項，因此有

\[\begin{aligned} & \ \ \ \ \mathbb{D}_{KL} ( \mathcal N(z_{t-1};\mu_q(z_t,z_0),\Sigma_q(t)) || \mathcal N(z_{t-1};\mu_{\theta}(z_t,t),\Sigma_q(t))) \\ & = \frac{1}{2\sigma_{q}^2(t)}||\mu_{\theta}(x_t,t) - \mu_{q}(x_t,x_0)||^2 \end{aligned} \tag {6} \]

其中\(\sigma_{q}^2(t)\)是公式(4)前的係數即\(\sigma_{q}^2(t)= \frac{ (1 - \alpha_t^2) (1 - \bar{\alpha}_{t-1}^2) }{ 1 - \bar{\alpha}_{t}^2 }\)

由於\(\mu_{\theta}(x_t,t)\)也是\(x_t\)的函式，因此，可以參考公式（3）的形式，將進一步假設

\[\mu_{\theta}(x_t, t) = \frac{\alpha_t(1-\bar{\alpha}_{t-1}^2) z_t + \bar{\alpha}_{t-1}( 1 - \alpha_t^2 ) z_{\theta}(z_t, t) }{ 1 - \bar {\alpha}_t^2 } \tag {7} \]

這樣公式（6）進一步化簡為

\[\begin{aligned} & \ \ \ \ \mathbb{D}_{KL} ( \mathcal N(z_{t-1};\mu_q(z_t,z_0),\Sigma_q(t)) || \mathcal N(z_{t-1};\mu_{\theta}(z_t,t),\Sigma_q(t))) \\ & = \frac{1}{2\sigma_{q}^2(t)} \frac{\bar{\alpha}_{t-1}^2( 1 - \alpha_t^2 )^2}{ (1 - \bar {\alpha}_t^2)^2} ||z_{\theta}(z_t,t) - z_0||^2 \end{aligned} \tag {8} \]

至此，最佳化VDM就變成了學習一個神經網路，從樣本任意時刻的加噪版本預測出其原來的樣本。最終最小化公式（1）中的第三項，等價於最小化關於時間步的期望,因此有

\[arg min \mathbb{E}_{t \sim U\{2,T\}} [ \mathbb{E}_{q_{\phi}(z_t|z_0)}[ \mathbb{D}_{KL}(q_{\phi}(z_{t-1}|z_t,z_0)||p_{\theta}(z_{t-1}|z_t)) ] ] \]

形式二

由

\[z_t = \bar \alpha_t z_0 + \sqrt{1-\bar {\alpha}_t^2} \bar \epsilon_t \tag {9} \]

可得

\[z_0 = \frac{z_t - \sqrt{(1-\bar {\alpha}_t^2)} \bar {\epsilon}_t}{\bar {\alpha}_t} \tag {10} \]

再代入公式（3）得

\[\mu_q(x_t,x_0) = \frac{1}{\alpha_t}x_t - \frac{1-\alpha_t^2}{\sqrt{1-\bar{\alpha}_t^2} \alpha_t} \bar \epsilon_t \tag{11} \]

參考形式一中的假設方式，可以假設

\[\mu_{\theta}(x_t,t) = \frac{1}{\alpha_t}x_t - \frac{1-\alpha_t^2}{\sqrt{1-\bar{\alpha}_t^2} \alpha_t} \epsilon_{\theta}(z_t, t) \tag{12} \]

再代入公式（6）可以得到

\[\begin{aligned} & \ \ \ \ \mathbb{D}_{KL} ( \mathcal N(z_{t-1};\mu_q(z_t,z_0),\Sigma_q(t)) || \mathcal N(z_{t-1};\mu_{\theta}(z_t,t),\Sigma_q(t))) \\ & = \frac{1}{2\sigma_{q}^2(t)} \frac{( 1 - \alpha_t^2 )^2}{ (1 - \bar {\alpha}_t^2)\alpha_t^2} ||\epsilon_{\theta}(z_t,t) - \epsilon_t||^2 \end{aligned} \tag {12} \]

至此，最佳化VDM就變成了學習一個神經網路，從樣本任意時刻的加噪版本預測出按照公式（10）新增的原始噪音。

形式三

由公式（8）和公式（12）可以得到

\[||\epsilon_{\theta}(z_t,t) - \epsilon_t||^2 = \frac{\bar{\alpha_t}^2}{1-\bar{\alpha_t}^2} ||z_{\theta}(z_t,t) - z_0||^2 \tag{13} \]

由於\(\bar {\alpha_t}, \sqrt{1-\bar {\alpha_t}^2}\) 分別是\(t\)時間步的加噪訊號公式(9)中的原始訊號和噪音訊號係數，因此將訊雜比SNR(t)定義為係數平方之比，即

\[SNR(t) = \frac{\bar{\alpha_t}^2}{1-\bar{\alpha_t}^2} \tag {14} \]

這個訊雜比在時間步初期其值較大，代表真實訊號佔比多噪音佔比少；在時間步後期其值較小，代表真實訊號佔比少噪音佔比多。因為推理過程是完全從高斯分佈隨機取樣，為了保證推理與訓練保持一致，訓練過程採取特定的\(\bar {\alpha}_t\)使得T步得到的是完全噪音，不包含任何原始訊號。此時訊雜比是0.

當預測傳送在訊雜比接近0(\(\bar \alpha_t \to 0\))時，模型原始預測是噪音\(\bar \epsilon\)，因此根據公式（10）預估對應的原始訊號

\[\bar z_0 = \frac{z_t - \sqrt{(1-\bar {\alpha}_t^2)} \bar {\epsilon}}{\bar {\alpha}_t} \]

這樣網路預測的微小差異就會被放大很多倍，因此在論文[3]模型蒸餾過程，這就不是一個穩定的設計。為了避免這個問題，作者提出了3種解決辦法。

直接預測\(z\)，而非噪音\(\epsilon\)
同時預測\(z, \epsilon\)，透過兩個獨立的輸出通道\(z, \epsilon\)。由於根據公式（10）可以再由\(\epsilon\)再推斷出\(z^{'}\)，然後可以根據\(\bar \alpha_t^2, 1-\bar \alpha_t^2\)對這兩個值進行差值。
預測混合體 \(v=\alpha_t\epsilon - \sqrt{1-\alpha_t^2}z\)

參考

[1]. https://www.cnblogs.com/wolfling/p/17938102
[2]. Understanding Diffusion Models: A Unified Perspective
[3]. Progressive Distillation for Fast Sampling of Diffusion Models

Pytorch中的損失函式
2020-10-22
PyTorch函式
損失函式
2020-11-27
函式
3D高斯損失函式（1）單純損失函式
2024-06-28
3D函式
例項解釋NLLLoss損失函式與CrossEntropyLoss損失函式的關係
2022-07-18
函式ROS
損失函式綜述
2018-05-06
函式
Triplet Loss 損失函式
2018-04-23
函式
Pytorch 常用損失函式
2020-11-26
PyTorch函式
SSD的損失函式設計
2020-12-22
函式
PyTorch：損失函式loss function
2020-10-21
PyTorch函式Function
TensorFlow損失函式專題
2020-04-06
函式
詳解常見的損失函式
2018-07-12
函式
談談交叉熵損失函式
2019-04-12
熵函式
邏輯迴歸損失函式
2018-04-10
邏輯迴歸函式
聊聊損失函式1. 噪聲魯棒損失函式簡析 & 程式碼實現
2023-01-01
函式
2.3邏輯迴歸損失函式
2020-12-16
邏輯迴歸函式
理解神經網路的不同損失函式
2019-06-21
神經網路函式
TensorFlow筆記-06-神經網路優化-損失函式,自定義損失函式,交叉熵
2018-09-12
筆記神經網路優化函式熵
深度人臉識別中不同損失函式的效能對比
2019-02-07
函式
邏輯迴歸損失函式(cost function)
2018-04-10
邏輯迴歸函式Function
圖示Softmax及交叉熵損失函式
2018-09-14
熵函式
焦點損失函式 Focal Loss 與 GHM
2020-08-01
函式
邏輯迴歸：損失函式與梯度下降
2018-04-10
邏輯迴歸函式梯度
人臉識別損失函式疏理與分析
2020-08-04
函式
3D高斯損失函式（2）新增BA最佳化和結構損失
2024-06-28
3D函式
一種基於均值不等式的Listwise損失函式
2020-10-06
函式
tensorflow2 自定義損失函式使用的隱藏坑
2021-07-26
函式
換個角度看GAN：另一種損失函式
2019-01-02
函式
神經網路基礎部件-損失函式詳解
2023-01-13
神經網路函式
梯度提升二三事：怎麼來自定義損失函式？
2018-10-09
梯度函式
機器學習者都應該知道的五種損失函式！
2018-06-19
機器學習函式
【機器學習基礎】常見損失函式總結
2021-11-09
機器學習函式
神經網路損失函式中的正則化項L1和L2
2018-05-07
神經網路函式
無需手工設計，從零開始搜尋損失函式
2021-03-31
函式
瞭解GAN背後的設計，訓練，損失函式和演算法
2019-01-28
函式演算法
損失函式是學習的指揮棒——記一次工作實踐
2020-07-08
函式
機器學習從業者必知的5種迴歸損失函式
2019-03-03
機器學習函式
簡單介紹tensorflow2 自定義損失函式使用的隱藏坑
2021-08-10
函式
深度學習之PyTorch實戰（5）——對CrossEntropyLoss損失函式的理解與學習
2023-04-09
深度學習PyTorchROS函式

DDMP中的損失函式

形式一

形式二

形式三

參考

相關文章