兩個多維高斯分佈之間的KL散度推導

頎周發表於2020-10-12

原文網址 : https://www.cnblogs.com/qizhou/p/13804283.html

　　在深度學習中，我們通常對模型進行抽樣並計算與真實樣本之間的損失，來估計模型分佈與真實分佈之間的差異。並且損失可以定義得很簡單，比如二範數即可。但是對於已知引數的兩個確定分佈之間的差異，我們就要通過推導的方式來計算了。

　　下面對已知均值與協方差矩陣的兩個多維高斯分佈之間的KL散度進行推導。當然，因為便於分佈之間的逼近，Wasserstein distance可能是衡量兩個分佈之間差異的更好方式，但這個有點難，以後再記錄。

　　首先定義兩個$n$維高斯分佈如下：

$\begin{aligned} &p(x) = \frac{1}{(2\pi)^{0.5n}|\Sigma|^{0.5}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)\\ &q(x) = \frac{1}{(2\pi)^{0.5n}|L|^{0.5}}\exp\left(-\frac{1}{2}(x-m)^T L^{-1}(x-m)\right)\\ \end{aligned}$

　　需要計算的是：

$\begin{aligned} \text{KL}(p||q) = \text{E}_p\left(\log\frac{p(x)}{q(x)}\right) \end{aligned}$

　　為了方便說明，下面分步進行推導。首先：

$\begin{aligned} \frac{p(x)}{q(x)} &= \frac {\frac{1}{(2\pi)^{0.5n}|\Sigma|^{0.5}}\exp\left(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right)} {\frac{1}{(2\pi)^{0.5n}|L|^{0.5}}\exp\left(-\frac{1}{2}(x-m)^T L^{-1}(x-m)\right)}\\ &=\left(\frac{|L|}{|\Sigma|}\right)^{0.5}\exp\left(\frac{1}{2}(x-m)^T L^{-1}(x-m) -\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right) \end{aligned}$

　　然後加上對數：

$\begin{aligned} \log\frac{p(x)}{q(x)} &= \frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu) \end{aligned}$

　　再加上期望：

$\begin{aligned} \text{E}_p\log\frac{p(x)}{q(x)} &=\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \text{E}_p\left[\frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]\\ &=\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \text{E}_p\text{Tr}\left[\frac{1}{2}(x-m)^T L^{-1}(x-m) - \frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right]\\ \end{aligned}$

　　第二步是因為結果為標量，可以轉換為計算跡的形式。接著由跡的平移不變性得：

$\begin{align} &\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \text{E}_p\text{Tr} \left[ \frac{1}{2}L^{-1}(x-m)(x-m)^T - \frac{1}{2}\Sigma^{-1}(x-\mu)(x-\mu)^T \right]\\ = &\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \frac{1}{2}\text{E}_p\text{Tr} \left(L^{-1}(x-m)(x-m)^T\right) - \frac{1}{2}\text{E}_p\text{Tr} \left(\Sigma^{-1}(x-\mu)(x-\mu)^T\right) \\ = &\frac{1}{2}\log\frac{|L|}{|\Sigma|}+ \frac{1}{2}\text{E}_p\text{Tr} \left(L^{-1}(x-m)(x-m)^T\right) - \frac{n}{2} \end{align}$

　　其中最後一項是因為，首先期望與跡可以調換位置，然後$(x-\mu)(x-\mu)^T$在分佈$p$下的期望就是對應的協方差矩陣$\Sigma$，於是得到一個$n$維單位陣，再計算單位陣的跡為$n$。

　　接下來，把中間項提出來推導，得：

$\begin{align} &\frac{1}{2}\text{E}_p\text{Tr} \left(L^{-1}(x-m)(x-m)^T\right)\\ =&\frac{1}{2}\text{Tr}\left(L^{-1}\text{E}_p \left(xx^T-xm^T-mx^T+mm^T \right) \right) \\ =&\frac{1}{2}\text{Tr}\left(L^{-1} \left(\Sigma +\mu\mu^T-2\mu m^T+mm^T \right) \right) \end{align}$

　　其中$\text{E}_p(xx^T) = \Sigma + \mu\mu^T$推導如下：

$\begin{aligned} \Sigma &= \text{E}_p\left[(x-\mu)(x-\mu)^T\right]\\ &= \text{E}_p\left(xx^T-x\mu^T-\mu x^T+\mu\mu^T\right)\\ &= \text{E}_p\left(xx^T\right)-2\text{E}_p\left(x\mu^T\right)+\mu\mu^T \\ &= \text{E}_p\left(xx^T\right)-\mu\mu^T \\ \end{aligned}$

　　接著推導$(6)$式：

$\begin{aligned} &\frac{1}{2}\text{Tr}\left(L^{-1} \left(\Sigma +\mu\mu^T-2\mu m^T+mm^T \right) \right) \\ = &\frac{1}{2}\text{Tr}\left(L^{-1}\Sigma +L^{-1} (\mu-m)(\mu-m)^T \right) \\ = &\frac{1}{2}\text{Tr}\left(L^{-1}\Sigma\right)+ \frac{1}{2}(\mu-m)L^{-1}(\mu-m)^T \\ \end{aligned}$

　　最後代回$(3)$式，得到最終結果：

$\begin{aligned} \text{E}_p\log\frac{p(x)}{q(x)} =&\frac{1}{2}\left\{ \log\frac{|L|}{|\Sigma|}+ \text{Tr}\left(L^{-1}\Sigma\right)+ (\mu-m)L^{-1}(\mu-m)^T - n \right\} \end{aligned}$

　　參考於：兩個多維高斯分佈的Kullback-Leibler divergence(KL散度)

關於 KL 散度和變分推斷的 ELBO
2024-06-23
SciTech-BigDataAIML-KLD(KL散度)：測度比較"兩Distribution(機率分佈)"的Similarity(接近度)
2024-10-26
AIMILA
多元/多維高斯/正態分佈機率密度函式推導 (Derivation of the Multivariate/Multidimensional Normal/Gaussian Density)
2024-08-11
函式ORM
kl散度如何計算
2024-07-22
擴散模型中的後驗分佈方差推導
2024-10-06
模型
KL散度非負性證明
2022-02-02
資訊熵，交叉熵與KL散度
2021-06-29
熵
從夏農資訊量到KL散度
2021-01-02
高斯公式對高斯定理的推導
2024-05-28
公式
3分鐘tips：高斯分佈和高斯積分的關係
2018-04-06
機器學習--白板推導系列筆記2 概率：高斯分佈之極大似然估計
2019-04-15
機器學習筆記
交叉熵、KL 散度 | 定義與相互關係
2024-07-25
熵
用Python擬合兩個高斯分佈及其在密度函式上的表現
2024-03-04
Python函式
【機器學習基礎】熵、KL散度、交叉熵
2018-09-27
機器學習熵
恐怖遊戲的兩個維度
2020-06-04
遊戲
資訊理論之從熵、驚奇到交叉熵、KL散度和互資訊
2023-04-15
熵
$\Beta$分佈推導與視覺化
2023-04-14
視覺化
PPO-KL散度近端策略最佳化玩cartpole遊戲
2024-05-15
遊戲
三大分佈密度函式推導
2024-12-10
函式
機器學習--白板推導系列筆記3 概率：高斯分佈之有偏估計與無偏估計
2019-04-15
機器學習筆記
兩個double之間的運算
2020-12-03
玻爾茲曼能量分佈律及麥克斯韋速度分佈推導
2024-05-12
多變數兩兩相互關係聯合分佈圖的Python繪製
2023-02-13
變數Python
快速排序平均時間複雜度O(nlogn)的推導
2021-11-13
排序時間複雜度
JavaScript計算兩個時間點之間的時間差
2018-07-04
JavaScript
兩個JS之間的函式互相呼叫
2018-10-09
JS函式
數理統計6：泊松分佈，泊松分佈與指數分佈的聯絡，離散分佈引數估計
2021-02-04
【翻譯】擬合與高斯分佈 [Curve fitting and the Gaussian distribution]
2021-07-21
p5.js基本[一] T型高斯分佈的小星星
2020-11-20
JS
二維或三維的分佈積分方法（格林公式）7
2024-10-07
公式
awk取文字中兩個字串之間的部分
2018-05-10
字串
AbutionGraph中的多標籤/多維度
2021-01-01
通過sql 計算兩經緯度之間的距離
2020-10-14
SQL
多維標度法
2024-10-11
【Spring AOP】暴力打通兩個切面之間的通訊
2022-03-29
Spring
Java 中，如何計算兩個日期之間的差距？
2020-12-21
Java
mysql 擷取指定的兩個字串之間的內容
2021-09-09
MySql字串
CSS箭頭引導的分佈效果
2018-05-23
CSS

兩個多維高斯分佈之間的KL散度推導

相關文章