KL散度非負性證明

cute_Learner發表於2022-02-02

1 KL散度

  KL散度(Kullback–Leibler divergence) 定義如下:

    $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)$

  目標:證明上式非負。

  PS:資訊理論基礎可以參考《機器學習——資訊理論基礎

2 凸函式與凹函式

  連續函式 $f(x)$ 的定義域為 $I$ ,如果對 $I$ 內任意兩個實數 $x_{1}$ , $x_{2}$ 及任意實數 $\lambda \in(0,1)$ ,都有

    $f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \leq \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right) \quad  \quad \quad (1)$
  則稱 $f(x)$  為 $I $ 上的凸函式(下凸)。
  若有
    $f\left(\lambda x_{1}+(1-\lambda) x_{2}\right) \geq \lambda f\left(x_{1}\right)+(1-\lambda) f\left(x_{2}\right) \quad  \quad \quad (2)$
  則稱 $f(x)$  為 $I$  上的凹函式(上凹)。

  舉例

    $log(x)$ 是凹函式,反之$-log(x)$ 是凸函式。

3 加權Jensen不等式

  若  $f(x)$  是區間  $[a, b]$  上的凸函式,則對任意的實數  $x_{1}, x_{2}, \cdots, x_{n} \in[a, b]  $,對所有非負實數  $a_{1}, a_{2}, \cdots a_{n} \geq 0$ ,  且  $a_{1}+a_{2}+\cdots+a_{n}=1 $ ,則下列不等式成立。

    $f\left(a_{1} x_{1}+a_{2} x_{2}+\cdots+a_{n} x_{n}\right) \leq a_{1} f\left(x_{1}\right)+a_{2} f\left(x_{2}\right)+\cdots+a_{n} f\left(x_{n}\right)$

4 證明KL散度非負性

  KL散度(Kullback–Leibler divergence) 定義如下:

    $D_{K L}=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)$

  其中:

    $\sum \limits_{i=1}^{n} P\left(x_{i}\right)=1$

  由於 $\log (x)$ 是凹函式,所以$-\log (x)$ 是凸函式,因此將 KL散度定義式先變形再應用加權Jensen不等式,得:

    $\begin{array}{l}D_{K L}&=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \log \left(\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}\right)\\ &=\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times\left(-\log \left(\frac{Q\left(x_{i}\right)}{P\left(x_{i}\right)}\right)\right) \\&\geq-\log \left(\sum\limits_{i=1}^{n} P\left(x_{i}\right) \times \frac{Q\left(x_{i}\right)}{P\left(x_{i}\right)}\right)\\&=-\log \left(\sum\limits_{i=1}^{n} Q\left(x_{i}\right)\right)\end{array}$

  Tips:Jensen不等式中的 $x_i$ 在這裡相當於 $\frac{P\left(x_{i}\right)}{Q\left(x_{i}\right)}$; $f $ 相當於 $-\log()$ ;$a_i$ 相當於 $P\left(x_{i}\right)$ 。

  由於 $Q\left(x_{i}\right)$ 是一個概率分佈,因此和  $P\left(x_{i}\right)$ 一樣滿足下面的式子 $\sum\limits _{i=1}^{n} Q\left(x_{i}\right)=1$ 
  因此可以得到
    $D_{K L} \geq-\log (1)=0$

  到此KL散度非負性得證。

相關文章