【課程筆記】中科大資訊理論(三)

木坑發表於2022-03-05

熵的鏈式法則

\[\begin{aligned} H(X, Y) &=\mathrm{E}\left[\log \frac{1}{p(X, Y)}\right] \\ &=\mathrm{E}\left[\log \frac{1}{p(X) p(Y \mid X)}\right] \\ &=\mathrm{E}\left[\log \frac{1}{p(X)}+\log \frac{1}{p(Y \mid X)}\right] \\ &=\mathrm{E}\left[\log \frac{1}{p(X)}\right]+\mathrm{E}\left[\log \frac{1}{p(Y \mid X)}\right] \\ &=H(X)+H(Y \mid X) \end{aligned} \]

  • 如果把求熵的負號寫在外面,容易出錯

  • 理解三個變數的鏈式法則\(p(x,y\mid z)=p(x\mid z)p(y\mid x,z)\)

    兩邊同乘\(p(z)\),將\(x,z\)看成一個整體,就變成了二元的鏈式法則

    \[p(y,x,z)=p(x,z)p(y|x,z) \]

  • 取期望的時候一定要小心

    • \(\mathrm{E}_{X,Y}\left[\log \frac{1}{p(X)}\right]=H(X)\)的計算方法

      1. 跳步驟的做法:因為內部只有\(X\),所以期望下標不用寫\(Y\)

        \[\mathrm{E}_{X,Y}\left[\log \frac{1}{p(X)}\right]=\mathrm{E}_{X}\left[\log \frac{1}{p(X)}\right]=H(X) \]

      2. 不跳步驟的做法:將連加符號拆開,\(\sum_{x,y,z} = \sum_{x} \sum_{y}\sum_{z}\)

        \[\begin{aligned} \mathrm{E}_{X,Y}\left[\log \frac{1}{p(X)}\right] &= \sum_{x,y}p(x,y)\log \frac{1}{p(X)} \\ &=\sum_{x}\left[\sum_{y}p(x,y)\right]\log \frac{1}{p(X)}\\ &=\sum_{x}p(x)\log \frac{1}{p(X)}\\ &= H(X) \end{aligned} \]

    • \(\mathrm{E}\left[\log \frac{1}{p(Y \mid X)}\right]\)的計算注意,期望是同時對\(X,Y\)取的,不是\(P(Y|X=x)\)。不忘初心!

鏈式法則的一般形式

\[H\left(X_{1}, X_{2}, \ldots, X_{n}\right)=\sum_{i=1}^{n} H\left(X_{i} \mid X_{i-1}, \ldots, X_{1}\right) \]

  • 藕斷絲連

    image-20220304105444355

    並不是單純的鏈,除非是Markov否則有影響

    感覺來自於條件概率的分步形式

  • 當計算條件概率(條件熵)更簡單時,相較於遍歷不同取值的概率,可以降低工作量

條件熵的界\(H(Y \mid X) \leq H(Y)\)

  • 依然使用做差+IT不等式證明

    • 做差的方向:由於IT不等式是\(\ln r\le r-1\),為了處理熵中的\(\log\)項,需要將對數放在左邊,因此要做差找到\(A-B\le 0\)的形式

    • IT不等式可以去除對數運算,便於計算期望

    • 條件分佈經常算不動,所以要乘回聯合分佈

      \[\frac{p(Y)}{p(Y\mid X)}=\frac{p(Y)p(X)}{p(Y\mid X)p(X)}=\frac{p(X)p(Y)}{p(X,Y)} \]

  • 從不確定度的角度理解條件熵:增加條件後,不確定度只可能減少,因此條件熵≤無條件熵

  • 變數間的關係(條件概率)比單獨某個事件更值得研究

條件熵的推論

  • \(H(Y \mid X, Z) \leq H(Y \mid Z)\)

    • 依然是做差+IT不等式,不過需要條件概率的拆分

      \[\begin{aligned} \mathrm{E}_{X,Y,Z}\left[\frac{p(Y\mid Z)p(X\mid Z)}{p(X,Y\mid Z)}\right] &= \sum_{x,y,z}p(x,y,z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)} \\ &=\sum_{x,y,z}p(z)p(x,y\mid z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)}\\ &=\sum_{x,y,z}p(z)p(x,y\mid z)\frac{p(y\mid z)p(x\mid z)}{p(x,y\mid z)}\\ &= \sum_{z}p(z)\sum_{y}\sum_{x}p(x\mid z)p(y\mid z)\\ &= 1 \end{aligned} \]

      條件概率求和時

      • \(\sum_{y}p(y\mid z)=1\)
      • \(\sum_{z,y}p(y\mid z)=\mid\mathcal{Z}\mid\)
    • 條件獨立和獨立一般不能互推,而獨立的條件一般比較強

  • \(H\left(X_{1}, X_{2}, \ldots, X_{n}\right) \leq H\left(X_{1}\right)+H\left(X_{2}\right)+\ldots+H\left(X_{n}\right)\)

    相互獨立時取等:\(X_1\)\(X_2\)獨立,\(X_3\)\(X_1,X_2\)獨立,則\(p(X_1X_2X_3)=p(X_1X_2)p(X_3)=p(X_1)p(X_2)p(X_3)\)

  • 當變數間的關係是函式關係

    • \(H(Y\mid X) = 0\) holds if there is a mapping \(f\) such that \(Y = f (X)\)

      \(p(y\mid x)=0~ \text{or}~1\),所以有\(H(f (X)\mid X) = 0\)

      充分非必要條件

    • \(H(f (X)) \le H(X)\) holds in general, and equality holds iff $ f$ is a bijection.

      兩種證明方法

      • 用定義,核心在於離散的對映關係,值域不會比定義域大

        當是雙射的時候,一一對應,因此熵等;

        當不是雙射的時候,存在概率的合併,以二元輸入\(p_i,p_j\)合併成\((p_i+p_j)\)為例,有

        \[\begin{aligned} h(p_i,p_j) &= -p_i\log(p_i)-pj\log(p_j) \\ &> -p_i\log(p_i+p_j)-p_j\log(p_i+p_j) \\ &= -(p_i+p_j)\log(p_i+p_j) \\ &= h(p_i+p_j) \end{aligned} \]

        由於概率合併過後,對數更大,取負後熵更小

      • 從兩個方向用鏈式法則展開

        \[\begin{aligned} H(X,f(X)) &= H(X)+H(f(X)\mid X) \\ &=H(f(X))+H(X\mid f(X)) \end{aligned} \]

        因此第二個等號兩邊可以看作天平

        其中\(H(f(X)\mid X)=0,H(X\mid f(X))\ge 0\),所以\(H(X)\)更大;同時當且僅當\(H(X\mid f(X))= 0\)時取等,也就是雙射

相關文章