【課程筆記】中科大資訊理論(六)

木坑發表於2022-04-09

資訊推斷

這部分屬於資訊理論與統計學相結合的部分,類似於機器學習的“隱變數”推斷,即通過觀測到的值來推測真實的資訊。相對於機器學習喜歡提出具體的推斷方法,資訊理論更關注推斷的性質是什麼,最高的推斷精度到哪裡?

假設檢驗

根據觀察,判別真相

在概率學中表述,就是從一堆概率分佈中選擇一個與觀測到的隨機變數最相符的

  • 問題描述

    \[\begin{aligned} &\mathcal{H}_{0}: \quad X \sim p_{0}(x) \text { ( "null") }\\ &\mathcal{H}_{1}: \quad X \sim p_{1}(x) \quad(\text { "alternative") } \end{aligned} \]

  • 指示變數\(\delta: X \mapsto\{0,1\}\),根據觀測到的值\(x\)判別是來自於哪個分佈

    • 確定的

      \[\begin{aligned} \delta(x) &=1 \quad \text { if } x \in X_{1} \\ &=0 \quad \text { if } x \in X \backslash X_{1}=X_{1}^{c} \end{aligned} \]

    • 隨機的

      \[\tilde{\delta}(x)=P(\delta=1 \mid X=x) \]

接下來如何設計判別的標準?根據是否有先驗概率的假設,分為貝葉斯or奈曼皮爾遜假設檢驗

貝葉斯

前提假設

  • 每個假設有先驗分佈

    \[\begin{aligned} \pi_{0} &=P\left(X \sim p_{0}\right) \\ \pi_{1}=1-\pi_{0} &=P\left(X \sim p_{1}\right) \end{aligned} \]

  • 判斷正誤後都有代價:將真實分佈\(\mathcal{H}_{j}\)判斷為\(\mathcal{H}_{i}\)的代價 \(C_{i,j},i,j=0,1\)

  • 貝葉斯風險(確定性判斷)

    • 當真實分佈為\(\mathcal{H}_{j}\)時的風險

      \[R_{j}(\delta)=C_{1, j} p_{j}\left(X_{1}\right)+C_{0, j} p_{j}\left(X_{1}^{c}\right) \]

      其中\(p_{j}\left(X_{1}\right)\)表示此時判斷為1的概率

    • 進一步考慮先驗概率後的風險為

      \[r(\delta)=\pi_{0} R_{0}(\delta)+\pi_{1} R_{1}(\delta) \label{1} \]

  • 貝葉斯風險(隨機判斷)

    • 條件風險

      \[R_{j}(\tilde{\delta})=C_{1, j} \sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{j}(x)+C_{0, j} \sum_{x \in X}[1-\tilde{\delta}(x)] p_{j}(x) \]

    • 貝葉斯風險

      \[r(\tilde{\delta})=\pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \label{2} \]

最優解法

確定性判斷

核心目標是通過設計指示變數\(\delta\)來最小化貝葉斯風險

因此先把貝葉斯風險\(\eqref{1}\)展開、化簡

\[\begin{aligned} r(\delta)&= \pi_{0} C_{1,0} p_{0}\left(X_{1}\right)+\pi_{0} C_{0,0} p_{0}\left(X_{1}^{c}\right) \\ & \quad+\pi_{1} C_{1,1} p_{1}\left(X_{1}\right)+\pi_{1} C_{0,1} p_{1}\left(X_{1}^{c}\right) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ & \quad+\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}\left(X_{1}\right)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}\left(X_{1}\right) \\ &= \text { constant }+\sum_{x \in X_{1}}\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

其中\(p_{0}\left(X_{1}^{c}\right)=1-p_{0}\left(X_{1}\right)\),第二個等號的第一行是常數,第三個等號來源於\(p_{1}\left(X_{1}\right)=\sum_{x \in X_{1}}p_{1}(x)\)

因此,我們要做的就是改變求和範圍\(X_{1}\),使得右邊求和最小

由於沒法改變到底負多少,因此只用讓求和項裡面是負的,就都拿進來,也就是滿足

\[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x) \leq 0 \quad \text { if } x \in X_{1} \]

不妨假設cost的相對大小,因此得到判決區間(似然比檢驗\(L(x)=\frac{p_{1}(x)}{p_{0}(x)}\)

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}} \frac{C_{1,0}-C_{0,0}}{C_{0,1}-C_{1,1}}\right\} \]

當取特殊的cost時,簡化為

\[X_{1}=\left\{x \in X: \frac{p_{1}(x)}{p_{0}(x)} \geq \frac{\pi_{0}}{\pi_{1}}\right\} \]

相當於綜合考慮先驗概率和在這個分佈中出現的概率(先驗分佈1出現的概率,乘上在這個分佈中出現\(x\)的概率,如果這個概率乘積大的話,那麼是分佈1的可能性就很高)

隨機判斷

按照上述思路,帶入\(\eqref{2}\)的結果,得到貝葉斯風險為

\[\begin{aligned} r(\tilde{\delta})&= \pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \\ &= \pi_{0} C_{0,0}+\pi_{1} C_{0,1} \\ &+\sum_{x \in X} \tilde{\delta}(x)\left[\pi_{0}\left(C_{1,0}-C_{0,0}\right) p_{0}(x)+\pi_{1}\left(C_{1,1}-C_{0,1}\right) p_{1}(x)\right] \end{aligned} \]

要讓這個值最小化,依然是隻要是中括號裡是負的,都拿進來,同時\(\tilde{\delta}(x)\)只能取0或者1,也就變成了和確定性判斷一樣的結果

奈曼皮爾遜

既不考慮先驗概率,也不假設每個判斷帶來的cost,只要將判錯的概率最小化就行了

具體而言,分別由虛警和漏檢兩種錯誤

  • \(\mathcal{H}_{0}\) decided as \(\mathcal{H}_{1}\), its probability is denoted as \(P_{\mathrm{F}}(\tilde{\delta})\).
  • \(\mathcal{H}_{1}\) decided as \(\mathcal{H}_{0}\), its probability is denoted as \(P_{\mathrm{M}}(\tilde{\delta})\); 或者研究檢測效率\(P_{\mathrm{D}}(\tilde{\delta})=1-P_{\mathrm{M}}(\tilde{\delta})\)

由於不可能兩個都很小,因此通常保證一個指標,優化另一個指標,也就是

\[\begin{aligned} & \max _{\tilde{\delta}} P_{\mathrm{D}}(\tilde{\delta}) \\ \text { s.t. } \quad & P_{\mathrm{F}}(\tilde{\delta}) \leq \alpha \end{aligned} \]

虛警概率的約束又叫顯著性水平(也就是說沒有瞎jb報警)(生命科學裡取0.05)

上述優化問題可以轉換為指示變數與概率分佈的內積形式

\[\begin{aligned} P_{\mathrm{F}}(\tilde{\delta})&=p_{0}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{0}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{0}(x) .\\ P_{\mathrm{D}}(\tilde{\delta})&=p_{1}(\delta=1)\\ &=\sum_{x \in X} P(\delta=1 \mid X=x) p_{1}(x)\\ &=\sum_{x \in X} \tilde{\delta}(x) p_{1}(x) . \end{aligned} \]

最優解

Neyman-Pearson Lemma

在奈曼皮爾遜檢驗的準則下,最優判決的形式為

\[\begin{aligned} \tilde{\delta}(x) &=1 \text { if } L(x)>\eta \\ &=0 \text { if } L(x)<\eta \\ &=\gamma(x) \text { if } L(x)=\eta \end{aligned}\label{3} \]

其中\(\eta \geq 0\)需要滿足\(P_{\mathrm{F}}(\tilde{\delta})=\alpha\)\(\gamma(x) \in[0,1]\)可以設定為一個常數

證明:

證明思路:最優的含義:如果有其他的判決方法\(\tilde{\delta}^{\prime}\)滿足虛警要求,那它的檢測效率不能再提高,也就是要滿足\(P_{\mathrm{D}}(\tilde{\delta}) \geq P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right)\)

做差有

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) &=\sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{1}(x)-\sum_{x \in \mathcal{X}} \tilde{\delta}^{\prime}(x) p_{1}(x) \\ &=\sum_{x \in \mathcal{X}}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{1}(x) . \end{aligned}\label{4} \]

對於\(\eqref{3}\)而言,有

\(p_{1}(x)>\eta p_{0}(x), \tilde{\delta}(x)=1, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \geq 0\);

\(p_{1}(x)<\eta p_{0}(x), \tilde{\delta}(x)=0, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \leq 0\)

整理後就得到不等式

\[\left[p_{1}(x)-\eta p_{0}(x)\right]\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] \geq 0, \quad \forall x \in X \]

替換\(\eqref{4}\)中的式子,得到

\[\begin{aligned} P_{\mathrm{D}}(\tilde{\delta})-P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right) & \geq \eta \sum_{x \in X}\left[\tilde{\delta}(x)-\tilde{\delta}^{\prime}(x)\right] p_{0}(x) \\ &=\eta[\underbrace{P_{\mathrm{F}}(\tilde{\delta})}_{=\alpha}-\underbrace{P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)}_{\leq \alpha}] \geq 0 \end{aligned} \]

因此這個形式是最優的。

  • 對於any other最優的解釋,這裡的any other一定還是有一些性質被限制住的,比如這裡一個是\(\tilde{\delta}(x)\in [0,1]\),另一個是虛警概率\(P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)\le\alpha\)

意義

  • 還是一個巧妙的構造性證明,
  • 不管是貝葉斯還是奈曼皮爾遜,核心都是似然比

相關文章