資訊推斷
這部分屬於資訊理論與統計學相結合的部分,類似於機器學習的“隱變數”推斷,即通過觀測到的值來推測真實的資訊。相對於機器學習喜歡提出具體的推斷方法,資訊理論更關注推斷的性質是什麼,最高的推斷精度到哪裡?
假設檢驗
根據觀察,判別真相
在概率學中表述,就是從一堆概率分佈中選擇一個與觀測到的隨機變數最相符的
-
問題描述
\[\begin{aligned} &\mathcal{H}_{0}: \quad X \sim p_{0}(x) \text { ( "null") }\\ &\mathcal{H}_{1}: \quad X \sim p_{1}(x) \quad(\text { "alternative") } \end{aligned} \] -
指示變數\(\delta: X \mapsto\{0,1\}\),根據觀測到的值\(x\)判別是來自於哪個分佈
-
確定的
\[\begin{aligned} \delta(x) &=1 \quad \text { if } x \in X_{1} \\ &=0 \quad \text { if } x \in X \backslash X_{1}=X_{1}^{c} \end{aligned} \] -
隨機的
\[\tilde{\delta}(x)=P(\delta=1 \mid X=x) \]
-
接下來如何設計判別的標準?根據是否有先驗概率的假設,分為貝葉斯or奈曼皮爾遜假設檢驗
貝葉斯
前提假設
-
每個假設有先驗分佈
\[\begin{aligned} \pi_{0} &=P\left(X \sim p_{0}\right) \\ \pi_{1}=1-\pi_{0} &=P\left(X \sim p_{1}\right) \end{aligned} \] -
判斷正誤後都有代價:將真實分佈\(\mathcal{H}_{j}\)判斷為\(\mathcal{H}_{i}\)的代價 \(C_{i,j},i,j=0,1\)
-
貝葉斯風險(確定性判斷)
-
當真實分佈為\(\mathcal{H}_{j}\)時的風險
\[R_{j}(\delta)=C_{1, j} p_{j}\left(X_{1}\right)+C_{0, j} p_{j}\left(X_{1}^{c}\right) \]其中\(p_{j}\left(X_{1}\right)\)表示此時判斷為1的概率
-
進一步考慮先驗概率後的風險為
\[r(\delta)=\pi_{0} R_{0}(\delta)+\pi_{1} R_{1}(\delta) \label{1} \]
-
-
貝葉斯風險(隨機判斷)
-
條件風險
\[R_{j}(\tilde{\delta})=C_{1, j} \sum_{x \in \mathcal{X}} \tilde{\delta}(x) p_{j}(x)+C_{0, j} \sum_{x \in X}[1-\tilde{\delta}(x)] p_{j}(x) \] -
貝葉斯風險
\[r(\tilde{\delta})=\pi_{0} R_{0}(\tilde{\delta})+\pi_{1} R_{1}(\tilde{\delta}) \label{2} \]
-
最優解法
確定性判斷
核心目標是通過設計指示變數\(\delta\)來最小化貝葉斯風險
因此先把貝葉斯風險\(\eqref{1}\)展開、化簡
其中\(p_{0}\left(X_{1}^{c}\right)=1-p_{0}\left(X_{1}\right)\),第二個等號的第一行是常數,第三個等號來源於\(p_{1}\left(X_{1}\right)=\sum_{x \in X_{1}}p_{1}(x)\)
因此,我們要做的就是改變求和範圍\(X_{1}\),使得右邊求和最小
由於沒法改變到底負多少,因此只用讓求和項裡面是負的,就都拿進來,也就是滿足
不妨假設cost的相對大小,因此得到判決區間(似然比檢驗\(L(x)=\frac{p_{1}(x)}{p_{0}(x)}\))
當取特殊的cost時,簡化為
相當於綜合考慮先驗概率和在這個分佈中出現的概率(先驗分佈1出現的概率,乘上在這個分佈中出現\(x\)的概率,如果這個概率乘積大的話,那麼是分佈1的可能性就很高)
隨機判斷
按照上述思路,帶入\(\eqref{2}\)的結果,得到貝葉斯風險為
要讓這個值最小化,依然是隻要是中括號裡是負的,都拿進來,同時\(\tilde{\delta}(x)\)只能取0或者1,也就變成了和確定性判斷一樣的結果。
奈曼皮爾遜
既不考慮先驗概率,也不假設每個判斷帶來的cost,只要將判錯的概率最小化就行了。
具體而言,分別由虛警和漏檢兩種錯誤
- \(\mathcal{H}_{0}\) decided as \(\mathcal{H}_{1}\), its probability is denoted as \(P_{\mathrm{F}}(\tilde{\delta})\).
- \(\mathcal{H}_{1}\) decided as \(\mathcal{H}_{0}\), its probability is denoted as \(P_{\mathrm{M}}(\tilde{\delta})\); 或者研究檢測效率\(P_{\mathrm{D}}(\tilde{\delta})=1-P_{\mathrm{M}}(\tilde{\delta})\)
由於不可能兩個都很小,因此通常保證一個指標,優化另一個指標,也就是
虛警概率的約束又叫顯著性水平(也就是說沒有瞎jb報警)(生命科學裡取0.05)
上述優化問題可以轉換為指示變數與概率分佈的內積形式
最優解
Neyman-Pearson Lemma
在奈曼皮爾遜檢驗的準則下,最優判決的形式為
其中\(\eta \geq 0\)需要滿足\(P_{\mathrm{F}}(\tilde{\delta})=\alpha\),\(\gamma(x) \in[0,1]\)可以設定為一個常數
證明:
證明思路:最優的含義:如果有其他的判決方法\(\tilde{\delta}^{\prime}\)也滿足虛警要求,那它的檢測效率不能再提高,也就是要滿足\(P_{\mathrm{D}}(\tilde{\delta}) \geq P_{\mathrm{D}}\left(\tilde{\delta}^{\prime}\right)\)
做差有
對於\(\eqref{3}\)而言,有
當 \(p_{1}(x)>\eta p_{0}(x), \tilde{\delta}(x)=1, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \geq 0\);
當\(p_{1}(x)<\eta p_{0}(x), \tilde{\delta}(x)=0, \Rightarrow \tilde{\delta}(x)-\tilde{\delta}^{\prime}(x) \leq 0\)
整理後就得到不等式
替換\(\eqref{4}\)中的式子,得到
因此這個形式是最優的。
- 對於any other最優的解釋,這裡的any other一定還是有一些性質被限制住的,比如這裡一個是\(\tilde{\delta}(x)\in [0,1]\),另一個是虛警概率\(P_{\mathrm{F}}\left(\tilde{\delta}^{\prime}\right)\le\alpha\)
意義
- 還是一個巧妙的構造性證明,
- 不管是貝葉斯還是奈曼皮爾遜,核心都是似然比