數理統計8：點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法

江景景景頁發表於2021-02-08

原文網址 : https://www.cnblogs.com/jy333/p/14388767.html

在之前的學習中，主要基於充分統計量給出點估計，並且注重於點估計的無偏性與相合性。然而，僅有這兩個性質是不足的，無偏性只能保證統計量的均值與待估引數一致，卻無法控制統計量可能偏離待估引數的程度；相合性只能在大樣本下保證統計量到均值的收斂性，但卻對小樣本情形束手無策。今天我們將注重於統計量的有效性，即無偏統計量的抽樣分佈的方差。由於本系列為我獨自完成的，缺少審閱，如果有任何錯誤，歡迎在評論區中指出，謝謝！

Part 1：一致最小方差無偏估計

首先考慮這樣的問題：如何刻畫一個統計量的有效程度？注意到，一個統計量的取值既可能高於待估引數，亦可能低於待估引數，要綜合考慮統計量對待估引數誤差，需要用平方均衡這種雙向偏差，因此，提出均方誤差的概念：若\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的估計量，則\(\hat g(\boldsymbol{X})\)的均方誤差定義為

\[\mathrm{MSE}(\hat g(\boldsymbol{X}))= \mathbb{E}[\hat g(\boldsymbol{X})-g(\theta)]^2. \]

對於確定的統計量\(\hat g(\boldsymbol{X})\)而言，\(\mathrm{MSE}(\hat g(\boldsymbol{X}))\)是\(\theta\)的函式。顯然，一個統計量的均方誤差越小，它就越在待估引數真值附近環繞，由此，用統計量的一次觀測值作為待估引數的估計就有著越大的把握。

如果對於\(g(\theta)\)的兩個估計量\(\hat g_1(\boldsymbol{X})\)和\(\hat g_2(\boldsymbol{X})\)，恆有\(\mathrm{MSE}(\hat g_1(\boldsymbol{X}))\le \mathrm{MSE}(\hat g_2(\boldsymbol{X}))\)，且嚴格不等號至少在某個\(\theta\)處成立，就稱\(\hat g_1(\boldsymbol{X})\)在均方誤差準則下優於\(\hat g_2(\boldsymbol{X})\)。如果我們能找到均方誤差最小的統計量\(\hat g(\boldsymbol{X})\)，就相當於找到了均方誤差準則下的最優統計量。

不過，均方誤差是\(\theta\)的函式，這就導致了某些統計量在\(\theta=\theta_1\)時均方誤差小，在\(\theta=\theta_2\)時均方誤差大，一致最小均方誤差估計量便不存在，需要增加約束條件，找到更可能存在的“最優”。

基於此，我們提出一致最小方差無偏估計(UMVUE)的概念，它將\(g(\theta)\)的估計量限制在了無偏估計之中，這使得UMVUE的存在可能性得以提高。並且，由於\(\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta)\)，所以

\[\mathrm{MSE}(\hat g(\boldsymbol{X}))=\mathbb{E}(\hat g(\boldsymbol{X})-g(\theta))^2=\mathbb{E}[\hat g(\boldsymbol{X})-\mathbb{E}(\hat g(\boldsymbol{X}))]^2=\mathbb{D}(\hat g(\boldsymbol{X})), \]

即無偏估計的均方誤差就是無偏估計的方差。

不過首先要提出的是，UMVUE往往比一致最小均方誤差估計量更容易存在，但依然不是所有引數都存在UMVUE的，並且，甚至可能有的引數根本不存在無偏估計。

以下是一個典型的不存在無偏估計的例子：\(X\sim B(n,p)\)，引數\(g(p)=1/p\)的無偏估計不存在。書上給出的證明過程如下：

首先，無偏估計不依賴於樣本容量，故假設\(n=1\)。若\(g(p)\)有無偏估計\(\hat g(X)\)，則由於\(X=0,1,\cdots,n\)，故\(\hat g(X)\)的取值只可能是\(a_0,a_1,\cdots,a_n\)，可以寫出其期望為

\[\mathbb{E}(\hat g(X))=\sum_{j=0}^n a_jC_n^jp^j(1-p)^{n-j}, \]
當\(\hat g(X)\)為無偏估計時，成立以下等式：

\[\sum_{j=0}^na_jC_n^jp^j(1-p)^{n-j}=\frac{1}{p}, \]
即對於某個多項式\(f\in\mathcal P_{n+1}(\mathbb{R})\)，有

\[f(p)=0,\quad \forall p\in(0,1). \]
顯然，要使上式恆成立，除非\(f\)為零多項式。但\(f\)並不是零多項式，這意味著\(f(p)=0\)只會在至多\(n+1\)個點處成立，這與無偏性要求矛盾。因此，\(g(p)=1/p\)不存在無偏估計。

我們將存在無偏估計的待估引數稱為可估引數，因此UMVUE僅對可估引數作討論。我們的任務，就是用一定的方法，找到可估引數的UMVUE。

Part 2：改進無偏估計量

無偏估計量有許多，比如正態分佈\(N(\mu,\sigma^2)\)中，\(\mu\)的無偏估計就有\(X_1,2X_2-X_1,\bar X\)等。充分統計量的條件期望法是改進無偏估計量的一個典型方式，它基於如下的定理：設\(T=T(\boldsymbol{X})\)是一個充分統計量，\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一個普通無偏估計量，則\(h(T)=\mathbb{E}[\hat g(\boldsymbol{X})|T]\)是\(g(\theta)\)的無偏估計，且

\[\mathbb{D}(h(T))\le \mathbb{D}(\hat g(\boldsymbol{X})),\quad \forall \theta\in\Theta. \]

等號成立當且僅當\(\hat g(\boldsymbol{X})=h(T)\)是均方條件下成立的。它的證明不是很有必要掌握，權當了解。

因為\(T\)是\(g(\theta)\)的充分統計量，故\(\mathbb{E}(\hat g(\boldsymbol{X})|T)\)與待估引數\(g(\theta)\)無關，可以作為統計量，即

\[h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T) \]
是合理定義的統計量。下證其無偏性，由全期望公式，有

\[\mathbb{E}(h(T))=\mathbb{E}[\mathbb{E}(\hat g(\boldsymbol{X})|T)]=\mathbb{E}(\hat g(\boldsymbol{X}))=g(\theta). \]
最後證明其比\(\hat g(\boldsymbol{X})\)更有效，利用一個常用的拆分技巧，得到

\[\begin{aligned} \mathbb{D}(\hat g(\boldsymbol{X}))&=\mathbb{D}[\hat g(\boldsymbol{X})-h(T)+h(T)]\\ &=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))+2\mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T)), \end{aligned} \]
然後證明交叉項為0，這裡需要再次用到全期望公式，有

\[\begin{aligned} &\quad \mathrm{Cov}(h(T),\hat g(\boldsymbol{X})-h(T))\\ &=\mathbb{E}[h(T)-g(\theta)][\hat g(\boldsymbol{X})-h(T)]\\ &=\mathbb{E}[\mathbb{E}[(h(T)-g(\theta))(\hat g(\boldsymbol{X})-h(T))|T]]\\ &=\mathbb{E}[(h(T)-g(\theta))(\mathbb{E}(\hat g(\boldsymbol{X})|T)-h(T)]\\ &=0. \end{aligned} \]
最後的等號是因為\(h(T)=\mathbb{E}(\hat g(\boldsymbol{X})|T)\)，於是代回就得到

\[\mathbb{D}(\hat g(\boldsymbol{X}))=\mathbb{D}(h(T))+\mathbb{D}(\hat g(\boldsymbol{X})-h(T))\ge \mathbb{D}(h(T)). \]
等號成立當且僅當\(\mathbb{D}(\hat g(\boldsymbol{X})-h(T))^2=\mathbb{E}(\hat g(\boldsymbol{X})-h(T))^2=0\)。

這個定理的重要意義在於，如果給定的無偏估計量不是充分統計量的函式，則可以通過條件期望法，將其轉變成一個充分統計量的函式作為新的統計量，並且新的統計量總是更有效的。此外，這也對我們尋找UMVUE提出啟示：UMVUE一定是充分統計量的函式。如果不然，則可以通過對充分統計量求期望，得到一個更有效的統計量。

不過，改進後的充分統計量函式，儘管是更為有效的引數估計，但卻並不一定是UMVUE，下面的定理將給出一個驗證點估計是否為UMVUE的方法。

Part 3：零無偏估計法

零無偏估計法是用於判斷某個估計量是否為UMVUE的方法，為此，首先要提出什麼是零無偏估計。顧名思義，零無偏估計即零的無偏估計量，對某個統計量\(l(\boldsymbol{X})\)，如果有\(\mathbb{E}(l(\boldsymbol{X}))=0\)，則稱\(l(\boldsymbol{X})\)是一個零無偏估計量；如果統計量\(T\)是待估引數\(g(\theta)\)的充分統計量，且\(\mathbb{E}(h(T))=0\)，則\(h(T)\)也稱為\(g(\theta)\)的零無偏估計量。

零無偏估計法的思想、證明過程都與上述的充分統計量條件期望法類似。如果\(\hat g(\boldsymbol{X})\)是UMVUE，則對於任意其他無偏估計\(\hat g_1(\boldsymbol{X})\)，都可以視為\(\hat g_1(\boldsymbol{X})=\hat g(\boldsymbol{X})+l(\boldsymbol{X})\)，顯然這裡\(\mathbb{E}(l(\boldsymbol{X}))=0\)，要使\(\hat g_1(\boldsymbol{X})\)的方差大於\(\hat g(\boldsymbol{X})\)，可以進行拆分，即

\[\mathbb{D}(\hat g_1(\boldsymbol{X}))=\mathbb{D}(\hat g(\boldsymbol{X}))+\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X})). \]

如果最後的協方差項為0，則必有\(\mathbb{D}(\hat g_1(\boldsymbol{X}))\ge \mathbb{D}(\hat g(\boldsymbol{X}))\)。綜合以上討論，給出零無偏估計法驗證UMVUE的方式。

設\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的一個無偏估計，\(\mathbb{D}(\hat g(\boldsymbol{X}))<\infty\)，對任何\(\theta\in\Theta\)，若對任何零無偏估計\(l(\boldsymbol{X})\)都有

\[\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=0, \]

則\(\hat g(\boldsymbol{X})\)是\(g(\theta)\)的UMVUE。

如果\(\hat g(\boldsymbol{X})\)滿足與任何零無偏估計無關，則它是UMVUE，這是一個充分條件。但反之，它也是一個必要條件，即UMVUE必定與任何零無偏估計量無關。

如果不然，設\(\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=b(\theta)\ne 0\)，則可以假設\(\mathbb{D}(l(\boldsymbol{X}))=a^2(\theta)>0\)。現在固定\(\theta=\theta_0\)為常數，並設\(a(\theta_0)=a,b(\theta_0)=b\)，只要

\[\mathbb{D}(l(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),l(\boldsymbol{X}))=a^2(\theta_0)+2b(\theta_0)=a^2+2b<0, \]
就能找到一個在\(\theta=\theta_0\)處，比\(\hat g(\boldsymbol{X})\)方差更小的無偏估計，那麼\(\hat g(\boldsymbol{X})\)就不是UMVUE。注意到，如果\(l(\boldsymbol{X})\)是零無偏估計，則\(\forall k\ne 0\)，\(kl(\boldsymbol{X})\)也是零無偏估計，就有

\[\mathbb{D}(kl(\boldsymbol{X}))+2\mathrm{Cov}(\hat g(\boldsymbol{X}),kl(\boldsymbol{X}))=k^2a^2+2bk, \]
取\(k\)值為

\[\left\{\begin{array}l -\frac{2b}{a}<k<0,& b>0; \\ 0<k<-\frac{2b}{a},& b<0. \end{array}\right. \]
就使得\(k^2a^2+2bk<0\)成立，於是

\[\hat g_1(\boldsymbol{X})\xlongequal{def}\hat g(\boldsymbol{X})+kl(\boldsymbol{X}) \]
是\(g(\theta)\)的無偏估計量，且當\(\theta=\theta_0\)時\(\mathbb{D}(\hat g_1(\boldsymbol{X}))<\mathbb{D}(\hat g(\boldsymbol{X}))\)，故\(\hat g(\boldsymbol{X})\)不是UMVUE。

有了這個方法，我們可以驗證一些常用的充分統計量是UMVUE了。現以正態分佈\(N(\mu,\sigma^2)\)的充分統計量\((\bar X,S^2)\)為例，它們是否是UMVUE呢？如果直接驗證會稍顯繁瑣，對零無偏估計法稍加修改可以得到以下的推論：

如果\(T\)是充分統計量且\(h(T)\)是\(g(\theta)\)的一個無偏估計，對任何\(\theta\in\Theta\)與一切零無偏估計量\(\delta (T)\)都有

\[\mathrm{Cov}(h(T),\delta(T))=\mathbb{E}(h(T)\delta(T))=0, \]

則\(h(T)\)是UMVUE。

這裡只是將樣本的函式改成了充分統計量的函式，以上證明過程是依然適用的。並且，由於UMVUE一定是充分統計量的函式，因此這個推論會更有應用意義。

對於正態分佈而言，充分統計量可以視為

\[T_1=\frac{1}{n}\sum_{j=1}^n X_j,\quad T_2=\sum_{j=1}^n (X_j-\bar X)^2,\\ T_1\sim N\left(\mu,\frac{\sigma^2}{n}\right),\quad \frac{T_2}{\sigma^2}\sim\chi^2(n-1)\Rightarrow T_2\sim\Gamma\left(\frac{n-1}{2},\frac{1}{2\sigma^2} \right). \]

由於\(T_1,T_2\)獨立，所以其聯合密度函式容易寫出，有

\[f_1(t_1)=\frac{\sqrt{n}}{\sqrt{2\pi \sigma^2}}\exp\left\{-\frac{n(t_1-\mu)^2}{2\sigma^2} \right\},\\ f_2(t_2)=\frac{1}{2^{\frac{n-1}{2}}\Gamma(\frac{n-1}{2})\sigma^{n-1}}t_2^{\frac{n-1}{2}-1}e^{-\frac{t_2}{2\sigma^2}},\\ f(t_1,t_2)=\frac{C}{\sigma^n}t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}. \]

如果\(\delta(t_1,t_2)\)是零均值的，則有

\[\mathbb{E}(\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^\infty \delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\}\mathrm{d}t_1\mathrm{d}t_2=0. \]

令\(\exp\)部分為\(H(\mu,\sigma^2)\)，也就是我們獲得了這個關鍵的等式（它是證明的核心）：

\[\int_{-\infty}^\infty\delta(t_1,t_2)\cdot t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0 \]

要驗證\(\mathbb{E}(t_1,\delta(t_1,t_2))\)與\(\mathbb{E}(t_2,\delta(t_1,t_2))\)是否為0，先從第一個入手，寫出其表示式為

\[\mathbb{E}(t_1,\delta(t_1,t_2))=\frac{C}{\sigma^n}\int_{-\infty}^{\infty}\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2. \]

要驗證\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\)，實際上就是驗證

\[\int_{-\infty}^\infty \delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

不要被這個龐然大物嚇到，事實上我們唯一的條件只有\(\mathbb{E}(\delta(t_1,t_2))=0\)所對應的等式，注意到上面的等式無論\(\mu,\sigma\)的真值是多少都應該成立，所以是\(\mu,\sigma\)的二元函式，我們能做的事也很有限——對引數求導。這裡涉及到了求導與積分是否可交換的問題，我們姑且不考慮，預設視為可交換即可，由於\(\sigma^2\)很複雜，所以對\(\mu\)求導即可。唯一含有\(\mu\)的項是積分號中間的\(\exp\)部分，其導數為

\[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2), \]

於是就有

\[\frac{\partial \mathbb{E}(\delta_1,\delta_2)}{\partial\mu}=\frac{C}{\sigma^n}\int_{-\infty}^\infty\delta(t_1,t_2)t_2^{\frac{n-1}{2}-1}\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2=0, \]

將求導後得到的式子展開，提取出引數並代入上面的結果，就有

\[\int_{-\infty}^\infty\delta(t_1,t_2)t_1t_2^{\frac{n-1}{2}-1}H(\mu,\sigma)\mathrm{d}t_1\mathrm{d}t_2=0, \]

也就說明了\(\mathbb{E}(t_1,\delta(t_1,t_2))=0\)，由\(\delta(t_1,t_2)\)的任意性以及\(T_1\)的無偏性，可知\(\bar X\)是\(\mu\)的UMVUE。

下一步證明\(T_2/(n-1)\)是\(\sigma^2\)的UMVUE，也就是證明\(\mathbb{E}(t_2,\delta(t_1,t_2))=0\)，同樣寫出需要驗證的等式為

\[\int_{-\infty}^\infty\delta(t_1,t_2) t_2^{\frac{n-1}{2}}H(\mu,\sigma^2)\mathrm{d}t_1\mathrm{d}t_2\stackrel{?}=0. \]

現在我們嘗試將關鍵的等式對\(\sigma^2\)求導，同樣，先計算\(H\)對\(\sigma^2\)的偏導，有

\[H(\mu,\sigma^2)=\exp\left\{-\frac{n(t_1-\mu)^2+t_2}{2\sigma^2} \right\},\\ \frac{\partial H(\mu,\sigma^2)}{\partial \sigma^2}=\frac{n(t_1-\mu)^2+t_2}{2\sigma^4}H(\mu,\sigma^2), \]

可以看到，這裡除了出現已經確認代入能為0的常數項和\(t_1\)外，還多了\(t_1^2\)與\(t_2\)的項，\(t_2\)就是我們的目標，所以再處理一下\(t_1^2\)這一項。顯然，對\(\mu\)求導一次能得到\(t_1\)的一次項，那麼對\(\mu\)求二階導，就能得到\(t_1^2\)項，所以

\[\frac{\partial H(\mu,\sigma^2)}{\partial \mu}=\frac{2n(t_1-\mu)}{\sigma^2}H(\mu,\sigma^2),\\ \frac{\partial^2H(\mu,\sigma^2)}{\partial\mu^2}=H(\mu,\sigma^2)\left[\frac{4n^2(t_1-\mu)^2}{\sigma^4}-\frac{2n}{\sigma^2} \right]. \]

這樣就出現了需要的\(t_1^2\)項，剩下的工作只有繁瑣的代入計算而已，我們實際上已經完成了證明的主要步驟，因此\(S^2\)也是\(\sigma^2\)的UMVUE。

對於一元連續或離散情形下UMVUE的驗證，難度要比二元情形下小得多，因此讀者只要掌握了正態分佈的零無偏估計法驗證，理論上其他UMVUE的驗證便不成問題。讀者可以自己嘗試其他UMVUE的驗證。

今天，我們提出了UMVUE的概念，重點在於利用充分統計量改進普通的無偏估計，並且利用零無偏估計法驗證某個充分統計量函式是否是UMVUE。但是，我們並沒有給出尋找UMVUE的方法，如果依靠感覺沒有方向地尋找再一個個驗證是否為UMVUE，是十分繁瑣且難以成功的。比如對於\(B(1,p)\)的引數估計\(g(p)=p(1-p)\)，如果用先猜想後驗證的方法來尋找UMVUE，甚至沒有入手點。

因此，明天我們將學習尋找UMVUE的方法，並介紹一個被我們忽略已久的概念——指數族。

PyTorch基礎——均值、（無偏估計）方差
2020-10-10
PyTorch
機器學習--白板推導系列筆記3 概率：高斯分佈之有偏估計與無偏估計
2019-04-15
機器學習筆記
第二週【任務2】貝葉斯估計，估計、偏差和方差，邏輯迴歸
2020-12-03
邏輯迴歸
數理統計11：區間估計，t分佈，F分佈
2021-02-16
機器學習必知概念：貝葉斯估計、最大似然估計、最大後驗估計
2018-07-02
機器學習
openGauss-智慧基數估計
2024-08-29
多元統計分析03：多元正態分佈的引數估計
2021-11-04
極大似然估計
2018-09-07
什麼是敏捷估計？
2018-12-31
敏捷
基音週期估計--Yin
2021-04-02
從零開始一起學習SLAM | 點雲平滑法線估計
2018-12-28
SLAM
[筆記]極大似然估計、最大後驗概率、貝葉斯估計
2020-11-07
筆記
01EM演算法-大綱-最大似然估計(MLE)、貝葉斯演算法估計、最大後驗概率估計(MAP)
2018-12-22
演算法
SciTech-Mathmatics-Probability+Statistics-Population:Region-統計量與引數估計
2024-09-17
偏相關係數計算
2021-12-20
轉：單應性Homography估計
2024-03-14
單目深度估計+導航
2024-07-23
最大似然估計詳解
2021-06-09
人體姿態估計——PBN
2020-11-28
損失函式：最小二乘法與極大似然估計法
2021-08-02
函式
Simple TPU的設計和效能評估
2019-07-26
詳解最大似然估計（MLE）、最大後驗概率估計（MAP），以及貝葉斯公式的理解
2019-03-30
公式
人體姿態估計研究文集
2020-04-27
室內單目深度估計-1
2023-02-25
pathload --有效的網路頻寬估計方法
2019-01-08
SPSS計算極值、平均值、中位數、方差、偏度、峰度、變異係數
2023-05-08
SPSS
以太坊智慧合約gas如何估計？
2019-02-27
頭部姿態估計 - OpenCV/Dlib/Ceres
2019-07-26
OpenCV
不確定估計學習小結
2020-08-16
[轉]從EXIF標籤中估計焦距
2024-08-02
自監督單目深度估計研究
2023-02-09
數理統計6：泊松分佈，泊松分佈與指數分佈的聯絡，離散分佈引數估計
2021-02-04
FactorJoin: 一種新的連線查詢基數估計框架
2023-03-16
框架
JavaScript 前端倒數計時糾偏實現
2019-03-04
JavaScript前端
如何通俗地理解概率論中的「極大似然估計法」?
2020-11-26
全球最大的牛肉出口國估計你猜不到
2024-03-13
基於極大似然估計方法的diffusion
2024-07-11
極大似然估計理解與應用
2019-03-11

數理統計8：點估計的有效性、一致最小方差無偏估計(UMVUE)、零無偏估計法

Part 1：一致最小方差無偏估計

Part 2：改進無偏估計量

Part 3：零無偏估計法

相關文章