數理統計9:完備統計量,指數族,充分完備統計量法,CR不等式

江景景景頁發表於2021-02-09

昨天我們給出了統計量是UMVUE的一個必要條件:它是充分統計量的函式,且是無偏估計,但這並非充分條件。如果說一個統計量的無偏估計函式一定是UMVUE,那麼它還應當具有完備性的條件,這就是我們今天將探討的內容。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:完備統計量

完備統計量跟充分統計量從名字上看是相對應的,但是完備統計量的意義不像充分統計量那麼明確——充分統計量代表能“完全包含”待估引數資訊的統計量,而完備統計量則是使得不同的引數值對應不同的統計量分佈。具體說來,完備統計量的定義是這樣的:

設總體分佈族的密度函式為\(f(x;\theta)\),這裡\(\theta\in \Theta\)是待估引數,稱\(\Theta\)為引數空間(其實我們之前接觸過但沒有專門提過引數空間的概念)。設\(T=T(\boldsymbol{X})\)為一統計量,若對任何可測函式\(\varphi(\cdot)\)具有以下的條件:

\[\mathbb{E}[\varphi(T(\boldsymbol{X}))]=0\Rightarrow \mathbb{P}(\varphi(T(\boldsymbol{X}))=0)=1,\quad \forall\theta\in\Theta, \]

就稱\(T(\boldsymbol{X})\)是完備統計量。如果放寬條件,當\(\varphi(\cdot)\)是有界函式時上式成立,則稱此統計量是有界完備統計量。顯然,有界完備統計量必是完備統計量。

從線性代數的角度來看,可以把函式空間視為一個無限維向量空間,那麼取期望就可以視為該向量空間上的一個對映,容易驗證此對映具有線性對映的性質:

\[\mathbb{E}[f(T(\boldsymbol{X}))+g(T(\boldsymbol{X}))]=\mathbb{E}[f(T(\boldsymbol{X}))]+\mathbb{E}[g(T(\boldsymbol{X}))],\\ \mathbb{E}[\lambda f(T(\boldsymbol{X}))]=\lambda\mathbb{E}[f(T(\boldsymbol{X}))], \]

完備性就要求\(T(\boldsymbol{X})\)的選擇,會使得期望對映成為一個單射(可以回顧單射的條件是\(\mathrm{null}\mathbb{E}=\{0\}\),可參考此連結),也就意味著每一個期望值都對應唯一的可測函式\(\varphi(\cdot)\)

特別當\(T(\boldsymbol{X})\)有密度函式\(g(x;\theta)\)時,完備性條件可以寫成

\[\int_{-\infty}^\infty \varphi(x)g(x;\theta)\mathrm{d}x=0\Rightarrow \varphi(x)\equiv 0. \]

在將函式空間看成內積空間時,我們一般將\(\int_{-\infty}^\infty\varphi(x)g(x)\mathrm{d}x\)視為\(\langle\varphi(x),g(x)\rangle\),即兩個函式的內積,所以\(\int_{-\infty}^\infty\varphi(x)g(x;\theta)\mathrm{d}x=0\)\(\varphi(x),g(x;\theta)\)正交。完備統計量的密度函式是這樣一個函式系\(\{g(x;\theta)\}\):如果\(\varphi(x)\)與函式系中的任意函式正交,則\(\varphi(x)\equiv 0\)。從這一點上,\(\{g(x;\theta)\}\)張成了整個函式空間。

由可測函式的可乘性,如果\(T\)是完備的,則對任何可測函式\(\delta(\cdot)\)\(\delta(T)\)也是完備的。

下面,我們試著用定義來驗證均勻分佈\(U(a,b)\)的完備統計量是\((X_{(1)},X_{(n)})\)。分別寫出其密度函式為

\[f_1(x)=\frac{n(b-x)^{n-1}}{(b-a)^n}I_{a<x<b},\quad f_n(x)=\frac{n(x-a)^{n-1}}{(b-a)^n}I_{a<x<b}, \]

\(\mathbb{E}[\delta(X_{(1)})]=0\),則

\[\int_a^b\delta(x)(b-x)^{n-1}\mathrm{d}x=0, \]

\(a\)求偏導得

\[-\delta(a)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0; \]

\(\mathbb{E}[\delta(X_{(n)})]=0\),則

\[\int_a^b\delta(x)(x-a)^{n-1}\mathrm{d}x=0, \]

\(b\)求偏導得

\[\delta(b)(b-a)^{n-1}=0,\forall a<b\Rightarrow \delta(x)\equiv0. \]

因此,\((X_{(1)},X_{(n)})\)\((a,b)\)的完備統計量。

我個人認為這裡不太嚴謹,因為這沒有考慮\((X_{(1)},X_{(n)})\)的零期望函式。實際上應該寫出\((X_{(1)},X_{(n)})\)的聯合密度函式:

\[f(x,y)=n(n-1)\frac{(y-x)^{n-2}}{(b-a)^n}I_{a<x<y<b}, \]

再證明對任何\(\delta(x,y)\),有

\[\iint_{a<x<y<b}\delta(x,y)(y-x)^{n-2}\mathrm{d}x\mathrm{d}y=0, \]

由於\((y-x)^{n-2}>0\)恆成立,故\(\delta(x,y)\equiv 0\)。但是這裡的證明我寫不清楚,如果有人可以給出明確的證明歡迎在評論區留言。

充分統計量和完備統計量具有以下Basu定理,它可以用於驗證兩個統計量的獨立性:設\(T(\boldsymbol{X})\)是引數\(\theta\)充分統計量,且是有界完備統計量,若另一統計量\(V(\boldsymbol{X})\)的分佈與\(\theta\)無關(稱為輔助統計量),則\(\forall \theta\in\Theta\)\(V(\boldsymbol{X})\)\(T(\boldsymbol{X})\)獨立。直覺上看,Basu定理就指明瞭這樣的結論:只與\(\theta\)有關的統計量,和完全與\(\theta\)無關的統計量相互獨立。

不過,從定義上判定某個統計量是完備統計量稍顯繁瑣,有時還會用到拉普拉斯變換、傅立葉變換等數理統計裡比較冷門的知識,因此不作要求。但是,當分佈族呈現某種特殊形式時,完備統計量是比較好尋找的,下面我們就要提出這種分佈族——指數族

Part 2:指數族

指數族並不特指某一種分佈族,而是涵蓋了許多種看起來不太相關的分佈族,它們的概率函式有一定的共性。我們已經很多次提到概率函式這個概念,在驗證統計量的充分性時、提出極大似然估計時都用過,再次說明,對於連續型分佈,概率函式指樣本聯合密度函式;對於離散型分佈,概率函式就是取樣本值的概率。

現在我們給出指數族的定義。指數族是指這樣的一類分佈族,其概率函式為\(f(\boldsymbol{x};\theta)\)\(\theta\in\Theta\),它可以表現為下面的形式:

\[f(\boldsymbol{x},\theta)=C(\theta)\exp\left\{\sum_{j=1}^kQ_j(\theta)T_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}). \]

也就是說,如果某個分佈族的概率函式可以分解為以下三部分的乘積:純引數部分、純樣本部分、指數引數與樣本的若干乘積和,那麼這個分佈族就是指數族。進一步地,令\(\theta_i\xlongequal{def}Q_i(\theta)\),則上式還能被改寫為

\[f(\boldsymbol{x},\theta)=C^*(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k). \]

也就是將指數族中,指數部分的引數整體視為一個新的引數,上式稱為指數族的自然形式\((\theta_1,\cdots,\theta_k)\)的取值範圍\(\Theta^*\)稱為自然引數空間

可以驗證,許多常見分佈族都是指數族,連續型如正態分佈、\(\Gamma\)分佈、\(\beta\)分佈,離散型如二項分佈、泊松分佈、負二項分佈都屬於指數族。需要注意的是:均勻分佈\(U(a,b)\)不是指數族。以下簡單地給出一些指數族的驗證。

正態分佈\(N(\mu,\sigma^2)\)

\[\begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{1}{\sqrt{2\pi\sigma^2}} \right)^n\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n(x_j-\mu)^2 \right\} \\ &=\frac{e^{-\mu^2/2\sigma^2}}{(2\pi\sigma^2)^{n/2}}\exp\left\{-\frac{1}{2\sigma^2}\sum_{j=1}^n x_j^2+\frac{\mu}{\sigma^2}\sum_{j=1}^n x_j \right\}. \end{aligned} \]

\(\Gamma\)分佈\(\Gamma(\alpha,\lambda)\)(包含指數分佈和\(\chi^2\)分佈):

\[\begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{\lambda^\alpha}{\Gamma(\lambda)}\right)^n\left(\prod_{j=1}^n x_j \right)^{\alpha-1}\exp\left\{-\lambda\sum_{j=1}^n x_j \right\}\prod_{j=1}^n( I_{x_j>0})\\ &=\left(\frac{\lambda^n}{\Gamma(\lambda)}\right)^n\exp\left\{(\alpha-1)\left(\sum_{j=1}^n \ln x_j \right)-\lambda\sum_{j=1}^nx_j \right\}\prod_{j=1}^n( I_{x_j>0}). \end{aligned} \]

\(\beta\)分佈\(\beta(a,b)\)

\[\begin{aligned} f(\boldsymbol{x};\theta)&=\left(\frac{1}{\beta(a,b)} \right)^n\left(\prod_{j=1}^n x_j \right)^{a-1}\left[\prod_{j=1}^n(1-x_j) \right]^{b-1}\prod_{j=1}^n( I_{0<x_j<1})\\ &=\left(\frac{1}{\beta(a,b)}\right)^n\exp\left\{(a-1)\left(\sum_{j=1}^n\ln x_j \right)+(b-1)\left(\sum_{j=1}^n\ln(1-x_j) \right) \right\}\prod_{j=1}^n( I_{0<x_j<1}). \end{aligned} \]

二項分佈\(B(1,p)\)

\[\begin{aligned} f(\boldsymbol{x};\theta)&=\prod_{j=1}^np^{x_j}(1-p)^{1-x_j}\\ &=\exp\left\{\ln p\cdot\sum_{j=1}^n x_j+\ln(1-p)\sum_{j=1}^n(1-x_j) \right\}\\ &=(1-p)^n\exp\left\{\ln\left(\frac{p}{1-p} \right)\sum_{j=1}^n x_j \right\}. \end{aligned} \]

泊松分佈\(P(\lambda)\)

\[\begin{aligned} f(\boldsymbol{x};\theta)&=\prod_{j=1}^n\frac{\lambda^{x_j}}{(x_j)!}e^{-\lambda}\\ &=e^{-n\lambda }\exp\left\{\ln\lambda\cdot\sum_{j=1}^n x_j \right\}\prod_{j=1}^n\frac{1}{(x_j)!}. \end{aligned} \]

為什麼說均勻分佈族\(U(a,b)\)不是指數族?這是因為均勻分佈族有一個重要特性是,它的支撐集與引數有關,支撐集就是\(x\)可能取值的集合。如果支撐集與引數有關,那麼密度函式中自然包含\(I_{a<x<b}\)這一項,而示性函式中既包含引數、又包含樣本值是不能被放到指數部分的,所以支撐集與引數有關的分佈族都不是指數族

為什麼說指數族重要?首先不加證明地指出指數族具有的兩條性質:

  1. 指數族的自然引數空間為凸集。這保證了自然引數的取值範圍有良好的性質。
  2. 指數族的概率函式積分與任意階偏導可交換。回想我們在證明正態分佈中\((\bar X,S^2)\)是UMVUE時,就用到了這條性質,只是當時沒有加以說明。

其次,指數族的形式,便於我們尋找充分統計量和完備統計量。充分性方面,顯然指數族的分解形式直接就是因子分解定理的擴充套件,中間的\((T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))\)自然就是引數\(\theta\)的充分統計量。而完備性方面,在指數族的自然形式下,有如下的定理:

樣本\(\boldsymbol{X}=(X_1,\cdots,X_n)\)的概率函式可以寫成指數族的自然形式如下:

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}),\quad \boldsymbol{\theta}=(\theta_1,\cdots,\theta_k)\in\Theta^*. \]

如果\(\Theta^*\)作為\(\mathbb{R}^k\)的子集有內點,則\((T_1(\boldsymbol{x}),\cdots,T_k(\boldsymbol{x}))\)是完備統計量。

我們探討的許多分佈族都是指數族,這個定理指出,指數族的充分統計量幾乎也是完備統計量,這就給我們尋找指數族的完備統計量提供了很大的便利。

Part 3:尋找UMVUE——充分完備統計量法

為什麼我們要花費大量篇幅介紹完備統計量和指數族?在開篇之處我們就提到,UMVUE必定是充分統計量的無偏估計函式,但反之不一定成立。當我們給出完備統計量後,我們可以給出尋找UMVUE的充分條件了,這就是Lehmann-Scheffé定理參考連結)。

定理內容如下。設\(\boldsymbol{X}=(X_1,\cdots,X_n)\)\(f(x;\theta)\)中抽取的簡單隨機樣本,\(g(\theta)\)是引數空間\(\Theta\)上的可估引數,\(T(\boldsymbol{X})\)\(\theta\)的充分完備統計量。若\(\tilde g(T(\boldsymbol{X}))\)\(g(\theta)\)的一個無偏估計,則\(\tilde g(T(\boldsymbol{X}))\)\(g(\theta)\)的唯一UMVUE(均方唯一)。

特別當\(f({x};\theta)\)為指數族時,如果自然形式為

\[f(\boldsymbol{x};\boldsymbol{\theta})=C(\boldsymbol{\theta})\exp\left\{\sum_{j=1}^k\theta_jT_j(\boldsymbol{x}) \right\}h(\boldsymbol{x}), \]

\(T(\boldsymbol{X})=(T_1(\boldsymbol{X}),\cdots,T_k(\boldsymbol{X}))\)\(\theta\)的充分完備統計量,如果能找到一個\(\hat g(\cdot)\),使得

\[\mathbb{E}(\hat g(T(\boldsymbol{X})))=g(\theta), \]

\(\hat g(T(\boldsymbol{X}))\)\(g(\theta)\)的UMVUE。

這個定理十分簡潔,指出如果我們要尋找UMVUE,只需找到關於引數的一個充分完備統計量,再構造一定的函式使之成為無偏估計即可。比起零無偏估計法只能驗證、不能尋找而言,充分完備統計量法不僅在驗證上十分簡潔,而且提供了尋找UMVUE的方向。

關於定理的證明,先證關於充分完備統計量無偏估計的唯一性,如果\(\hat g(T(\boldsymbol{X}))\)\(\tilde g(T(\boldsymbol{X}))\)都是\(g(\theta)\)的無偏估計,則

\[\delta(T(\boldsymbol{X}))\xlongequal{def}\hat g(T(\boldsymbol{X}))-\tilde g(T(\boldsymbol{X})) \]

滿足\(\mathbb{E}[\delta(T(\boldsymbol{X}))]=0\),由\(T(\boldsymbol{X})\)的完備性,\(\delta(T(\boldsymbol{X}))\equiv 0\)

再證\(\tilde g(T(\boldsymbol{X}))\)是UMVUE,設\(\varphi(\boldsymbol{X})\)\(g(\theta)\)的任一無偏估計,令\(h(T(\boldsymbol{X}))=\mathbb{E}(\varphi(\boldsymbol{X})|T)\),它是一個比\(\varphi(\boldsymbol{X})\)更有效的無偏估計,且是唯一的。既然任一非\(T(\boldsymbol{X})\)函式的無偏估計都能被改進為\(T(\boldsymbol{X})\)的函式,而關於\(T(\boldsymbol{X})\)函式的無偏估計又是唯一的,那麼\(h(T(\boldsymbol{X}))\)自然是UMVUE。

限於篇幅,我們在下一篇文章中指出如何使用充分完備統計量法尋找待估引數的UMVUE。

Part 4:Cramer-Rao不等式

最後,我們不作展開地簡單介紹一下Cramer-Rao不等式,它給出了用任何無偏估計量估計待估引數的方差下限。

C-R不等式的成立依賴於一定的C-R正則條件,接下來我們假設總體分佈族的概率函式是\(f(x;\theta)\),這裡\(\theta\)是單個引數:

  1. \(\Theta\)是直線上的某個開區間;

  2. 分佈族擁有共同的支撐集;

  3. 總體分佈族的概率函式關於引數\(\theta\)的一階導數\(\frac{\partial f(x;\theta)}{\partial\theta}\)存在;

  4. 概率函式\(f(x,\theta)\)的積分(或無窮級數)與微分運算可交換,即

    \[\frac{\partial}{\partial\theta}\int f(x;\theta)\mathrm{d}x=\int\frac{\partial}{\partial\theta}f(x;\theta)\mathrm{d}x; \]

  5. 定義\(I(\theta)\)

    \[I(\theta)=\mathbb{E}\left[\frac{\partial \ln f(X,\theta)}{\partial\theta} \right]^2=-\mathbb{E}\left[\frac{\partial^2\ln f(X,\theta)}{\partial\theta^2} \right]. \]

    這個數學期望存在,且\(0<I(\theta)<\infty\)

以上五個條件稱為C-R正則條件,特別\(I(\theta)\)稱為Fisher資訊函式,它刻畫了總體模型所含待估引數資訊的多少。當正則條件滿足時,C-R不等式表現為,對任何\(g(\theta)\)的無偏估計\(\hat g(\boldsymbol{X})\),其方差下界稱為C-R下界,為

\[\mathbb{D}[\hat g(\boldsymbol{X})]\ge \frac{(g'(\theta))^2}{nI(\theta)}. \]

在實際應用C-R不等式求某個待估引數的方差下界時,要先計算出\(I(\theta)\),一般用上面的第二個等號更好計算。

要注意的是,即使是某個待估引數的UMVUE,可能也達不到C-R下界,即並非UMVUE的方差一定是C-R下界,但是方差達到C-R下界的無偏估計一定是UMVUE。

基於此,對於\(g(\theta)\)的無偏估計量\(\hat g(\boldsymbol{X})\),定義其效率為C-R下界與估計量方差的比值,即

\[e_{\hat g}(\theta)=\frac{[g'(\theta)]^2}{nI(\theta)\cdot\mathbb{D}(\hat g(\boldsymbol{X}))},\quad e_{\hat g}(\theta)\in[0,1]. \]

如果某個估計量\(\hat g(\boldsymbol{X})\)的效率\(e_{\hat g}(\theta)=1\),就稱之為有效估計,如果\(e_{\hat g}(\theta)\to 1\),就稱之為漸進有效估計。


今天的重點在於充分完備統計量法尋找UMVUE,順帶介紹了完備統計量、指數族與C-R不等式。不過,我們還沒有將充分完備統計量法投入實用,所以下一篇文章中,我們將討論幾個充分完備統計量法的應用案例。

相關文章