數理統計6:泊松分佈,泊松分佈與指數分佈的聯絡,離散分佈引數估計

江景景景頁發表於2021-02-04

前兩天對兩大連續型分佈:均勻分佈和指數分佈的點估計進行了討論,匯出了我們以後會用到的兩大分佈:\(\beta\)分佈和\(\Gamma\)分佈。今天,我們將討論離散分佈中的泊松分佈。其實,最簡單的離散分佈應該是兩點分佈,但由於在上一篇文章的最後,提到了\(\Gamma\)分佈和泊松分佈的聯絡,因此本文從泊松分佈出發。由於本系列為我獨自完成的,缺少審閱,如果有任何錯誤,歡迎在評論區中指出,謝謝

Part 1:泊松分佈簡介

泊松分佈是一種離散分佈,先給出其概率分佈列。若\(X\sim P(\lambda)\),則

\[\mathbb{P}(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,\cdots \]

它的取值是無限可列的。

為什麼泊松分佈會與指數分佈、\(\Gamma\)分佈有聯絡呢?這是因為,它們三個都是隨機事件發生的一種描述。

實際上,指數分佈的引數\(\lambda\)是一種速率的體現,它刻畫了隨機事件發生的速率。而指數分佈隨機變數的取值,就代表某一事件在一定的速率下發生的時刻距離計時原點的長度。\(Y\sim E(\lambda)\),就代表\(Y\)對應的事件事件的發生速率是\(\lambda\),所以平均發生時間就在在\(1/\lambda\)處。這也可以作為\(\mathbb{E}(Y)=1/\lambda\)的一種解釋。

指數分佈具有無記憶性,這與隨機事件的發生相似,即已經發生歷史事件對未來不產生影響,用數學語言說就是\(\mathbb{P}(Y>s+t|Y>s)=\mathbb{P}(Y>t)\)。這指的是,如果一個事件平均會在\(s\)時間後發生,但是目前經過了\(t\)時間還沒有發生,則事件的平均發生時間就移動到\(t+s\)時間後。它不會因為你已經等了\(t\)時間,就會更快地發生。

而如果把\(n\)個獨立同分佈於\(E(\lambda)\)指數分佈隨機變數相加,得到的自然就是恰好發生\(k\)個事件的平均時間,這個時間\(Z\sim \Gamma(n,\lambda)\),本質還是一種時間的度量。但\(Z\)就不具有無記憶性了,這是因為,經過\(t\)時間後可能已經發生了\(n-1\)個事件就差最後一個沒有發生,也可能一個事件都沒發生還需要\(n\)個才能湊齊。

泊松分佈則剛好相反,指數分佈和\(\Gamma\)分佈都是限定了發生次數,對發生時間作度量;泊松分佈則是限定了時間\(1\),求隨機事件在這一段時間內發生的次數服從的概率分佈。因此,泊松分佈和指數分佈、\(\Gamma\)分佈才會存在著這樣的聯絡。

以上結論,在隨機過程中會有廣泛的應用。

接下來要介紹泊松分佈的一種實用性質:可加性。若\(X_1\sim P(\lambda_1)\)\(X_2\sim P(\lambda_2)\)且相互獨立,則

\[X_1+X_2\sim P(\lambda_1+\lambda_2). \]

如果兩個獨立泊松變數的可加性成立,則自然可以推廣到有限多個獨立泊松變數,下面利用離散卷積公式給出證明。

\[\begin{aligned} \mathbb{P}(X_1+X_2=k)&=\sum_{j=0}^{k}\mathbb{P}(X_1=j)\mathbb{P}(X_2=k-j)\\ &=\sum_{j=0}^k\frac{\lambda_1^j}{j!}e^{-\lambda_1}\cdot\frac{\lambda_2^{k-j}}{(k-j)!}e^{-\lambda_2}\\ &=\frac{e^{-(\lambda_1+\lambda_2)}}{k!}\sum_{j=0}^{k}\frac{k!}{j!(k-j)!}\lambda_1^j\lambda_2^{k-j}\\ &=\frac{(\lambda_1+\lambda_2)^{k}}{k!}e^{-(\lambda_1+\lambda_2)}. \end{aligned} \]

這是泊松分佈的概率分佈列。

還可以利用泊松分佈的特徵函式來證明。設\(X\sim P(\lambda)\),則

\[\begin{aligned} \phi_X(t)&=\mathbb{E}(e^{\mathrm{i}tX})\\ &=\sum_{j=0}^{\infty}\frac{\lambda^j}{j!}e^{\mathrm{i}tj-\lambda}\\ &=e^{-\lambda}\sum_{j=0}^{\infty}\frac{(\lambda e^{\mathrm{i}t})^j}{j!}\\ &=e^{-\lambda(e^{{\rm i}t}-1)}. \end{aligned} \]

所以當\(X_1\sim P(\lambda_1)\)\(X_2\sim P(\lambda_2)\)且相互獨立時,

\[\phi_{X_1+X_2}(t)=e^{-(\lambda_1+\lambda_2)(e^{{\rm i}t}-1)}, \]

\(X_1+X_2\sim P(\lambda_1+\lambda_2)\)

知道了泊松分佈具有可加性後,我們接下來討論泊松分佈的點估計就會很方便。

Part 2:泊松分佈的點估計

對泊松分佈的估計其實沒有什麼難點,無非是將因子分解定理用到了離散情況罷了。對於離散情況,要寫出其聯合概率分佈:

\[\begin{aligned} &\quad \mathbb{P}(X_1=x_1,\cdots,X_n=x_n)\\ &=\prod_{j=1}^n \frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\\ &=e^{-n\lambda}\lambda^{\sum_{j=1}^n x_j}\cdot\frac{1}{\prod_{j=1}^n (x_j!)}\\ &\xlongequal{def}g\left(\sum_{j=1}^n x_j,\lambda \right)\cdot h(\boldsymbol{x}), \end{aligned} \]

\(T=\sum_{j=1}^n X_j\sim P(n\lambda)\)\(\lambda\)的充分統計量,這說明\(\bar X\)也是充分統計量。又因為\(\mathbb{E}(X)=\lambda\),所以\(\mathbb{E}(\bar X)=\lambda\),證明了\(\bar X\)是無偏的,由強大數定律,\(\bar X\)還是強相合的。

從這裡得到的啟示是,在寫離散分佈的概率密度函式時,要寫

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n). \]

這個表示式以後也會起到很大的作用。

對於離散分佈,有時會需要你用定義驗證引數估計量的充分性(別說你已經把定義忘了),就是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n|T=t) \]

與引數的無關性。我們現在對泊松分佈的充分估計量\(T=\sum_{j=1}^n X_j\)驗證這一點,對於離散分佈,步驟可能和連續分佈略有不同,因為不使用Jacobi變換似乎更簡單一些,特別是\(T\sim P(n\lambda)\)的分佈已知時。

\[\begin{aligned} &\quad \mathbb{P}(X_1=x_1,\cdots,X_{n}=x_n|T=t)\\ &=\frac{\mathbb{P}(X_1=x_1,\cdots,X_{n-1}=x_{n-1},X_n=T-\sum_{j=1}^{n-1}x_j)}{\mathbb{P}(T=t)}\\ &=\prod_{j=1}^{n-1}\left(\frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\right)\cdot\frac{\lambda^{t-\sum_{j=1}^{n-1}x_j}}{(t-\sum_{j=1}^{n-1}x_j)!}e^{-\lambda}\bigg/\left(\frac{\lambda^t}{t!}e^{-n\lambda} \right)\\ &=\frac{t!}{(\prod_{j=1}^{n-1}x_j!)(t-\sum_{j=1}^{n-1}x_j)!}. \end{aligned} \]

顯然這個概率與\(\lambda\)無關,所以\(T\)是充分統計量。

Part 3:其他離散分佈的點估計

本來以為泊松分佈能寫的東西不少,結果大多筆墨花在了背景介紹上,關於泊松分佈點估計卻只寫了短短几行。既然如此,本文就將常用離散分佈的點估計全部給出。

對於兩點分佈\(B(1,p)\),注意到\(P(X=x)=p^x(1-p)^{1-x}\),所以其聯合概率函式是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{\sum_{j=1}^nx_j}(1-p)^{n-\sum_{j=1}^n x_j}, \]

得到其充分統計量為\(T=\sum_{j=1}^n X_j\),又\(T\sim B(n,p)\),所以\(\mathbb{E}(T)=np\),無偏充分估計量為

\[\bar X=\frac{T}{n},\quad \mathbb{E}(\bar X)=p. \]

可以用定義驗證它是充分統計量。

對於幾何分佈\(G(p)\),注意到\(P(X=x)=(1-p)^{x-1}p\),所以其聯合概率函式是

\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{n}(1-p)^{\sum_{j=1}^n x_j-n}, \]

所以其充分統計量依然是\(T=\sum_{j=1}^n X_j\)(這太常見了),而幾何分佈的均值是引數的倒數(就像指數分佈一般),因此我們也要研究\(T\)的分佈。

從實際意義來探究可能會更好一些。如果把\(X\)看作一個連續多次二項分佈的實驗中,第一次成功所需實驗的總次數,則\(X=k\)指的是前\(k-1\)次實驗全部失敗,第\(k\)次恰好成功。推廣到\(T=\sum_{j=1}^n X_j\),則\(T=k\)指的是前\(k-1\)次試驗恰好有\(n-1\)次成功,第\(n\)次恰好又成功。基於此,我們可以給出\(T\)的概率分佈列為

\[\mathbb{P}(T=k)=C_{k-1}^{n-1}p^{n}(1-p)^{k-n},\quad k\ge n.\\ \sum_{k=n}^{\infty}C_{k-1}^{n-1}p^n(1-p)^{k-n}=1. \]

稱具有如此分佈列的隨機變數\(T\)服從負二項分佈\(T\sim NB(n,p)\),又叫做帕斯卡分佈。

計算\(T\)的均值用到的trick與\(\Gamma\)分佈時的一致,無非是\(\Gamma\)分佈需要將\(\Gamma\)函式展開,這裡將二項式係數展開罷了。但是\(1/T\)的均值卻不好計算,所以難以得到其無偏估計。


本文對離散型隨機變數的引數估計作了小小的總結,可以看到離散型隨機變數的引數估計與連續型隨機變數的步驟大致相同,只是將聯合密度函式寫成了聯合概率分佈。我們也可以看到,對有些引數估計進行無偏調整比較容易,對有些引數估計則難以得到無偏估計。

雖然我們已經討論了常用的分佈,但是分佈是無窮無盡的,不可能對每種分佈都詳盡討論;另外,即使是我們已經討論過的分佈,也可能衍生出奇奇怪怪的引數,比如均勻分佈可能是\(U(\frac{1}{a},a)\),對\(a\)作估計……等等。有什麼方法可以對引數估計進行綜合的討論呢?下一篇文章將討論常用的點估計方法。

相關文章