接上一篇 切比雪夫不等式,本篇討論統計學上一個非常重要的理論,即大數定律,它是概率論的基本理論。
大數定律的直觀表達非常符合我們的直覺,例如一個普通硬幣如果扔足夠多次,那麼正反面的次數將會無限接近於 50%;或者一個被做了弊的硬幣,扔出正面的理論概率是 0.7,那麼當我們扔足夠多次時,正反面的次數將無限接近於 70% 和 30%。
這種從無數次重複實驗逼近概率理論值的過程,就是大數定律所描述的事情:即當試驗次數 \(N\) 足夠大時,事實頻率(frequency)將會無限接近於理論概率(probability)。
作為一個正常思維的人看來這似乎是理所當然的,然而這是數學,這樣一個看上去顯而易見的結論卻並不是公理,我們需要嚴格的理論證明。
辛欽大數定理
大數定律是幾個定理的總稱,我們這裡討論的是它的基礎版本,也是所有其它後續定理的引理,即辛欽大數定理。
考慮一個隨機變數 \(X\),符合某種概率分佈,它的期望值為 \(E(X) = \mu\),方差為 \(\sigma^2\);通常我們並不確切知道 \(\mu\) 和 \(\sigma^2\) 的真實值,只能用取樣的方式來估計它們。每次取樣一個 \(X\) 的值,得到一連串的取樣值:
$$ X_1, X_2, X_3 ... X_n $$
它們是互相獨立的,且都符合原始 \(X\) 的分佈。
辛欽大數定理闡述的是:當 \(n\) 足夠大時,這 \(n\) 個取樣資料的的平均值 \(\overline X\) 將會無限接近於期望值 \(\mu\)。
然而這是一種直觀表達,我們如何用嚴謹的數學語言來定義 “無限接近於期望值” 這件事情?這裡會用到和微積分中的極限概念類似的定義方式。
對於任意 \(\epsilon>0\),有:
$$ \lim\limits_{n\rightarrow+\infty}P(|\overline X - \mu| < \epsilon) = 1 $$
也就是說當 \(n\) 趨向於 \(+\infty\) 時,\(\overline X\) 在概率分佈上會無限聚集於一個固定值 \(\mu\),這被稱為 \(\overline X\) 依概率收斂於 \(\mu\)。
有了嚴格的數學定義,我們再來思考如何證明這個看上去好像很顯然的結論。
證明
由於 \(X\) 的期望值為 \(E(X) = \mu\),方差為 \(\sigma^2\),現在我們來考慮 \(\overline X\) 的期望值和方差。實際上我們有如下結論:
$$ E(\overline X) = E(X) = \mu $$
即 \(\overline X\) 的期望值等於原始 \(X\) 的期望值。
並且由於 \(X_1, X_2 ... X_n\) 都是獨立同分布的,根據方差的有關理論,我們有:
$$ D(X_1 + X_2 + ... + X_n) = D(X_1) + D(X_1) + ... + D(X_n) = n\sigma^2 $$
因此 \(\overline X\) 的方差可以計算:
$$ \begin{align} D(\overline X) & = D\,[{1\over n}(X_1 + X_2 + ... + X_n)]\\ & = {1 \over n^2}[D(X_1) + D(X_2) + ... + D(X_n)]\\ & = {1 \over n^2} \cdot n\sigma^2 = {\sigma^2 \over n} \end{align} $$
因此我們得到如下結論:
$$ E(\overline X) = \mu, \,\,\,\,D(\overline X) ={\sigma^2 \over n} $$
注意這兩個公式,不要當它們也是理所當然的,它們有著嚴格的前提條件,即 \(X_1, X_2 ...X_n\) 是 獨立 並且和 \(X\) 同分布 的;並且要證明它們其實也得費一番周折,它並不是看上去的那麼顯而易見的,具體可以在教科書上找一下。不過這並不是我們的重點,我們只需要知道這個結論即可。
有了以上基礎結論,我們得到一個很重要的結論,就是當我們取出足夠多的取樣資料 \(X_i\) 時,它們的均值是和原始分佈 \(X\) 有著一樣的期望值 \(\mu\),然而方差卻從 \(\sigma^2\) 減小到了 \(\sigma^2 \over n\);
從直觀來說,就是當我們對取樣資料取了平均以後,它的整體期望值是不變的,但是資料的方差減小了,整體的資料分佈更集中了。
有了 \(\overline X\) 的期望值和方差,此時我們可以搬出切比雪夫不等式了,對於任意 \(\epsilon>0\),有:
$$ P(|\overline X - \mu| \geq \epsilon) <= {D(\overline X) \over {\epsilon^2}} = {\sigma^2 \ \over {n \cdot \epsilon^2}} $$
那麼當 \(n\) 趨向於無窮大時:
$$ \lim\limits_{n\rightarrow+\infty}P(|\overline X - \mu| \geq \epsilon) <= \lim\limits_{n\rightarrow+\infty}{\sigma^2 \ \over {n \cdot \epsilon^2}} = 0 $$
仔細體會這條式子,它究竟在表達什麼?
切比雪夫不等式約束了距離 \(\mu\) 太遠的那部分資料的佔比,它是由方差進行約束的;當 \(n\) 足夠大時,方差就越來越接近於 0,因此這個約束的上限也無限接近於 0,這表明 \(\overline X\) 距離 \(\mu\) 超過 \(\epsilon\) 的部分的概率無限接近於 0;也就是說,不管 \(\epsilon\) 多小,只要取樣數量 \(n\) 越來越大,所有的 \(\overline X\) 都將越來越被約束在 \(\mu\) 附近不超過 \(\epsilon\) 的範圍內 \([\mu - \epsilon, \mu + \epsilon]\),那麼事實上我們就得到了 \(\overline X\) 無限接近於 \(\mu\) 。
從上面的圖裡我們也可以看出這一點,當 \(n\) 越來越大,\(\overline X\) 的方差就越來越小,整體的分佈就越來越集中到了期望值 \(\mu\) 附近;當 \(n\) 趨向於無窮大時,方差接近於 0,整體的分佈趨於一根集中在 \(\mu\) 的豎線,這就表明此時的 \(\overline X\) 已經無限接近於 \(\mu\)。