大數定律與中心極限定理

Blackteaxx發表於2024-05-17

Markov & Chebyshev Inequality

示性函式

\[\mathbb{I}(A) = \begin{cases} 1, & A \text{ happen } \\ 0, & A \text{ not happen} \end{cases} \]

對於事件\(A\),如果對於樣本點\(\omega\)有示性函式

\[I_A(\omega) = \begin{cases} 1, & \omega \in A \\ 0, & \omega \notin A \end{cases} \]

那麼可以證明

\[\mathbb{E}[I_A] = 1 \times P(A) = \sum_\omega I_A(\omega) \times P(\omega) = P(A) \]

Markov Inequality

如果\(X\)是一個非負隨機變數,那麼對於任意的\(a > 0\),有

\[P(X \geq a) \leq \frac{\mathbb{E}[X]}{a} \]

這個不等式粗略刻畫了隨機變數取值大於等於\(a\)的機率上界。

proof

我們定義示性函式,固定正數\(a\),那麼有

\[\mathbb{I}(X \geq a) = \begin{cases} 1, & X \geq a \\ 0, & X < a \end{cases} \]

那麼我們可以得到:

\[\mathbb{I}(X \geq a) \leq \frac{X}{a} \]

因此我們可以得到一個不等式

\[P(X \geq a) = \sum_x P(x) \mathbb{I}(X \geq a) \leq \sum_x P(x) \frac{X}{a} = \frac{\mathbb{E}[X]}{a} \]

proof end

Chebyshev Inequality

如果\(X\)是一個隨機變數,那麼對於任意的\(\epsilon > 0\),有

\[P(|X - \mathbb{E}[X]| \geq \epsilon) \leq \frac{\text{var}(X)}{\epsilon^2} \]

這個不等式粗略刻畫了隨機變數取值與期望值的偏離程度。使用了隨機變數的期望與方差的資訊。

proof

我們定義示性函式

\[\mathbb{I}((X - \mathbb{E}[X])^2 \geq \epsilon^2) = \begin{cases} 1, & (X - \mathbb{E}[X])^2 \geq \epsilon^2 \\ 0, & (X - \mathbb{E}[X])^2 < \epsilon^2 \end{cases} \]

我們可知

\[\mathbb{I}((X - \mathbb{E}[X])^2 \geq \epsilon^2) \leq \frac{(X - \mathbb{E}[X])^2}{\epsilon^2} \]

因此我們可以得到一個不等式

\[P(| X - \mathbb{E}[X] | \geq \epsilon) = P((X - \mathbb{E}[X])^2 \geq \epsilon^2) = \\ \sum_x P(x) \mathbb{I}((X - \mathbb{E}[X])^2 \geq \epsilon^2) \leq \sum_x P(x) \frac{(X - \mathbb{E}[X])^2}{\epsilon^2} = \frac{\text{var}(X)}{\epsilon^2} \]

proof end

切比雪夫不等式並不要求隨機變數非負

依機率收斂

數列的收斂

若對於任意的\(\epsilon > 0\),存在\(N\),當\(n > N\)時,有\(|a_n - a| < \epsilon\),則稱數列\(a_n\)收斂於\(a\),記為\(\lim_{n \to \infin} a_n = a\)

隨機變數序列的收斂

若對於任意的\(\epsilon > 0\),有\(\lim_{n \to \infin} P(| Y_n - a | \geq \epsilon) = 0\),則稱隨機變數序列\(Y_n\)依機率收斂於\(a\),記為\(Y_n \xrightarrow{P} a\)

如果我們將其中的\(\lim\)展開,有

對於任意的\(\epsilon > 0\),有對於任意的\(\delta > 0\),存在\(N\),當\(n > N\)時,有\(P(|Y_n - a| \geq \epsilon) < \delta\),則稱隨機變數序列\(Y_n\)依機率收斂於\(a\),記為\(Y_n \xrightarrow{P} a\)

Laws of Large Numbers

Weak Law of Large Numbers

弱大數定律是指,在大樣本的情況下,樣本的經驗均值會以很大機率接近隨機變數的期望。

我們考慮隨機變數序列\(X_1, X_2, \cdots, X_n\).我們定義隨機變數序列的經驗均值為\(M_n = \frac{1}{N} \sum_{i=1}^n X_i\),注意到\(M_n\)也是一個隨機變數。

如果對於任意的\(\epsilon > 0\), 有

\[\lim_{n \to \infty} P(|M_n - \mathbb{E}[M_n ]| \geq \epsilon) = 0 \]

則稱隨機變數序列\(X_1, X_2, \cdots, X_n\)滿足弱大數定律。也稱\(M_n\)依機率收斂於\(\mathbb{E}[M_n]\)

現在我們開始一一分析各個大數定律

限制方差的大數定律--馬爾可夫大數定律

任取\(\epsilon > 0\),有

\[P(|M_n - \mathbb{E}[M_n ]| \geq \epsilon) \leq \frac{\text{var}(M_n)}{\epsilon^2} \]

其中\(\text{var}(M_n) = \frac{\text{var}(\sum_{i=1}^n X_i)}{n^2}\),因此

\[P(|M_n - \mathbb{E}[M_n ]| \geq \epsilon) \leq \frac{\text{var}(\sum_{i=1}^n X_i)}{n^2 \epsilon^2} \]

如果\(\lim_{n \to \infin} \frac{\text{var}(\sum_{i=1}^n X_i)}{n^2} = 0\), 那麼\(M_n\)滿足弱大數定律。

限制隨機變數不相關+方差有界的大數定律--切比雪夫大數定律

如果在 Markov 大數定律中,我們假設\(X_i\)兩兩不相關,那麼\(\text{var}(\sum_{i=1}^n X_i) = \sum_{i=1}^n \text{var}(X_i)\)

同時如果所有的\(X_i\)的方差都有上界\(\sigma^2\),那麼

\[P(|M_n - \mathbb{E}[M_n ]| \geq \epsilon) \leq \frac{\text{var}(\sum_{i=1}^n X_i)}{n^2 \epsilon^2} = \frac{\sum_{i=1}^n \text{var}(X_i)}{n^2 \epsilon^2} \leq \frac{n \sigma^2}{n^2 \epsilon^2} = \frac{\sigma^2}{n \epsilon^2} \]

因此得到結論:如果\(X_i\)兩兩不相關,且有共同上界\(\sigma^2\),那麼\(M_n\)滿足弱大數定律。

限制獨立同分布+方差有限的大數定律

如果\(X_i\)是獨立同分布的隨機變數,且有限方差\(\sigma^2\),那麼

\[P(|M_n - \mathbb{E}[M_n ]| \geq \epsilon) \leq \frac{\text{var}(\sum_{i=1}^n X_i)}{n^2 \epsilon^2} = \frac{n \sigma^2}{n^2 \epsilon^2} = \frac{\sigma^2}{n \epsilon^2} \]

滿足弱大數定律,並且此時\(\mathbb{E}[M_n] = \mathbb{E}[X]\)

限制獨立同分布+二項分佈--伯努利大數定律

如果\(X_i\)是獨立同分布的伯努利隨機變數,那麼\(M_n\)滿足弱大數定律。

同時可以進行擴充套件,我們將一個事件\(A\)嵌入一個實行函式中,轉換為一個伯努利隨機變數,那麼我們可以得到

\[\mathbb{E}[\frac{1}{n} \sum_{i=1}^n I_{A,i}] = \frac{1}{n} \sum_{i=1}^n \mathbb{E}[I_{A,i}] = \frac{1}{n} \sum_{i=1}^n P(A) = P(A) \]

又因為\(I_{A,i}\)獨立同分布且有限方差,因此\(M_n\)滿足弱大數定律,可得\(A\)的頻率收斂於機率

方差無界的大數定律--辛欽大數定律

如果\(X_i\)是獨立同分布且期望有界的隨機變數,但是方差無界,那麼\(M_n\)滿足弱大數定律。

Strong Law of Large Numbers

強大數定律是指,樣本的經驗均值會以機率 1 收斂於隨機變數的期望。

若有獨立同分布的隨機變數序列\(X_1, X_2, \cdots, X_n\),那麼

\[P(\lim_{n \to \infty} M_n = \mathbb{E}[X]) = 1 \]

可以理解為,在一個無限序列 X_1, X_2, \cdots, X_n 的樣本空間中,存在一個子集滿足\(M_n = \mathbb{E}[X]\),這個子集的機率為 1。

Central Limit Theorem

大數定律研究了隨機變數序列的經驗均值與期望之間的聯絡,而中心極限定理研究了隨機變數序列經驗均值的分佈。

Lindeberg-Levy/獨立同分布 Central Limit Theorem

如果\(X_i\)是獨立同分布的隨機變數,且有限期望\(\mu\)和方差\(\sigma^2\),那麼

\[\lim_{n \to \infty} P(\frac{\sum_{i=1}^n X_i - n\mu}{\sqrt{n}\sigma} \leq x) = \Phi(x) \]

\(M_n\)依分佈收斂於正態分佈。

獨立不同分佈下的中心極限定理

pass

參考

大數定律與中心極限定理
機率導論

相關文章