UA MATH563 概率論的數學基礎 中心極限定理8 弱大數定律 Bernstein多項式逼近

一個不願透露姓名的孩子發表於2020-12-25

UA MATH563 概率論的數學基礎 中心極限定理8 弱大數定律 Bernstein多項式逼近

前七講我們已經討論清楚了獨立性以及獨立的隨機變數序列,接下來我們想要建立關於樣本均值的理論。考慮一個獨立的隨機變數序列 { X 1 , X 2 , ⋯   , X n } \{X_1,X_2,\cdots,X_n\} {X1,X2,,Xn},定義樣本和為
S n = ∑ i = 1 n X i S_n = \sum_{i=1}^n X_i Sn=i=1nXi

定義樣本均值為
X ˉ = S n n \bar X = \frac{S_n}{n} Xˉ=nSn

我們要試圖回答的問題是 X ˉ \bar X Xˉ服從什麼漸近分佈?它在什麼條件下會收斂到常數?


弱大數定律(weak law of large number, WLLN)
假設 { X n } n ≥ 1 \{X_n\}_{n \ge 1} {Xn}n1是不相關的隨機變數, E X n = μ , V a r ( X n ) ≤ c , ∀ n ≥ 1 , ∃ c > 0 EX_n = \mu,Var(X_n) \le c,\forall n \ge 1,\exists c>0 EXn=μ,Var(Xn)c,n1,c>0,則
X ˉ → L 2 μ \bar X \to_{L^2} \mu XˉL2μ

說明
另外一個版本的弱大數定律的結論是 X ˉ → p μ \bar X \to_p \mu Xˉpμ,但依概率收斂比均方收斂更弱,所以這裡敘述的是均方收斂。

Lp收斂: X n → L p X X_n \to_{L^p} X XnLpX等價於
lim ⁡ n → ∞ E ∣ X n − X ∣ p = 0 \lim_{n \to \infty}E|X_n-X|^p =0 nlimEXnXp=0

這種收斂弱於幾乎必然收斂但強於依概率收斂,當 p = 2 p=2 p=2時是 L 2 L^2 L2收斂,也叫均方收斂,於是 X ˉ → L 2 μ \bar X \to_{L^2} \mu XˉL2μ的含義是
E [ X ˉ − μ ] 2 → 0 E[\bar X-\mu]^2 \to 0 E[Xˉμ]20

因為
E X ˉ = E ∑ i = 1 n X i n = 1 n ∑ i = 1 n μ = μ E\bar X = E \sum_{i=1}^n\frac{X_i}{n}=\frac{1}{n}\sum_{i=1}^n \mu=\mu EXˉ=Ei=1nnXi=n1i=1nμ=μ

所以 E [ X ˉ − μ ] 2 = V a r ( X ˉ ) E[\bar X-\mu]^2=Var(\bar X) E[Xˉμ]2=Var(Xˉ),於是弱大數法則的含義是樣本均值的方差趨近於0。

證明
根據Chebyshev不等式, ∀ ϵ > 0 \forall \epsilon>0 ϵ>0
P ( ∣ X ˉ − μ ∣ > ϵ ) ≤ E [ X ˉ − μ ] 2 ϵ 2 P(|\bar X - \mu|>\epsilon) \le \frac{E[\bar{X}-\mu]^2}{\epsilon^2} P(Xˉμ>ϵ)ϵ2E[Xˉμ]2

其中(在 V a r ( X ˉ ) Var(\bar X) Var(Xˉ)的計算中,我們需要不相關的假設)
E [ X ˉ − μ ] 2 = V a r ( X ˉ ) = 1 n 2 ∑ i = 1 n V a r ( X i ) ≤ c n → 0 E[\bar X - \mu]^2 = Var(\bar X) = \frac{1}{n^2}\sum_{i=1}^n Var(X_i) \le \frac{c}{n} \to 0 E[Xˉμ]2=Var(Xˉ)=n21i=1nVar(Xi)nc0

於是 P ( ∣ X ˉ − μ ∣ > ϵ ) → 0 P(|\bar X - \mu|>\epsilon) \to 0 P(Xˉμ>ϵ)0,所以 X ˉ → p μ \bar X \to_p \mu Xˉpμ

事實上,這個結果同樣說明 E [ X ˉ − μ ] = 0 , V a r ( X ˉ ) → 0 E[\bar X - \mu] = 0,Var(\bar X) \to 0 E[Xˉμ]=0,Var(Xˉ)0於是均方收斂成立。

應用:Bernstein多項式近似

假設 f : [ 0 , 1 ] → R f:[0,1] \to \mathbb{R} f:[0,1]R是一個連續函式,定義
f n ( x ) = ∑ k = 0 n C n k x k ( 1 − x ) n − k f ( k / n ) f_n(x) = \sum_{k=0}^n C_n^k x^k(1-x)^{n-k}f(k/n) fn(x)=k=0nCnkxk(1x)nkf(k/n)

f n f_n fn f f f n n n階Bernstein多項式(Bernstein polynomial of degree n with respect to f),我們可以證明
sup ⁡ x ∈ [ 0 , 1 ] ∣ f n ( x ) − f ( x ) ∣ → 0 , n → ∞ \sup_{x \in [0,1]}|f_n(x)-f(x)| \to 0,n \to \infty x[0,1]supfn(x)f(x)0,n

先簡單觀察一下Bernstein多項式的構造,它非常像二項式定理的展開式,於是在概率論的語境下,我們應該把它聯絡到二項分佈:

假設 X 1 , ⋯   , X n ∼ i i d B e r ( p ) X_1,\cdots,X_n \sim_{iid} Ber(p) X1,,XniidBer(p),即
P ( X i = 1 ) = p , P ( X i = 0 ) = 1 − p P(X_i=1)=p,P(X_i=0)=1-p P(Xi=1)=p,P(Xi=0)=1p

並且
E X i = p , V a r ( X i ) = p ( 1 − p ) EX_i = p,Var(X_i) = p(1-p) EXi=p,Var(Xi)=p(1p)

Bernoulli分佈的樣本和就是二項分佈,
S n = ∑ i = 1 n X i ∼ B i n o m ( n , p ) P ( S n = k ) = C n k p k ( 1 − p ) n − k S_n = \sum_{i=1}^n X_i \sim Binom(n,p) \\ P(S_n = k) = C_n^kp^k(1-p)^{n-k} Sn=i=1nXiBinom(n,p)P(Sn=k)=Cnkpk(1p)nk

接下來我們嘗試把Bernstein不等式用期望表示出來,先做一下簡單的輔助計算幫助理解,如果 x = p x=p x=p,則
f n ( p ) = ∑ k = 0 n C n k p k ( 1 − p ) n − k f ( k / n ) = ∑ k = 0 n P ( S n = k ) f ( k / n ) f_n(p) = \sum_{k=0}^n C_n^k p^k(1-p)^{n-k}f(k/n)=\sum_{k=0}^{n}P(S_n=k)f(k/n) fn(p)=k=0nCnkpk(1p)nkf(k/n)=k=0nP(Sn=k)f(k/n)

k k k就是 S n S_n Sn的取值,顯然這個式子就是 f ( S n / n ) f(S_n/n) f(Sn/n)的期望。因為 p ∈ [ 0 , 1 ] p \in [0,1] p[0,1],於是我們要證明的可以是 f n ( p ) → f ( p ) f_n(p) \to f(p) fn(p)f(p)

下面我們嘗試用WLLN說明這個結論:

閉區間上的連續函式有界,於是
M = sup ⁡ x ∈ [ 0 , 1 ] ∣ f ( x ) ∣ < ∞ M = \sup_{x \in [0,1]}|f(x)|<\infty M=x[0,1]supf(x)<

閉區間上的連續函式一致連續,於是 ∀ ϵ > 0 , ∃ δ > 0 \forall \epsilon>0,\exists \delta>0 ϵ>0,δ>0, ∣ x − y ∣ < δ |x-y|<\delta xy<δ ∣ f ( x ) − f ( y ) ∣ < ϵ |f(x)-f(y)|<\epsilon f(x)f(y)<ϵ

計算
∣ f n ( p ) − f ( p ) ∣ = ∣ E [ f ( S n / n ) ] − f ( p ) ∣ = ∣ E [ f ( S n / n ) − f ( p ) ] ∣ ≤ E ∣ f ( S n / n ) − f ( p ) ∣ = E [ ∣ f ( S n / n ) − f ( p ) ∣ , ∣ S n / n − p ∣ ≤ δ ] + E [ ∣ f ( S n / n ) − f ( p ) ∣ , ∣ S n / n − p ∣ > δ ] |f_n(p)-f(p)|=|E[f(S_n/n)]-f(p)| = |E[f(S_n/n)-f(p)]| \\ \le E|f(S_n/n)-f(p)| \\=E[|f(S_n/n)-f(p)|,|S_n/n-p| \le \delta] \\+E[|f(S_n/n)-f(p)|,|S_n/n-p| > \delta] fn(p)f(p)=E[f(Sn/n)]f(p)=E[f(Sn/n)f(p)]Ef(Sn/n)f(p)=E[f(Sn/n)f(p),Sn/npδ]+E[f(Sn/n)f(p),Sn/np>δ]

其中 E [ X , A ] = E [ X 1 A ] E[X,A]=E[X1_A] E[X,A]=E[X1A],第一項
E [ ∣ f ( S n / n ) − f ( p ) ∣ , ∣ S n / n − p ∣ ≤ δ ] ≤ E [ ϵ , ∣ S n / n − p ∣ ≤ δ ] ≤ ϵ E[|f(S_n/n)-f(p)|,|S_n/n-p| \le \delta] \\ \le E[\epsilon,|S_n/n-p| \le \delta] \le \epsilon E[f(Sn/n)f(p),Sn/npδ]E[ϵ,Sn/npδ]ϵ

第二項
E [ ∣ f ( S n / n ) − f ( p ) ∣ , ∣ S n / n − p ∣ > δ ] ≤ E [ 2 M , ∣ S n / n − p ∣ > δ ] = 2 M P ( ∣ S n / n − p ∣ > δ ) E[|f(S_n/n)-f(p)|,|S_n/n-p| > \delta] \\ \le E[2M,|S_n/n-p| > \delta]=2MP(|S_n/n-p| > \delta) E[f(Sn/n)f(p),Sn/np>δ]E[2M,Sn/np>δ]=2MP(Sn/np>δ)

根據Chebyshev不等式
2 M P ( ∣ S n / n − p ∣ > δ ) ≤ 2 M V a r ( S n / n ) δ 2 2MP(|S_n/n-p| > \delta) \le \frac{2MVar(S_n/n)}{\delta^2} 2MP(Sn/np>δ)δ22MVar(Sn/n)

根據弱大數定律,不妨取 V a r ( S n / n ) < δ 2 ϵ 2 M Var(S_n/n)<\frac{\delta^2 \epsilon}{2M} Var(Sn/n)<2Mδ2ϵ
2 M V a r ( S n / n ) δ 2 < ϵ \frac{2MVar(S_n/n)}{\delta^2}<\epsilon δ22MVar(Sn/n)<ϵ

如果不僅僅考慮收斂性,而是考慮近似誤差的話,我們可以通過計算 V a r ( S n / n ) Var(S_n/n) Var(Sn/n)得到 2 M P ( ∣ S n / n − p ∣ > δ ) 2MP(|S_n/n-p| > \delta) 2MP(Sn/np>δ)的上界為
2 M n 2 δ 2 n p ( 1 − p ) ≤ M 2 n δ 2 \frac{2M}{n^2\delta^2}np(1-p) \le \frac{M}{2n\delta^2} n2δ22Mnp(1p)2nδ2M

於是
sup ⁡ p ∈ [ 0 , 1 ] ∣ f n ( p ) − f ( p ) ∣ ≤ ϵ + M 2 n δ 2 \sup_{p \in [0,1]}|f_n(p)-f(p)| \le \epsilon +\frac{M}{2n\delta^2} p[0,1]supfn(p)f(p)ϵ+2nδ2M

相關文章