UA MATH567 高維統計I 概率不等式11 Azuma不等式

一個不願透露姓名的孩子發表於2020-12-21

UA MATH567 高維統計I 概率不等式11 Azuma不等式

前十一講介紹的不等式的理論基礎都是Markov不等式,根據Markov不等式我們匯出了Chebyshev不等式、Hoeffding不等式、Chernoff不等式、推廣的Hoeffding不等式、Khintchine不等式與Bernstein不等式,並發展了用來表示一類具有相同concentration performance的分佈族的方法:亞高斯分佈、亞指數分佈、以及更一般的Orlicz空間與Orlicz範數方法。

從這一講開始,我們介紹另外兩種匯出概率不等式的方法:鞅差序列法、Lipschitz函式法,鞅差序列法可以放鬆獨立性的假設,而Lipschitz函式法在後續介紹隨機向量、隨機矩陣等結構的時候具有非常重要的作用。這一講我們先介紹用鞅差序列法+Markov不等式匯出Azuma不等式。


Azuma不等式
假設 ( X j , F j ) (X_j,\mathcal{F}_j) (Xj,Fj)是一個鞅差序列,即

  1. X j ∈ F j X_j \in \mathcal{F}_j XjFj
  2. X j ∈ L 1 X_j \in L^1 XjL1
  3. E [ X j + 1 ∣ F j ] = 0 E[X_{j+1}|\mathcal{F}_j]=0 E[Xj+1Fj]=0

簡單起見,我們定義 F j = σ ( { X 1 , ⋯   , X j } ) \mathcal{F}_j = \sigma(\{X_1,\cdots,X_j\}) Fj=σ({X1,,Xj})。假設 ∣ X j ∣ ≤ 1 , a . s . |X_j| \le 1,a.s. Xj1,a.s.,則 ∀ λ > 0 \forall \lambda>0 λ>0 S n = X 1 + ⋯ + X n S_n=X_1 + \cdots + X_n Sn=X1++Xn滿足
P ( ∣ S n ∣ ≥ λ n ) ≤ C e − c λ 2 P(|S_n| \ge \lambda \sqrt{n}) \le Ce^{-c\lambda^2} P(Snλn )Cecλ2

其中 C , c C,c C,c是兩個正的常數。

說明
我們計算 E e t S n Ee^{tS_n} EetSn,其中 S n = S n − 1 + X n S_n=S_{n-1}+X_n Sn=Sn1+Xn
E e t S n = E e t S n − 1 e t X n Ee^{tS_n}=Ee^{tS_{n-1}}e^{tX_n} EetSn=EetSn1etXn

需要注意的是 S n − 1 S_{n-1} Sn1 X n X_n Xn並不獨立,所以不能把這個乘積的期望分開,但是我們可以用條件概率表示,記
Y n = E [ e t S n − 1 e t X n ∣ F n − 1 ] Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}] Yn=E[etSn1etXnFn1]

E e t S n = E [ Y n ] Ee^{tS_n}=E[Y_n] EetSn=E[Yn]。因為
Y n = E [ e t S n − 1 e t X n ∣ F n − 1 ] = e t S n − 1 E [ e t X n ∣ F n − 1 ] E Y n = E e t S n − 1 E [ e t X n ∣ F n − 1 ] Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]=e^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] \\ EY_n = Ee^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] Yn=E[etSn1etXnFn1]=etSn1E[etXnFn1]EYn=EetSn1E[etXnFn1]

根據有界的隨機變數的Chernoff不等式( ∣ X n ∣ ≤ 1 , a . s . |X_n| \le 1,a.s. Xn1,a.s.),
E [ e t X n ∣ F n − 1 ] ≤ e c 1 t 2 , ∃ c 1 > 0 E[e^{tX_n}|\mathcal{F}_{n-1}] \le e^{c_1t^2},\exists c_1>0 E[etXnFn1]ec1t2,c1>0

所以
E Y n ≤ e c 1 t 2 E e t S n − 1 EY_n \le e^{c_1t^2}Ee^{tS_{n-1}} EYnec1t2EetSn1

這樣就得到了一個可以遞迴的不等式,於是
E Y n ≤ e ∑ i = 1 n c i n t 2 , ∃ c i > 0 EY_n \le e^{\sum_{i=1}^n c_int^2},\exists c_i >0 EYnei=1ncint2,ci>0

C = ∑ i = 1 n c i C=\sum_{i=1}^n c_i C=i=1nci,根據Markov不等式,
P ( S n ≥ λ n ) ≤ e − t λ n E Y n ≤ e C n t 2 − t λ n P(S_n \ge \lambda \sqrt{n}) \le e^{-t\lambda \sqrt{n}}EY_n \le e^{Cnt^2-t\lambda \sqrt{n}} P(Snλn )etλn EYneCnt2tλn

我們可以選擇一個 t t t來最小化這個上界,考慮
t = λ n 2 C n t = \frac{\lambda \sqrt{n}}{2Cn} t=2Cnλn

則最小的上界為
C n t 2 − t λ n = C n λ 2 n 4 C 2 n 2 − λ 2 n 2 C n = e − λ 2 4 C Cnt^2-t\lambda \sqrt{n}=Cn\frac{\lambda^2n}{4C^2n^2}-\frac{\lambda^2n}{2Cn}=e^{-\frac{\lambda^2}{4C}} Cnt2tλn =Cn4C2n2λ2n2Cnλ2n=e4Cλ2

於是
P ( S n ≥ λ n ) ≤ e − λ 2 4 C P(S_n \ge \lambda \sqrt{n}) \le e^{-\frac{\lambda^2}{4C}} P(Snλn )e4Cλ2

對於 P ( S n ≤ − λ n ) = P ( − S n ≥ λ n ) P(S_n \le -\lambda \sqrt{n})=P(-S_n \ge \lambda \sqrt{n}) P(Snλn )=P(Snλn )也可以做類似的討論。

評註
Azuma不等式與Bernstein不等式相比,它不需要獨立性的假設,取而代之的是鞅差序列的假設,鞅差序列是在研究非獨立隨機變數序列常用的假設,Azuma不等式的意義在於即使沒有獨立性的假設,對於幾乎必然有界的隨機變數, e − c λ 2 e^{-c\lambda^2} ecλ2的尾部概率性質也是成立的。

相關文章