UA MATH567 高維統計I 概率不等式11 Azuma不等式

前十一講介紹的不等式的理論基礎都是Markov不等式，根據Markov不等式我們匯出了Chebyshev不等式、Hoeffding不等式、Chernoff不等式、推廣的Hoeffding不等式、Khintchine不等式與Bernstein不等式，並發展了用來表示一類具有相同concentration performance的分佈族的方法：亞高斯分佈、亞指數分佈、以及更一般的Orlicz空間與Orlicz範數方法。

從這一講開始，我們介紹另外兩種匯出概率不等式的方法：鞅差序列法、Lipschitz函式法，鞅差序列法可以放鬆獨立性的假設，而Lipschitz函式法在後續介紹隨機向量、隨機矩陣等結構的時候具有非常重要的作用。這一講我們先介紹用鞅差序列法+Markov不等式匯出Azuma不等式。

Azuma不等式
假設 $(X_j,\mathcal{F}_j)$ 是一個鞅差序列，即

$X_j \in \mathcal{F}_j$
$X_j \in L^1$
$E[X_{j+1}|\mathcal{F}_j]=0$

簡單起見，我們定義 $\mathcal{F}_j = \sigma(\{X_1,\cdots,X_j\})$ 。假設 $|X_j| \le 1,a.s.$ ，則 $\forall \lambda>0$ ， $S_n=X_1 + \cdots + X_n$ 滿足
$P(|S_n| \ge \lambda \sqrt{n}) \le Ce^{-c\lambda^2}$

其中 $C, c$ 是兩個正的常數。

說明
我們計算 $Ee^{tS_n}$ ，其中 $S_n=S_{n-1}+X_n$ ，
$Ee^{tS_n}=Ee^{tS_{n-1}}e^{tX_n}$

需要注意的是 $S_{n-1}$ 與 $X_n$ 並不獨立，所以不能把這個乘積的期望分開，但是我們可以用條件概率表示，記
$Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]$

則 $Ee^{tS_n}=E[Y_n]$ 。因為
$Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]=e^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] \\ EY_n = Ee^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}]$

根據有界的隨機變數的Chernoff不等式（ $|X_n| \le 1,a.s.$ ），
$E[e^{tX_n}|\mathcal{F}_{n-1}] \le e^{c_1t^2},\exists c_1>0$

所以
$EY_n \le e^{c_1t^2}Ee^{tS_{n-1}}$

這樣就得到了一個可以遞迴的不等式，於是
$EY_n \le e^{\sum_{i=1}^n c_int^2},\exists c_i >0$

記 $C=\sum_{i=1}^n c_i$ ，根據Markov不等式，
$P(S_n \ge \lambda \sqrt{n}) \le e^{-t\lambda \sqrt{n}}EY_n \le e^{Cnt^2-t\lambda \sqrt{n}}$

我們可以選擇一個 $t$ 來最小化這個上界，考慮
$\frac{\lambda \sqrt{n}}{2Cn}$

則最小的上界為
$Cnt^2-t\lambda \sqrt{n}=Cn\frac{\lambda^2n}{4C^2n^2}-\frac{\lambda^2n}{2Cn}=e^{-\frac{\lambda^2}{4C}}$

於是
$P(S_n \ge \lambda \sqrt{n}) \le e^{-\frac{\lambda^2}{4C}}$

對於 $P(S_n \le -\lambda \sqrt{n})=P(-S_n \ge \lambda \sqrt{n})$ 也可以做類似的討論。

評註
Azuma不等式與Bernstein不等式相比，它不需要獨立性的假設，取而代之的是鞅差序列的假設，鞅差序列是在研究非獨立隨機變數序列常用的假設，Azuma不等式的意義在於即使沒有獨立性的假設，對於幾乎必然有界的隨機變數， $e^{-c\lambda^2}$ 的尾部概率性質也是成立的。

UA MATH567 高維統計I 概率不等式11 Azuma不等式

UA MATH567 高維統計I 概率不等式11 Azuma不等式

相關文章