UA MATH567 高維統計I 概率不等式11 Azuma不等式
UA MATH567 高維統計I 概率不等式11 Azuma不等式
前十一講介紹的不等式的理論基礎都是Markov不等式,根據Markov不等式我們匯出了Chebyshev不等式、Hoeffding不等式、Chernoff不等式、推廣的Hoeffding不等式、Khintchine不等式與Bernstein不等式,並發展了用來表示一類具有相同concentration performance的分佈族的方法:亞高斯分佈、亞指數分佈、以及更一般的Orlicz空間與Orlicz範數方法。
從這一講開始,我們介紹另外兩種匯出概率不等式的方法:鞅差序列法、Lipschitz函式法,鞅差序列法可以放鬆獨立性的假設,而Lipschitz函式法在後續介紹隨機向量、隨機矩陣等結構的時候具有非常重要的作用。這一講我們先介紹用鞅差序列法+Markov不等式匯出Azuma不等式。
Azuma不等式
假設
(
X
j
,
F
j
)
(X_j,\mathcal{F}_j)
(Xj,Fj)是一個鞅差序列,即
- X j ∈ F j X_j \in \mathcal{F}_j Xj∈Fj
- X j ∈ L 1 X_j \in L^1 Xj∈L1
- E [ X j + 1 ∣ F j ] = 0 E[X_{j+1}|\mathcal{F}_j]=0 E[Xj+1∣Fj]=0
簡單起見,我們定義
F
j
=
σ
(
{
X
1
,
⋯
,
X
j
}
)
\mathcal{F}_j = \sigma(\{X_1,\cdots,X_j\})
Fj=σ({X1,⋯,Xj})。假設
∣
X
j
∣
≤
1
,
a
.
s
.
|X_j| \le 1,a.s.
∣Xj∣≤1,a.s.,則
∀
λ
>
0
\forall \lambda>0
∀λ>0,
S
n
=
X
1
+
⋯
+
X
n
S_n=X_1 + \cdots + X_n
Sn=X1+⋯+Xn滿足
P
(
∣
S
n
∣
≥
λ
n
)
≤
C
e
−
c
λ
2
P(|S_n| \ge \lambda \sqrt{n}) \le Ce^{-c\lambda^2}
P(∣Sn∣≥λn)≤Ce−cλ2
其中 C , c C,c C,c是兩個正的常數。
說明
我們計算
E
e
t
S
n
Ee^{tS_n}
EetSn,其中
S
n
=
S
n
−
1
+
X
n
S_n=S_{n-1}+X_n
Sn=Sn−1+Xn,
E
e
t
S
n
=
E
e
t
S
n
−
1
e
t
X
n
Ee^{tS_n}=Ee^{tS_{n-1}}e^{tX_n}
EetSn=EetSn−1etXn
需要注意的是
S
n
−
1
S_{n-1}
Sn−1與
X
n
X_n
Xn並不獨立,所以不能把這個乘積的期望分開,但是我們可以用條件概率表示,記
Y
n
=
E
[
e
t
S
n
−
1
e
t
X
n
∣
F
n
−
1
]
Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]
Yn=E[etSn−1etXn∣Fn−1]
則
E
e
t
S
n
=
E
[
Y
n
]
Ee^{tS_n}=E[Y_n]
EetSn=E[Yn]。因為
Y
n
=
E
[
e
t
S
n
−
1
e
t
X
n
∣
F
n
−
1
]
=
e
t
S
n
−
1
E
[
e
t
X
n
∣
F
n
−
1
]
E
Y
n
=
E
e
t
S
n
−
1
E
[
e
t
X
n
∣
F
n
−
1
]
Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]=e^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] \\ EY_n = Ee^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}]
Yn=E[etSn−1etXn∣Fn−1]=etSn−1E[etXn∣Fn−1]EYn=EetSn−1E[etXn∣Fn−1]
根據有界的隨機變數的Chernoff不等式(
∣
X
n
∣
≤
1
,
a
.
s
.
|X_n| \le 1,a.s.
∣Xn∣≤1,a.s.),
E
[
e
t
X
n
∣
F
n
−
1
]
≤
e
c
1
t
2
,
∃
c
1
>
0
E[e^{tX_n}|\mathcal{F}_{n-1}] \le e^{c_1t^2},\exists c_1>0
E[etXn∣Fn−1]≤ec1t2,∃c1>0
所以
E
Y
n
≤
e
c
1
t
2
E
e
t
S
n
−
1
EY_n \le e^{c_1t^2}Ee^{tS_{n-1}}
EYn≤ec1t2EetSn−1
這樣就得到了一個可以遞迴的不等式,於是
E
Y
n
≤
e
∑
i
=
1
n
c
i
n
t
2
,
∃
c
i
>
0
EY_n \le e^{\sum_{i=1}^n c_int^2},\exists c_i >0
EYn≤e∑i=1ncint2,∃ci>0
記
C
=
∑
i
=
1
n
c
i
C=\sum_{i=1}^n c_i
C=∑i=1nci,根據Markov不等式,
P
(
S
n
≥
λ
n
)
≤
e
−
t
λ
n
E
Y
n
≤
e
C
n
t
2
−
t
λ
n
P(S_n \ge \lambda \sqrt{n}) \le e^{-t\lambda \sqrt{n}}EY_n \le e^{Cnt^2-t\lambda \sqrt{n}}
P(Sn≥λn)≤e−tλnEYn≤eCnt2−tλn
我們可以選擇一個
t
t
t來最小化這個上界,考慮
t
=
λ
n
2
C
n
t = \frac{\lambda \sqrt{n}}{2Cn}
t=2Cnλn
則最小的上界為
C
n
t
2
−
t
λ
n
=
C
n
λ
2
n
4
C
2
n
2
−
λ
2
n
2
C
n
=
e
−
λ
2
4
C
Cnt^2-t\lambda \sqrt{n}=Cn\frac{\lambda^2n}{4C^2n^2}-\frac{\lambda^2n}{2Cn}=e^{-\frac{\lambda^2}{4C}}
Cnt2−tλn=Cn4C2n2λ2n−2Cnλ2n=e−4Cλ2
於是
P
(
S
n
≥
λ
n
)
≤
e
−
λ
2
4
C
P(S_n \ge \lambda \sqrt{n}) \le e^{-\frac{\lambda^2}{4C}}
P(Sn≥λn)≤e−4Cλ2
對於 P ( S n ≤ − λ n ) = P ( − S n ≥ λ n ) P(S_n \le -\lambda \sqrt{n})=P(-S_n \ge \lambda \sqrt{n}) P(Sn≤−λn)=P(−Sn≥λn)也可以做類似的討論。
評註
Azuma不等式與Bernstein不等式相比,它不需要獨立性的假設,取而代之的是鞅差序列的假設,鞅差序列是在研究非獨立隨機變數序列常用的假設,Azuma不等式的意義在於即使沒有獨立性的假設,對於幾乎必然有界的隨機變數,
e
−
c
λ
2
e^{-c\lambda^2}
e−cλ2的尾部概率性質也是成立的。
相關文章
- UA MATH567 高維統計I 概率不等式10 Bernstein不等式H5
- UA MATH567 高維統計I 概率不等式8 亞指數範數H5
- UA MATH567 高維統計I 概率不等式7 亞指數性與亞指數分佈H5
- UA MATH567 高維統計II 隨機向量5 亞高斯隨機向量H5隨機
- UA MATH567 高維統計II 隨機向量1 隨機向量的範數H5隨機
- 不等式
- UA MATH567 高維統計II 隨機向量2 各向同性的隨機向量H5隨機
- 主元配方不等式
- UA MATH567 高維統計II 隨機向量6 亞高斯隨機向量的應用: 半正定規劃H5隨機
- 常用不等式題目解法
- 四邊形不等式優化DP優化
- 數理統計9:完備統計量,指數族,充分完備統計量法,CR不等式
- UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用:Stochastic Block Model與社群發現 問題描述H5隨機矩陣ASTBloC
- Jensen 不等式證明(數形結合)
- 四邊形不等式 & 決策單調性
- 一種基於均值不等式的Listwise損失函式函式
- 二叉搜尋樹 [四邊形不等式優化區間dp]優化
- 【數學基礎篇】---詳解極限與微分學與Jensen 不等式
- 概率論與數理統計 17
- 概率論與數理統計 19
- 概率論與數理統計(1)
- UA MATH563 概率論的數學基礎 中心極限定理23 概率測度族的緊性H5
- 機器學習中的概率統計機器學習
- 業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!
- 2024ICPC武漢邀請賽-G.Pack-數論分塊、整除運算相關的不等式
- 無符號數減法,注意溢位問題(移項後,不等式結果不一致)符號
- 【概率論】一維隨機變數隨機變數
- UA MATH563 概率論的數學基礎 中心極限定理5 Renyi定理H5
- 先驗概率 後驗概率 似然估計
- 圖解AI數學基礎 | 概率與統計圖解AI
- UA MATH563 概率論的數學基礎 中心極限定理14 Kolmogorov maximal inequalityH5Go
- UA MATH563 概率論的數學基礎 鞅論初步8 鞅收斂定理H5
- 概率論與數理統計期末複習題(2)
- 概率論與梳理統計-隨機變數random variables隨機變數random
- UA MATH563 概率論的數學基礎 鞅論初步9 分支過程簡介H5
- OPC UA 統一架構 (二)架構
- OPC UA 統一架構) (一)架構
- 系統程式設計 - I/O模型程式設計模型