UA MATH567 高維統計I 概率不等式10 Bernstein不等式
UA MATH567 高維統計I 概率不等式10 Bernstein不等式
我們在介紹亞高斯分佈後介紹了適用於亞高斯分佈的推廣的Hoeffding不等式,對於亞指數分佈,我們可以得到類似的不等式。因為亞指數分佈相對更具有一般性,因此亞指數分佈的這個概率不等式是一個適用性比較廣的不等式。
Bernstein不等式 版本1 假設
{
X
i
}
i
=
1
N
\{X_i\}_{i=1}^N
{Xi}i=1N是一列零均值獨立亞指數隨機變數,
∀
t
>
0
\forall t>0
∀t>0,
K
=
max
1
≤
i
≤
N
∥
X
i
∥
ψ
1
K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1}
K=max1≤i≤N∥Xi∥ψ1
P
(
∣
∑
i
=
1
N
X
i
∣
≥
t
)
≤
2
exp
(
−
c
min
(
t
K
,
t
2
∑
i
=
1
N
∥
X
i
∥
ψ
1
2
)
)
P\left( \left| \sum_{i=1}^NX_i \right| \ge t\right) \le 2 \exp \left( -c \min \left( \frac{t}{K},\frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} \right) \right)
P(∣∣∣∣∣i=1∑NXi∣∣∣∣∣≥t)≤2exp(−cmin(Kt,∑i=1N∥Xi∥ψ12t2))
其中 c c c是一個常數。
證明
我們先用Markov不等式討論
P
(
∑
i
=
1
N
X
i
≥
t
)
P(\sum_{i=1}^NX_i \ge t)
P(∑i=1NXi≥t),
P
(
∑
i
=
1
N
X
i
≥
t
)
=
P
(
e
λ
∑
i
=
1
N
X
i
≥
e
λ
t
)
≤
e
−
λ
t
E
e
λ
∑
i
=
1
N
X
i
=
e
−
λ
t
∏
i
=
1
N
E
e
λ
X
i
P(\sum_{i=1}^NX_i \ge t) = P(e^{\lambda\sum_{i=1}^NX_i} \ge e^{\lambda t}) \\\le e^{-\lambda t}Ee^{\lambda\sum_{i=1}^NX_i} = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}
P(i=1∑NXi≥t)=P(eλ∑i=1NXi≥eλt)≤e−λtEeλ∑i=1NXi=e−λti=1∏NEeλXi
根據亞指數性5,
K
5
=
c
∥
X
i
∥
ψ
1
K_5 = c\left\| X_i \right\|_{\psi_1}
K5=c∥Xi∥ψ1
E
e
λ
X
i
≤
e
c
2
∥
X
i
∥
ψ
1
2
λ
2
,
∀
0
<
λ
≤
1
/
K
5
Ee^{\lambda X_i} \le e^{c^2\left\| X_i \right\|_{\psi_1}^2\lambda^2},\forall 0<\lambda \le 1/K_5
EeλXi≤ec2∥Xi∥ψ12λ2,∀0<λ≤1/K5
要使對所有的
i
i
i,上式均適用,我們需要進一步限制
λ
\lambda
λ的取值為
0
<
λ
≤
1
c
max
i
∥
X
∥
ψ
1
0 < \lambda \le \frac{1}{c\max_i \left\| X \right\|_{\psi_1}}
0<λ≤cmaxi∥X∥ψ11
於是
e
−
λ
t
∏
i
=
1
N
E
e
λ
X
i
≤
e
−
λ
t
∏
i
=
1
N
e
c
2
∥
X
i
∥
ψ
1
2
λ
2
=
exp
(
−
λ
t
+
c
2
λ
2
∑
i
=
1
N
∥
X
i
∥
ψ
1
2
)
e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i} \le e^{-\lambda t}\prod_{i=1}^N e^{c^2\left\| X_i \right\|_{\psi_1}^2\lambda^2} \\= \exp (-\lambda t+c^2\lambda^2 \sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2)
e−λti=1∏NEeλXi≤e−λti=1∏Nec2∥Xi∥ψ12λ2=exp(−λt+c2λ2i=1∑N∥Xi∥ψ12)
接下來,我們要選擇一個
λ
\lambda
λ使得這個上界最小,即我們需要解
min
0
<
λ
≤
1
c
max
i
∥
X
∥
ψ
1
−
λ
t
+
c
2
λ
2
∑
i
=
1
N
∥
X
i
∥
ψ
1
2
\min_{0<\lambda \le \frac{1}{c\max_i \left\| X \right\|_{\psi_1}}}-\lambda t+c^2\lambda^2 \sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2
0<λ≤cmaxi∥X∥ψ11min−λt+c2λ2i=1∑N∥Xi∥ψ12
這個二次函式的最小值要麼在全域性最小點處取得,要麼在邊界上取得,即
λ
=
1
c
max
i
∥
X
∥
ψ
1
o
r
t
2
c
2
∑
i
=
1
N
∥
X
i
∥
ψ
1
2
\lambda = \frac{1}{c\max_i \left\| X \right\|_{\psi_1}}\ or\ \frac{t}{2c^2\sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2}
λ=cmaxi∥X∥ψ11 or 2c2∑i=1N∥Xi∥ψ12t
於是最小的上界為
exp
(
−
c
min
(
t
K
,
t
2
∑
i
=
1
N
∥
X
i
∥
ψ
1
2
)
)
\exp \left( -c \min \left( \frac{t}{K},\frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} \right) \right)
exp(−cmin(Kt,∑i=1N∥Xi∥ψ12t2))
對於 P ( − ∑ i = 1 N X i ≥ t ) P(-\sum_{i=1}^NX_i \ge t) P(−∑i=1NXi≥t),我們可以得到一樣的結果,這樣就說明了Bernstein不等式 版本1。
Bernstein不等式 版本2 假設
{
X
i
}
i
=
1
N
\{X_i\}_{i=1}^N
{Xi}i=1N是一列零均值獨立亞指數隨機變數,
a
a
a是一個常向量,
∀
t
>
0
\forall t>0
∀t>0,
K
=
max
1
≤
i
≤
N
∥
X
i
∥
ψ
1
K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1}
K=max1≤i≤N∥Xi∥ψ1
P
(
∣
∑
i
=
1
N
a
i
X
i
∣
≥
t
)
≤
2
exp
(
−
c
min
(
t
K
∥
a
∥
∞
,
t
2
K
2
∥
a
∥
2
2
)
)
P\left( \left| \sum_{i=1}^Na_iX_i \right| \ge t\right) \le 2 \exp \left( -c \min \left( \frac{t}{K\left\| a\right\|_{\infty}},\frac{t^2}{K^2\left\|a \right\|_{2}^2} \right) \right)
P(∣∣∣∣∣i=1∑NaiXi∣∣∣∣∣≥t)≤2exp(−cmin(K∥a∥∞t,K2∥a∥22t2))
其中 c c c是一個常數。
說明 我們簡單比較一下版本1和版本2,版本2試圖討論的是 X i X_i Xi的線性組合,我們可以找到版本1和2上界的對應關係。
根據亞指數範數的正齊次性
∑
i
=
1
N
∥
a
i
X
i
∥
ψ
1
2
=
∑
i
=
1
N
a
i
2
∥
X
i
∥
ψ
1
2
≤
∑
i
=
1
N
a
i
2
K
2
=
K
2
∥
a
∥
2
2
\sum_{i=1}^N \left\| a_iX_i \right\|_{\psi_1}^2 = \sum_{i=1}^Na_i^2 \left\| X_i \right\|_{\psi_1} ^2 \le \sum_{i=1}^Na_i^2 K^2 = K^2 \left\| a \right\|_2^2
i=1∑N∥aiXi∥ψ12=i=1∑Nai2∥Xi∥ψ12≤i=1∑Nai2K2=K2∥a∥22
這體現了版本1中上界 t 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 \frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} ∑i=1N∥Xi∥ψ12t2與 t 2 K 2 ∥ a ∥ 2 2 \frac{t^2}{K^2\left\|a \right\|_{2}^2} K2∥a∥22t2的對應關係。
同樣根據亞指數範數的正齊次性
max
i
∥
a
i
X
i
∥
ψ
1
=
max
i
∣
a
i
∣
∥
X
i
∥
ψ
1
≤
∥
a
∥
∞
K
\max_i \left\| a_iX_i \right\|_{\psi_1}= \max_i |a_i|\left\| X_i \right\|_{\psi_1} \le \left\|a \right\|_{\infty}K
imax∥aiXi∥ψ1=imax∣ai∣∥Xi∥ψ1≤∥a∥∞K
這體現了版本1中上界 t K \frac{t}{K} Kt與 t K ∥ a ∥ ∞ \frac{t}{K\left\| a\right\|_{\infty}} K∥a∥∞t的對應關係。
如果取 a i = 1 / N a_i=1/N ai=1/N,我們可以得到關於樣本均值的不等式:
Bernstein不等式 版本3 假設
{
X
i
}
i
=
1
N
\{X_i\}_{i=1}^N
{Xi}i=1N是一列零均值獨立亞指數隨機變數,
∀
t
>
0
\forall t>0
∀t>0,
K
=
max
1
≤
i
≤
N
∥
X
i
∥
ψ
1
K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1}
K=max1≤i≤N∥Xi∥ψ1
P
(
∣
X
ˉ
∣
≥
t
)
≤
2
exp
(
−
c
N
min
(
t
K
,
t
2
K
2
)
)
P\left( \left| \bar X \right| \ge t\right) \le 2 \exp \left( -cN \min \left( \frac{t}{K},\frac{t^2}{K^2} \right) \right)
P(∣∣Xˉ∣∣≥t)≤2exp(−cNmin(Kt,K2t2))
其中 c c c是一個常數。
Bernstein不等式 版本4 假設
{
X
i
}
i
=
1
N
\{X_i\}_{i=1}^N
{Xi}i=1N是一列零均值獨立亞指數上界為
K
K
K的隨機變數,
∀
t
>
0
\forall t>0
∀t>0,
P
(
∣
∑
i
=
1
N
X
i
∣
≥
t
)
≤
2
exp
(
−
t
2
/
2
σ
2
+
K
t
/
3
)
P\left( \left| \sum_{i=1}^NX_i \right| \ge t\right) \le 2 \exp \left( -\frac{t^2/2}{\sigma^2+Kt/3} \right)
P(∣∣∣∣∣i=1∑NXi∣∣∣∣∣≥t)≤2exp(−σ2+Kt/3t2/2)
σ 2 = ∑ i = 1 N E X i 2 \sigma^2=\sum_{i=1}^N EX_i^2 σ2=∑i=1NEXi2。這是使用最廣泛的一個版本,因為它能提供一個比Hoeffding不等式更小的上界。
相關文章
- UA MATH567 高維統計I 概率不等式11 Azuma不等式H5
- UA MATH567 高維統計I 概率不等式8 亞指數範數H5
- UA MATH567 高維統計I 概率不等式7 亞指數性與亞指數分佈H5
- UA MATH567 高維統計II 隨機向量5 亞高斯隨機向量H5隨機
- 不等式
- UA MATH567 高維統計II 隨機向量1 隨機向量的範數H5隨機
- UA MATH567 高維統計II 隨機向量2 各向同性的隨機向量H5隨機
- 主元配方不等式
- UA MATH567 高維統計II 隨機向量6 亞高斯隨機向量的應用: 半正定規劃H5隨機
- 常用不等式題目解法
- 四邊形不等式優化DP優化
- Jensen 不等式證明(數形結合)
- UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用:Stochastic Block Model與社群發現 問題描述H5隨機矩陣ASTBloC
- 連線查詢中不等式的運用
- 四邊形不等式 & 決策單調性
- UA MATH563 概率論的數學基礎 中心極限定理8 弱大數定律 Bernstein多項式逼近H5
- 一種基於均值不等式的Listwise損失函式函式
- UVA 12716 GCD XOR (數論 gcd和異或不等式)GC
- 二叉搜尋樹 [四邊形不等式優化區間dp]優化
- 【數學基礎篇】---詳解極限與微分學與Jensen 不等式
- 機器學習中的概率統計機器學習
- 切比雪夫不等式(揭示了隨機變數值與數學期望的關係)隨機變數
- UA MATH563 概率論的數學基礎 中心極限定理23 概率測度族的緊性H5
- 業界 | 如果資料分佈是非正態的怎麼辦?用切比雪夫不等式呀!
- 無符號數減法,注意溢位問題(移項後,不等式結果不一致)符號
- 【概率論】一維隨機變數隨機變數
- UA MATH563 概率論的數學基礎 中心極限定理5 Renyi定理H5
- 2024ICPC武漢邀請賽-G.Pack-數論分塊、整除運算相關的不等式
- 數學與程式設計——概率論與數理統計程式設計
- UA MATH563 概率論的數學基礎 中心極限定理14 Kolmogorov maximal inequalityH5Go
- UA MATH563 概率論的數學基礎 鞅論初步8 鞅收斂定理H5
- 圖解AI數學基礎 | 概率與統計圖解AI
- OPC UA 統一架構) (一)架構
- OPC UA 統一架構 (二)架構
- UA MATH563 概率論的數學基礎 鞅論初步9 分支過程簡介H5
- 概率論與梳理統計-隨機變數random variables隨機變數random
- 一維隨機變數及其概率分佈隨機變數概率分佈
- UA MATH563 概率論的數學基礎 中心極限定理15 Kolmogorov 0-1律H5Go