UA MATH567 高維統計I 概率不等式10 Bernstein不等式

一個不願透露姓名的孩子發表於2020-12-19

UA MATH567 高維統計I 概率不等式10 Bernstein不等式

我們在介紹亞高斯分佈後介紹了適用於亞高斯分佈的推廣的Hoeffding不等式,對於亞指數分佈,我們可以得到類似的不等式。因為亞指數分佈相對更具有一般性,因此亞指數分佈的這個概率不等式是一個適用性比較廣的不等式。

Bernstein不等式 版本1 假設 { X i } i = 1 N \{X_i\}_{i=1}^N {Xi}i=1N是一列零均值獨立亞指數隨機變數, ∀ t > 0 \forall t>0 t>0, K = max ⁡ 1 ≤ i ≤ N ∥ X i ∥ ψ 1 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1} K=max1iNXiψ1
P ( ∣ ∑ i = 1 N X i ∣ ≥ t ) ≤ 2 exp ⁡ ( − c min ⁡ ( t K , t 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 ) ) P\left( \left| \sum_{i=1}^NX_i \right| \ge t\right) \le 2 \exp \left( -c \min \left( \frac{t}{K},\frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} \right) \right) P(i=1NXit)2exp(cmin(Kt,i=1NXiψ12t2))

其中 c c c是一個常數。

證明
我們先用Markov不等式討論 P ( ∑ i = 1 N X i ≥ t ) P(\sum_{i=1}^NX_i \ge t) P(i=1NXit),
P ( ∑ i = 1 N X i ≥ t ) = P ( e λ ∑ i = 1 N X i ≥ e λ t ) ≤ e − λ t E e λ ∑ i = 1 N X i = e − λ t ∏ i = 1 N E e λ X i P(\sum_{i=1}^NX_i \ge t) = P(e^{\lambda\sum_{i=1}^NX_i} \ge e^{\lambda t}) \\\le e^{-\lambda t}Ee^{\lambda\sum_{i=1}^NX_i} = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i} P(i=1NXit)=P(eλi=1NXieλt)eλtEeλi=1NXi=eλti=1NEeλXi

根據亞指數性5, K 5 = c ∥ X i ∥ ψ 1 K_5 = c\left\| X_i \right\|_{\psi_1} K5=cXiψ1
E e λ X i ≤ e c 2 ∥ X i ∥ ψ 1 2 λ 2 , ∀ 0 < λ ≤ 1 / K 5 Ee^{\lambda X_i} \le e^{c^2\left\| X_i \right\|_{\psi_1}^2\lambda^2},\forall 0<\lambda \le 1/K_5 EeλXiec2Xiψ12λ2,0<λ1/K5

要使對所有的 i i i,上式均適用,我們需要進一步限制 λ \lambda λ的取值為
0 < λ ≤ 1 c max ⁡ i ∥ X ∥ ψ 1 0 < \lambda \le \frac{1}{c\max_i \left\| X \right\|_{\psi_1}} 0<λcmaxiXψ11

於是
e − λ t ∏ i = 1 N E e λ X i ≤ e − λ t ∏ i = 1 N e c 2 ∥ X i ∥ ψ 1 2 λ 2 = exp ⁡ ( − λ t + c 2 λ 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 ) e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i} \le e^{-\lambda t}\prod_{i=1}^N e^{c^2\left\| X_i \right\|_{\psi_1}^2\lambda^2} \\= \exp (-\lambda t+c^2\lambda^2 \sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2) eλti=1NEeλXieλti=1Nec2Xiψ12λ2=exp(λt+c2λ2i=1NXiψ12)

接下來,我們要選擇一個 λ \lambda λ使得這個上界最小,即我們需要解
min ⁡ 0 < λ ≤ 1 c max ⁡ i ∥ X ∥ ψ 1 − λ t + c 2 λ 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 \min_{0<\lambda \le \frac{1}{c\max_i \left\| X \right\|_{\psi_1}}}-\lambda t+c^2\lambda^2 \sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2 0<λcmaxiXψ11minλt+c2λ2i=1NXiψ12

這個二次函式的最小值要麼在全域性最小點處取得,要麼在邊界上取得,即
λ = 1 c max ⁡ i ∥ X ∥ ψ 1   o r   t 2 c 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 \lambda = \frac{1}{c\max_i \left\| X \right\|_{\psi_1}}\ or\ \frac{t}{2c^2\sum_{i=1}^N\left\| X_i \right\|_{\psi_1}^2} λ=cmaxiXψ11 or 2c2i=1NXiψ12t

於是最小的上界為
exp ⁡ ( − c min ⁡ ( t K , t 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 ) ) \exp \left( -c \min \left( \frac{t}{K},\frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} \right) \right) exp(cmin(Kt,i=1NXiψ12t2))

對於 P ( − ∑ i = 1 N X i ≥ t ) P(-\sum_{i=1}^NX_i \ge t) P(i=1NXit),我們可以得到一樣的結果,這樣就說明了Bernstein不等式 版本1。


Bernstein不等式 版本2 假設 { X i } i = 1 N \{X_i\}_{i=1}^N {Xi}i=1N是一列零均值獨立亞指數隨機變數, a a a是一個常向量, ∀ t > 0 \forall t>0 t>0, K = max ⁡ 1 ≤ i ≤ N ∥ X i ∥ ψ 1 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1} K=max1iNXiψ1
P ( ∣ ∑ i = 1 N a i X i ∣ ≥ t ) ≤ 2 exp ⁡ ( − c min ⁡ ( t K ∥ a ∥ ∞ , t 2 K 2 ∥ a ∥ 2 2 ) ) P\left( \left| \sum_{i=1}^Na_iX_i \right| \ge t\right) \le 2 \exp \left( -c \min \left( \frac{t}{K\left\| a\right\|_{\infty}},\frac{t^2}{K^2\left\|a \right\|_{2}^2} \right) \right) P(i=1NaiXit)2exp(cmin(Kat,K2a22t2))

其中 c c c是一個常數。

說明 我們簡單比較一下版本1和版本2,版本2試圖討論的是 X i X_i Xi的線性組合,我們可以找到版本1和2上界的對應關係。

根據亞指數範數的正齊次性
∑ i = 1 N ∥ a i X i ∥ ψ 1 2 = ∑ i = 1 N a i 2 ∥ X i ∥ ψ 1 2 ≤ ∑ i = 1 N a i 2 K 2 = K 2 ∥ a ∥ 2 2 \sum_{i=1}^N \left\| a_iX_i \right\|_{\psi_1}^2 = \sum_{i=1}^Na_i^2 \left\| X_i \right\|_{\psi_1} ^2 \le \sum_{i=1}^Na_i^2 K^2 = K^2 \left\| a \right\|_2^2 i=1NaiXiψ12=i=1Nai2Xiψ12i=1Nai2K2=K2a22

這體現了版本1中上界 t 2 ∑ i = 1 N ∥ X i ∥ ψ 1 2 \frac{t^2}{\sum_{i=1}^N \left\|X_i \right\|_{\psi_1}^2} i=1NXiψ12t2 t 2 K 2 ∥ a ∥ 2 2 \frac{t^2}{K^2\left\|a \right\|_{2}^2} K2a22t2的對應關係。

同樣根據亞指數範數的正齊次性
max ⁡ i ∥ a i X i ∥ ψ 1 = max ⁡ i ∣ a i ∣ ∥ X i ∥ ψ 1 ≤ ∥ a ∥ ∞ K \max_i \left\| a_iX_i \right\|_{\psi_1}= \max_i |a_i|\left\| X_i \right\|_{\psi_1} \le \left\|a \right\|_{\infty}K imaxaiXiψ1=imaxaiXiψ1aK

這體現了版本1中上界 t K \frac{t}{K} Kt t K ∥ a ∥ ∞ \frac{t}{K\left\| a\right\|_{\infty}} Kat的對應關係。

如果取 a i = 1 / N a_i=1/N ai=1/N,我們可以得到關於樣本均值的不等式:

Bernstein不等式 版本3 假設 { X i } i = 1 N \{X_i\}_{i=1}^N {Xi}i=1N是一列零均值獨立亞指數隨機變數, ∀ t > 0 \forall t>0 t>0, K = max ⁡ 1 ≤ i ≤ N ∥ X i ∥ ψ 1 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_1} K=max1iNXiψ1
P ( ∣ X ˉ ∣ ≥ t ) ≤ 2 exp ⁡ ( − c N min ⁡ ( t K , t 2 K 2 ) ) P\left( \left| \bar X \right| \ge t\right) \le 2 \exp \left( -cN \min \left( \frac{t}{K},\frac{t^2}{K^2} \right) \right) P(Xˉt)2exp(cNmin(Kt,K2t2))

其中 c c c是一個常數。


Bernstein不等式 版本4 假設 { X i } i = 1 N \{X_i\}_{i=1}^N {Xi}i=1N是一列零均值獨立亞指數上界為 K K K的隨機變數, ∀ t > 0 \forall t>0 t>0,
P ( ∣ ∑ i = 1 N X i ∣ ≥ t ) ≤ 2 exp ⁡ ( − t 2 / 2 σ 2 + K t / 3 ) P\left( \left| \sum_{i=1}^NX_i \right| \ge t\right) \le 2 \exp \left( -\frac{t^2/2}{\sigma^2+Kt/3} \right) P(i=1NXit)2exp(σ2+Kt/3t2/2)

σ 2 = ∑ i = 1 N E X i 2 \sigma^2=\sum_{i=1}^N EX_i^2 σ2=i=1NEXi2。這是使用最廣泛的一個版本,因為它能提供一個比Hoeffding不等式更小的上界。

相關文章