UA MATH567 高維統計I 概率不等式7 亞指數性與亞指數分佈

一個不願透露姓名的孩子發表於2020-12-20

UA MATH567 高維統計I 概率不等式7 亞指數分佈與亞指數範數

第三講到第六講討論了亞高斯分佈,這類分佈的尾部概率滿足
P ( ∣ X ∣ ≥ t ) ≲ e − t 2 / 2 P(|X| \ge t) \lesssim e^{-t^2/2} P(Xt)et2/2

隨著 t t t增長,尾部概率下降的速率是非常大的,另一個與之類似的分佈族是亞指數分佈,這類分佈的尾部概率滿足
P ( ∣ X ∣ ≥ t ) ≲ e − t P(|X| \ge t) \lesssim e^{-t} P(Xt)et

這個尾部概率下降的概率比亞高斯分佈尾部概率下降得更慢,所以亞指數分佈族包含的分佈比亞高斯分佈族包含的分佈更多。這一講我們討論亞指數性。

亞指數性 (sub-exponential property)

  1. 尾部概率條件: P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − t / K 1 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-t/K_1),\forall t\ge 0 P(Xt)2exp(t/K1),t0
  2. 矩條件: ∥ X ∥ L p ≤ K 2 p , ∀ p ≥ 1 \left\| X \right\|_{L^p} \le K_2p,\forall p \ge 1 XLpK2p,p1
  3. 矩母函式條件: E e λ ∣ X ∣ ≤ exp ⁡ ( K 3 λ ) , ∀ 0 < λ ≤ 1 / K 3 Ee^{\lambda |X|} \le \exp(K_3\lambda),\forall 0<\lambda \le 1/K_3 EeλXexp(K3λ),0<λ1/K3
  4. 矩母函式上界: E e ∣ X ∣ / K 4 ≤ 2 Ee^{|X|/K_4} \le 2 EeX/K42
  5. 矩母函式又一個條件: E e λ X ≤ exp ⁡ ( K 5 2 λ 2 ) , ∀ λ , ∣ λ ∣ ≤ 1 / K 5 , E X = 0 Ee^{\lambda X} \le \exp(K_5^2 \lambda^2),\forall \lambda, |\lambda| \le 1/K_5, EX=0 EeλXexp(K52λ2),λ,λ1/K5,EX=0

稱滿足這五條性質的分佈叫亞指數分佈(sub-exponential distribution)與亞高斯性類似,前四個性質等價性的證明與亞高斯分佈類似(1推2,2推3,3推4,4推1),這裡介紹一下第五條性質與其他性質的等價性(亞高斯性是3推5,5推1;亞指數性我們用5推2,2推5)。

2推5
假設性質2成立,取 K 2 = 1 K_2=1 K2=1,考慮 E e λ X Ee^{\lambda X} EeλX,假設 E X = 0 EX=0 EX=0,做Taylor展開,
E e λ X = E [ 1 + λ X + ∑ p = 2 ∞ ( λ X ) p p ! ] = 1 + ∑ p = 2 ∞ λ p E [ X p ] p ! Ee^{\lambda X} = E \left[ 1+\lambda X + \sum_{p=2}^{\infty} \frac{(\lambda X)^p}{p!} \right]=1+\sum_{p=2}^{\infty} \frac{\lambda^pE[X^p]}{p!} EeλX=E[1+λX+p=2p!(λX)p]=1+p=2p!λpE[Xp]

性質2說明
E [ X p ] ≤ p p , ∀ p ≥ 1 E[X^p] \le p^p,\forall p \ge 1 E[Xp]pp,p1

根據Stirling公式,
p ! ≥ ( p / e ) p p! \ge (p/e)^p p!(p/e)p

於是,當 ∣ e λ ∣ < 1 |e\lambda|<1 eλ<1
E e λ X ≤ 1 + ∑ p = 2 ∞ λ p p p ( p / e ) p = 1 + ∑ p = 2 ∞ ( e λ ) p = 1 + ( e λ ) 2 1 − e λ Ee^{\lambda X} \le 1+\sum_{p=2}^{\infty} \frac{\lambda^pp^p}{(p/e)^p}=1+\sum_{p=2}^{\infty}(e\lambda)^p=1+\frac{(e\lambda)^2}{1-e\lambda} EeλX1+p=2(p/e)pλppp=1+p=2(eλ)p=1+1eλ(eλ)2

∣ e λ ∣ < 1 / 2 |e\lambda|<1/2 eλ<1/2時,
1 + ( e λ ) 2 1 − e λ ≤ 1 + 2 ( e λ ) 2 ≤ e 2 e 2 λ 2 1+\frac{(e\lambda)^2}{1-e\lambda} \le 1+2(e\lambda)^2 \le e^{2e^2\lambda^2} 1+1eλ(eλ)21+2(eλ)2e2e2λ2

於是

E e λ X ≤ e 2 e 2 λ 2 , ∀ ∣ λ ∣ < 1 / 2 e Ee^{\lambda X} \le e^{2e^2\lambda^2},\forall |\lambda|<1/2e EeλXe2e2λ2,λ<1/2e

5推2 假設性質5成立,取 K 5 = 1 K_5=1 K5=1,根據不等式
∣ x ∣ p ≤ p p ( e x + e − x ) , ∀ x ∈ R , p > 0 |x|^p \le p^p(e^x+e^{-x}),\forall x \in \mathbb{R},p >0 xppp(ex+ex),xR,p>0

我們可以得到期望的估計:
E ∣ X ∣ p ≤ p p ( E e X + E e − X ) E|X|^p \le p^p(Ee^X+Ee^{-X}) EXppp(EeX+EeX)

性質5說明
E e X ≤ e , E e − X ≤ e Ee^X \le e,Ee^{-X} \le e EeXe,EeXe

所以
E ∣ X ∣ p ≤ 2 e p p E|X|^p \le 2ep^p EXp2epp

這就驗證了 K 2 = 2 e K_2=2e K2=2e時性質2成立。


例 亞指數分佈的應用
在判別分析、特徵選擇等統計學習模型中,我們總是需要對特徵 X = ( X 1 , ⋯   , X p ) T X=(X_1,\cdots,X_p)^T X=(X1,,Xp)T的協方差矩陣 Σ \Sigma Σ進行估計,記估計量為 Σ ^ \hat \Sigma Σ^,目標是這個估計量與真實的協方差不要差別太大,也就是二者之差的某個範數 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| Σ^Σ需要足夠小。

Σ ^ \hat \Sigma Σ^並不是一個確定的值,它是一個隨機變數,所以一種保證 ∥ Σ ^ − Σ ∥ \left\| \hat \Sigma - \Sigma \right\| Σ^Σ足夠小的充分條件是 Σ ^ \hat \Sigma Σ^的每一個元素 σ ^ i j \hat \sigma_{ij} σ^ij的分佈都儘量集中在對應的真實值 σ i j \sigma_{ij} σij附近,也就是
P ( ∣ σ ^ i j − σ i j ∣ ) P(|\hat \sigma_{ij}-\sigma_{ij}|) P(σ^ijσij)

這個概率要足夠的小。

一種非常常用的協方差的估計是
σ ^ i j = X i T X j n \hat \sigma_{ij} = \frac{X_i^TX_j}{n} σ^ij=nXiTXj

這裡 n n n表示樣本量,如果 X X X是高斯的,則我們下一講會證明, X i T X j X_i^TX_j XiTXj是亞指數分佈,於是我們可以用亞指數性來研究概率 P ( ∣ σ ^ i j − σ i j ∣ ) P(|\hat \sigma_{ij}-\sigma_{ij}|) P(σ^ijσij)的大小。

相關文章