UA MATH567 高維統計II 隨機向量1 隨機向量的範數

一個不願透露姓名的孩子發表於2020-12-23

UA MATH567 高維統計II 隨機向量1 隨機向量的範數

這是高維統計理論的第二部分,這一部分的任務是把第一部分介紹的分析一元隨機變數的concentration與尾部概率的方法推廣到隨機向量。推廣的思路是將隨機向量這種高維的結構化歸為一維的結構進行研究,比較容易想到的是隨機向量的範數、隨機向量在某個向量上的投影以及上一部分末尾提到的Lipschitz組合等,這些量都是一維的隨機變數,我們可以通過研究這類隨機變數的性質,進而去理解隨機向量的concentration與尾部概率行為。這一講我們先研究隨機向量的範數:

假設 X = ( X 1 , ⋯   , X n ) X=(X_1,\cdots,X_n) X=(X1,,Xn) X i X_i Xi是獨立、零均值、方差為1的隨機變數(我們假設這一講討論的所有隨機變數都是如此),則
E ∥ X ∥ 2 2 = E ∑ i = 1 n X i 2 = n E \left\|X \right\|_2^2 = E \sum_{i=1}^n X_i^2 = n EX22=Ei=1nXi2=n

這說明 ∥ X ∥ 2 \left\|X \right\|_2 X2的concentration是 n \sqrt{n} n ,我們想知道的是how concentrated ∥ X ∥ 2 \left\|X \right\|_2 X2 is around n \sqrt{n} n ?

L2-Norm的Concentration 假設 X X X是每個分量都是獨立亞高斯的 n n n維隨機變數,假設它的每個分量二階矩均為1, K = max ⁡ 1 ≤ i ≤ N ∥ X i ∥ ψ 2 K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_2} K=max1iNXiψ2,則 ∃ C > 0 \exists C>0 C>0
∥ ∥ X ∥ 2 − n ∥ ψ 2 ≤ C K 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} \le CK^2 X2n ψ2CK2

評述 這是一個non-asymptotic result,對亞高斯範數不太瞭解的讀者可能會不明覺厲,所以我們可以結合亞高斯性和亞高斯範數簡單理解一下。首先這個不等式說明 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} X2n 的亞高斯範數有界,也就是 ∥ X ∥ 2 − n \left\| X\right\|_{2}-\sqrt{n} X2n 是亞高斯隨機變數,於是它的tail probability滿足
P ( ∣ ∥ X ∥ 2 − n ∣ ≥ t ) ≤ 2 exp ⁡ ( − c t 2 / ∥ ∥ X ∥ 2 − n ∥ ψ 2 2 ) ≤ 2 exp ⁡ ( − c t 2 C 2 K 4 ) , ∀ t > 0 P(|\left\| X\right\|_{2}-\sqrt{n}|\ge t) \le 2\exp(-ct^2/\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2}^2) \\ \le 2\exp(-\frac{ct^2}{C^2K^4}),\forall t>0 P(X2n t)2exp(ct2/X2n ψ22)2exp(C2K4ct2),t>0

也就是tail probability的階被控制為 e − t 2 e^{-t^2} et2

說明 我們可以直觀理解一下這個不等式, ∥ ∥ X ∥ 2 − n ∥ ψ 2 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} X2n ψ2可以理解為 ∥ X ∥ 2 \left\| X\right\|_{2} X2 n \sqrt{n} n 的距離,這個不等式說明它們之間的距離是有界的。事實上對於這裡的亞高斯分佈,
E ∑ i = 1 n X i 2 = n , V a r ∑ i = 1 n X i 2 = O ( n ) E \sum_{i=1}^n X_i^2=n,Var \sum_{i=1}^n X_i^2 = O(n) Ei=1nXi2=n,Vari=1nXi2=O(n)

類比正態分佈的性質,從直覺上講 ∑ i = 1 n X i 2 \sum_{i=1}^nX_i^2 i=1nXi2的概率集中在 [ μ − σ , μ + σ ] [\mu-\sigma,\mu+\sigma] [μσ,μ+σ]上,也就是 [ n − O ( n ) , n + O ( n ) ] [n-O(\sqrt{n}),n+O(\sqrt{n})] [nO(n ),n+O(n )]上,因此 ( ∑ i = 1 n X i 2 ) 1 / 2 (\sum_{i=1}^nX_i^2)^{1/2} (i=1nXi2)1/2的概率集中在 [ n − O ( n ) , n + O ( n ) ] [\sqrt{n-O(\sqrt{n})},\sqrt{n+O(\sqrt{n})}] [nO(n ) ,n+O(n ) ]上,因為(證明見末尾)
n ± O ( n ) = n ± O ( 1 ) \sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1) n±O(n ) =n ±O(1)

於是 ( ∑ i = 1 n X i 2 ) 1 / 2 − n (\sum_{i=1}^nX_i^2)^{1/2}-\sqrt n (i=1nXi2)1/2n 是有界的。

推論 根據亞高斯性, ∥ X ∥ L p ≤ C ∥ X ∥ ψ 2 p , ∀ p ≥ 1 \left\| X \right\|_{L^p} \le C\left\|X \right\|_{\psi_2}\sqrt{p},\forall p \ge 1 XLpCXψ2p ,p1,取 p = 1 p=1 p=1,則
∥ ∥ X ∥ 2 − n ∥ 1 ≤ C ′ K 2 , ∃ C ′ > 0 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2,\exists C'>0 X2n 1CK2,C>0

進一步,我們知道
∣ E ∥ X ∥ 2 − n ∣ ≤ ∥ ∥ X ∥ 2 − n ∥ 1 ≤ C ′ K 2 |E\left\| X\right\|_{2}-\sqrt{n}| \le \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2 EX2n X2n 1CK2

也就是說average distance between ∥ X ∥ 2 , n \left\| X\right\|_{2},\sqrt{n} X2,n is bounded. 取 p = 2 p=2 p=2,則
∥ ∥ X ∥ 2 − n ∥ 2 ≤ C ′ ′ K 2 , ∃ C ′ ′ > 0 ⇒ E [ ∥ X ∥ 2 − n ] 2 ≤ C ′ ′ 2 K 4 \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{2} \le C''K^2,\exists C''>0 \\ \Rightarrow E[\left\| X\right\|_{2}-\sqrt{n}]^2 \le C''^2K^4 X2n 2CK2,C>0E[X2n ]2C2K4

於是 V a r ( ∥ X ∥ 2 ) ≤ C ′ ′ 2 K 4 Var(\left\| X\right\|_{2}) \le C''^2K^4 Var(X2)C2K4,基於這個結果我們可以進一步討論 E ∥ X ∥ 2 − n E\left\| X\right\|_{2}-\sqrt{n} EX2n 的上界,因為
( E ∥ X ∥ 2 ) 2 = E ∥ X ∥ 2 2 − V a r ( ∥ X ∥ 2 ) = n − V a r ( ∥ X ∥ 2 ) ⇒ 0 ≤ V a r ( ∥ X ∥ 2 ) = n − ( E ∥ X ∥ 2 ) 2 ≤ C ′ ′ K 4 (E\left\| X\right\|_{2})^2 = E\left\| X\right\|_{2}^2 - Var(\left\| X\right\|_{2})=n-Var(\left\| X\right\|_{2}) \\ \Rightarrow 0 \le Var(\left\| X\right\|_{2}) = n - (E\left\| X\right\|_{2})^2 \le C''K^4 (EX2)2=EX22Var(X2)=nVar(X2)0Var(X2)=n(EX2)2CK4

於是
[ n − E ∥ X ∥ 2 ] = C ′ ′ K 4 n + E ∥ X ∥ 2 ≤ C ′ ′ K 4 n = O ( 1 / n ) = o ( 1 ) [\sqrt{n}-E\left\| X\right\|_{2}] = \frac{C''K^4}{\sqrt{n}+E\left\| X\right\|_{2}} \le \frac{C''K^4}{\sqrt{n}}=O(1/\sqrt{n})=o(1) [n EX2]=n +EX2CK4n CK4=O(1/n )=o(1)

也就是說 n − E ∥ X ∥ 2 \sqrt{n}-E\left\| X\right\|_{2} n EX2趨近於0的速率至多與 1 / n 1/\sqrt{n} 1/n 一致,
∣ E ∥ X ∥ 2 − n ∣ < o ( 1 ) |E\left\| X\right\|_{2}-\sqrt{n}| < o(1) EX2n <o(1)

證明 現在我們正式證明L2-Norm的Concentration。

引理1
E X 2 = 1 ⇒ ∥ X ∥ ψ 2 ≥ 1 ⇒ K = max ⁡ i ∥ X i ∥ ψ 2 ≥ 1 EX^2=1 \Rightarrow \left\| X \right\|_{\psi_2} \ge 1 \Rightarrow K = \max_i\left\| X_i \right\|_{\psi_2} \ge 1 EX2=1Xψ21K=imaxXiψ21

(可以簡單檢查這個結果,如果 E e X 2 / t 2 ∣ t = 1 ≥ 2 Ee^{X^2/t^2}|_{t=1} \ge 2 EeX2/t2t=12,則 ∥ X ∥ ψ 2 ≥ 1 \left\| X \right\|_{\psi_2} \ge 1 Xψ21)

引理2 X X X是亞高斯的,則 X 2 − E X 2 = X 2 − 1 X^2-EX^2=X^2-1 X2EX2=X21亞指數的,(根據centering技巧, ∥ X 2 − 1 ∥ ψ 2 ≤ C ∥ X 2 ∥ ψ 1 = C ∥ X ∥ ψ 2 \left\|X^2-1 \right\|_{\psi_2} \le C \left\| X^2 \right\|_{\psi_1}=C\left\| X\right\|_{\psi_2} X21ψ2CX2ψ1=CXψ2)

下面我們使用Bernstein不等式
P ( ∣ ∥ X ∥ 2 2 n − 1 ∣ ≥ u ) = P ( ∣ 1 n ∑ i = 1 n ( X i − 1 ) 2 ∣ ≥ u ) ≤ 2 e − c n min ⁡ ( u C K 2 , u 2 C 2 K 4 ) ≤ 2 e − c n C 2 K 4 min ⁡ ( u C K 2 , u 2 ) P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge u)=P(|\frac{1}{n}\sum_{i=1}^n (X_i-1)^2| \ge u) \\ \le 2e^{-cn\min (\frac{u}{CK^2},\frac{u^2}{C^2K^4})} \le 2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)} P(nX221u)=P(n1i=1n(Xi1)2u)2ecnmin(CK2u,C2K4u2)2eC2K4cnmin(uCK2,u2)

這裡 C , c > 0 C,c>0 C,c>0是常數,我們不妨選擇 C C C使得 C K 2 > 1 CK^2>1 CK2>1,則
2 e − c n C 2 K 4 min ⁡ ( u C K 2 , u 2 ) ≤ 2 e − C ′ n K 4 min ⁡ ( u 2 , u ) 2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)} \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)} 2eC2K4cnmin(uCK2,u2)2eK4Cnmin(u2,u)

引理3 ∣ z − 1 ∣ ≥ δ ⇒ ∣ z 2 − 1 ∣ ≥ max ⁡ ( δ , δ 2 ) , ∀ z ≥ 0 |z-1| \ge \delta \Rightarrow |z^2-1| \ge \max(\delta,\delta^2),\forall z \ge 0 z1δz21max(δ,δ2),z0

於是
P ( ∣ ∥ X ∥ 2 n − 1 ∣ ≥ δ ) ≤ P ( ∣ ∥ X ∥ 2 2 n − 1 ∣ ≥ max ⁡ ( δ , δ 2 ) ) ≤ 2 e − C ′ n K 4 min ⁡ ( u 2 , u ) , w h e r e   u = max ⁡ ( δ , δ 2 ) P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge \max(\delta,\delta^2)) \\ \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)},where\ u=\max(\delta,\delta^2) P(n X21δ)P(nX221max(δ,δ2))2eK4Cnmin(u2,u),where u=max(δ,δ2)

有趣的事情發生了,
min ⁡ ( u 2 , u ) = min ⁡ ( [ max ⁡ ( δ , δ 2 ) ] 2 , max ⁡ ( δ , δ 2 ) ) = δ 2 , ∀ δ ≥ 0 \min(u^2,u)=\min([\max(\delta,\delta^2)]^2,\max(\delta,\delta^2))=\delta^2,\forall \delta \ge 0 min(u2,u)=min([max(δ,δ2)]2,max(δ,δ2))=δ2,δ0

事實上
min ⁡ ( [ max ⁡ ( x , x 2 ) ] 2 , max ⁡ ( x , x 2 ) ) = { x 2 , ( − ∞ , − 1 ) ∪ ( 0 , ∞ ) x 4 , [ − 1 , 0 ] \min([\max(x,x^2)]^2,\max(x,x^2)) = \begin{cases} x^2,(-\infty,-1) \cup (0,\infty) \\ x^4, [-1,0] \end{cases} min([max(x,x2)]2,max(x,x2))={x2,(,1)(0,)x4,[1,0]

因此
P ( ∣ ∥ X ∥ 2 n − 1 ∣ ≥ δ ) ≤ 2 e − C ′ n δ 2 K 4 P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le2e^{-\frac{C'n\delta^2}{K^4}} P(n X21δ)2eK4Cnδ2

這就說明了 ∥ X ∥ 2 n − 1 \frac{\left\| X \right\|_2}{\sqrt{n}}-1 n X21是亞高斯的,選擇 δ = t / n \delta = t/\sqrt{n} δ=t/n ,則
P ( ∣ ∥ X ∥ 2 − n ∣ ≥ t ) ≤ 2 e − C ′ t 2 K 4 P(|\left\| X \right\|_2-\sqrt{n}| \ge t) \le2e^{-\frac{C't^2}{K^4}} P(X2n t)2eK4Ct2

並且對比亞高斯性的 P ( ∣ X ∣ ≥ t ) ≤ 2 exp ⁡ ( − c t 2 / ∥ X ∥ ψ 2 2 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-ct^2/\left\|X \right\|_{\psi_2}^2),\forall t\ge 0 P(Xt)2exp(ct2/Xψ22),t0

我們知道它的亞高斯範數與 K 2 K^2 K2同階。
證畢


n ± O ( n ) = n ± O ( 1 ) \sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1) n±O(n ) =n ±O(1)的證明
在這裡插入圖片描述
Notice that a n / n ≥ 0 a_n/\sqrt{n}\ge 0 an/n 0. Thus, n + a n − n ≥ 0 \sqrt{n+a_n}-\sqrt{n}\ge 0 n+an n 0, b n ≥ 0 b_n \ge 0 bn0. Now that a n < M n a_n<M\sqrt{n} an<Mn and b n b_n bn is increasing on a n a_n an,
b n < n + M n − n = M n n + M n + n → M 2 ,   a s   n → ∞ b_n < \sqrt{n+M\sqrt{n}}-\sqrt{n} = \frac{M\sqrt{n}}{\sqrt{n+M\sqrt{n}}+\sqrt{n}} \to \frac{M}{2},\ as\ n \to \infty bn<n+Mn n =n+Mn +n Mn 2M, as n

In fact, define sequence c n c_n cn as c n = n + M n − n c_n = \sqrt{n+M\sqrt{n}}-\sqrt{n} cn=n+Mn n , and we’ll see c n c_n cn is increasing on n n n and has an upper bound.
c n = ( ( n + M 2 ) 2 − M 2 4 − n c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n} cn=((n +2M)24M2 n

Let f ( x ) = ( x + a ) 2 − a 2 − x f(x)=\sqrt{(x+a)^2-a^2}-x f(x)=(x+a)2a2 x, a > 0 a>0 a>0
f ′ ( x ) = x + a ( x + a ) 2 − a 2 − 1 = ( x + a ) 2 − ( x + a ) 2 − a 2 ( x + a ) 2 − a 2 > 0 f'(x)=\frac{x+a}{\sqrt{(x+a)^2-a^2}}-1 = \frac{\sqrt{(x+a)^2}-\sqrt{(x+a)^2-a^2}}{\sqrt{(x+a)^2-a^2}}>0 f(x)=(x+a)2a2 x+a1=(x+a)2a2 (x+a)2 (x+a)2a2 >0

This means f ( x ) f(x) f(x) is monotonically increasing and in turn, c n c_n cn is increasing on n n n. c n = ( ( n + M 2 ) 2 − M 2 4 − n < ( ( n + M 2 ) 2 − n = M 2 c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n} < \sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2}-\sqrt{n}=\frac{M}{2} cn=((n +2M)24M2 n <((n +2M)2 n =2M

So c n c_n cn has an upper bound. Above, we conclude that M 2 \frac{M}{2} 2M is the supremum of c n c_n cn. Hence, we define M ′ = M 2 M'=\frac{M}{2} M=2M.

Furthermore, since 0 ≤ a n / n < M 0 \le a_n/\sqrt{n} < M 0an/n <M, we may use a n a_n an to replace O ( n ) O(\sqrt{n}) O(n ), so
n + a n − n = b n = O ( 1 ) \sqrt{n+a_n}-\sqrt{n}=b_n=O(1) n+an n =bn=O(1)

We have proved that 0 ≤ b n < M / 2 0 \le b_n < M/2 0bn<M/2. Thus, b n = O ( 1 ) b_n=O(1) bn=O(1) is true.

相關文章