UA MATH567 高維統計II 隨機向量1 隨機向量的範數
UA MATH567 高維統計II 隨機向量1 隨機向量的範數
這是高維統計理論的第二部分,這一部分的任務是把第一部分介紹的分析一元隨機變數的concentration與尾部概率的方法推廣到隨機向量。推廣的思路是將隨機向量這種高維的結構化歸為一維的結構進行研究,比較容易想到的是隨機向量的範數、隨機向量在某個向量上的投影以及上一部分末尾提到的Lipschitz組合等,這些量都是一維的隨機變數,我們可以通過研究這類隨機變數的性質,進而去理解隨機向量的concentration與尾部概率行為。這一講我們先研究隨機向量的範數:
假設
X
=
(
X
1
,
⋯
,
X
n
)
X=(X_1,\cdots,X_n)
X=(X1,⋯,Xn),
X
i
X_i
Xi是獨立、零均值、方差為1的隨機變數(我們假設這一講討論的所有隨機變數都是如此),則
E
∥
X
∥
2
2
=
E
∑
i
=
1
n
X
i
2
=
n
E \left\|X \right\|_2^2 = E \sum_{i=1}^n X_i^2 = n
E∥X∥22=Ei=1∑nXi2=n
這說明 ∥ X ∥ 2 \left\|X \right\|_2 ∥X∥2的concentration是 n \sqrt{n} n,我們想知道的是how concentrated ∥ X ∥ 2 \left\|X \right\|_2 ∥X∥2 is around n \sqrt{n} n?
L2-Norm的Concentration 假設
X
X
X是每個分量都是獨立亞高斯的
n
n
n維隨機變數,假設它的每個分量二階矩均為1,
K
=
max
1
≤
i
≤
N
∥
X
i
∥
ψ
2
K=\max_{1\le i \le N}\left\| X_i\right\|_{\psi_2}
K=max1≤i≤N∥Xi∥ψ2,則
∃
C
>
0
\exists C>0
∃C>0
∥
∥
X
∥
2
−
n
∥
ψ
2
≤
C
K
2
\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2} \le CK^2
∥∥∥X∥2−n∥∥ψ2≤CK2
評述 這是一個non-asymptotic result,對亞高斯範數不太瞭解的讀者可能會不明覺厲,所以我們可以結合亞高斯性和亞高斯範數簡單理解一下。首先這個不等式說明
∥
X
∥
2
−
n
\left\| X\right\|_{2}-\sqrt{n}
∥X∥2−n的亞高斯範數有界,也就是
∥
X
∥
2
−
n
\left\| X\right\|_{2}-\sqrt{n}
∥X∥2−n是亞高斯隨機變數,於是它的tail probability滿足
P
(
∣
∥
X
∥
2
−
n
∣
≥
t
)
≤
2
exp
(
−
c
t
2
/
∥
∥
X
∥
2
−
n
∥
ψ
2
2
)
≤
2
exp
(
−
c
t
2
C
2
K
4
)
,
∀
t
>
0
P(|\left\| X\right\|_{2}-\sqrt{n}|\ge t) \le 2\exp(-ct^2/\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2}^2) \\ \le 2\exp(-\frac{ct^2}{C^2K^4}),\forall t>0
P(∣∥X∥2−n∣≥t)≤2exp(−ct2/∥∥∥X∥2−n∥∥ψ22)≤2exp(−C2K4ct2),∀t>0
也就是tail probability的階被控制為 e − t 2 e^{-t^2} e−t2。
說明 我們可以直觀理解一下這個不等式,
∥
∥
X
∥
2
−
n
∥
ψ
2
\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{\psi_2}
∥∥X∥2−n∥ψ2可以理解為
∥
X
∥
2
\left\| X\right\|_{2}
∥X∥2與
n
\sqrt{n}
n的距離,這個不等式說明它們之間的距離是有界的。事實上對於這裡的亞高斯分佈,
E
∑
i
=
1
n
X
i
2
=
n
,
V
a
r
∑
i
=
1
n
X
i
2
=
O
(
n
)
E \sum_{i=1}^n X_i^2=n,Var \sum_{i=1}^n X_i^2 = O(n)
Ei=1∑nXi2=n,Vari=1∑nXi2=O(n)
類比正態分佈的性質,從直覺上講
∑
i
=
1
n
X
i
2
\sum_{i=1}^nX_i^2
∑i=1nXi2的概率集中在
[
μ
−
σ
,
μ
+
σ
]
[\mu-\sigma,\mu+\sigma]
[μ−σ,μ+σ]上,也就是
[
n
−
O
(
n
)
,
n
+
O
(
n
)
]
[n-O(\sqrt{n}),n+O(\sqrt{n})]
[n−O(n),n+O(n)]上,因此
(
∑
i
=
1
n
X
i
2
)
1
/
2
(\sum_{i=1}^nX_i^2)^{1/2}
(∑i=1nXi2)1/2的概率集中在
[
n
−
O
(
n
)
,
n
+
O
(
n
)
]
[\sqrt{n-O(\sqrt{n})},\sqrt{n+O(\sqrt{n})}]
[n−O(n),n+O(n)]上,因為(證明見末尾)
n
±
O
(
n
)
=
n
±
O
(
1
)
\sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1)
n±O(n)=n±O(1)
於是 ( ∑ i = 1 n X i 2 ) 1 / 2 − n (\sum_{i=1}^nX_i^2)^{1/2}-\sqrt n (∑i=1nXi2)1/2−n是有界的。
推論 根據亞高斯性,
∥
X
∥
L
p
≤
C
∥
X
∥
ψ
2
p
,
∀
p
≥
1
\left\| X \right\|_{L^p} \le C\left\|X \right\|_{\psi_2}\sqrt{p},\forall p \ge 1
∥X∥Lp≤C∥X∥ψ2p,∀p≥1,取
p
=
1
p=1
p=1,則
∥
∥
X
∥
2
−
n
∥
1
≤
C
′
K
2
,
∃
C
′
>
0
\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2,\exists C'>0
∥∥∥X∥2−n∥∥1≤C′K2,∃C′>0
進一步,我們知道
∣
E
∥
X
∥
2
−
n
∣
≤
∥
∥
X
∥
2
−
n
∥
1
≤
C
′
K
2
|E\left\| X\right\|_{2}-\sqrt{n}| \le \left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{1} \le C'K^2
∣E∥X∥2−n∣≤∥∥∥X∥2−n∥∥1≤C′K2
也就是說average distance between
∥
X
∥
2
,
n
\left\| X\right\|_{2},\sqrt{n}
∥X∥2,n is bounded. 取
p
=
2
p=2
p=2,則
∥
∥
X
∥
2
−
n
∥
2
≤
C
′
′
K
2
,
∃
C
′
′
>
0
⇒
E
[
∥
X
∥
2
−
n
]
2
≤
C
′
′
2
K
4
\left\| \left\| X\right\|_{2}-\sqrt{n} \right\|_{2} \le C''K^2,\exists C''>0 \\ \Rightarrow E[\left\| X\right\|_{2}-\sqrt{n}]^2 \le C''^2K^4
∥∥∥X∥2−n∥∥2≤C′′K2,∃C′′>0⇒E[∥X∥2−n]2≤C′′2K4
於是
V
a
r
(
∥
X
∥
2
)
≤
C
′
′
2
K
4
Var(\left\| X\right\|_{2}) \le C''^2K^4
Var(∥X∥2)≤C′′2K4,基於這個結果我們可以進一步討論
E
∥
X
∥
2
−
n
E\left\| X\right\|_{2}-\sqrt{n}
E∥X∥2−n的上界,因為
(
E
∥
X
∥
2
)
2
=
E
∥
X
∥
2
2
−
V
a
r
(
∥
X
∥
2
)
=
n
−
V
a
r
(
∥
X
∥
2
)
⇒
0
≤
V
a
r
(
∥
X
∥
2
)
=
n
−
(
E
∥
X
∥
2
)
2
≤
C
′
′
K
4
(E\left\| X\right\|_{2})^2 = E\left\| X\right\|_{2}^2 - Var(\left\| X\right\|_{2})=n-Var(\left\| X\right\|_{2}) \\ \Rightarrow 0 \le Var(\left\| X\right\|_{2}) = n - (E\left\| X\right\|_{2})^2 \le C''K^4
(E∥X∥2)2=E∥X∥22−Var(∥X∥2)=n−Var(∥X∥2)⇒0≤Var(∥X∥2)=n−(E∥X∥2)2≤C′′K4
於是
[
n
−
E
∥
X
∥
2
]
=
C
′
′
K
4
n
+
E
∥
X
∥
2
≤
C
′
′
K
4
n
=
O
(
1
/
n
)
=
o
(
1
)
[\sqrt{n}-E\left\| X\right\|_{2}] = \frac{C''K^4}{\sqrt{n}+E\left\| X\right\|_{2}} \le \frac{C''K^4}{\sqrt{n}}=O(1/\sqrt{n})=o(1)
[n−E∥X∥2]=n+E∥X∥2C′′K4≤nC′′K4=O(1/n)=o(1)
也就是說
n
−
E
∥
X
∥
2
\sqrt{n}-E\left\| X\right\|_{2}
n−E∥X∥2趨近於0的速率至多與
1
/
n
1/\sqrt{n}
1/n一致,
∣
E
∥
X
∥
2
−
n
∣
<
o
(
1
)
|E\left\| X\right\|_{2}-\sqrt{n}| < o(1)
∣E∥X∥2−n∣<o(1)
證明 現在我們正式證明L2-Norm的Concentration。
引理1
E
X
2
=
1
⇒
∥
X
∥
ψ
2
≥
1
⇒
K
=
max
i
∥
X
i
∥
ψ
2
≥
1
EX^2=1 \Rightarrow \left\| X \right\|_{\psi_2} \ge 1 \Rightarrow K = \max_i\left\| X_i \right\|_{\psi_2} \ge 1
EX2=1⇒∥X∥ψ2≥1⇒K=imax∥Xi∥ψ2≥1
(可以簡單檢查這個結果,如果 E e X 2 / t 2 ∣ t = 1 ≥ 2 Ee^{X^2/t^2}|_{t=1} \ge 2 EeX2/t2∣t=1≥2,則 ∥ X ∥ ψ 2 ≥ 1 \left\| X \right\|_{\psi_2} \ge 1 ∥X∥ψ2≥1)
引理2 X X X是亞高斯的,則 X 2 − E X 2 = X 2 − 1 X^2-EX^2=X^2-1 X2−EX2=X2−1是亞指數的,(根據centering技巧, ∥ X 2 − 1 ∥ ψ 2 ≤ C ∥ X 2 ∥ ψ 1 = C ∥ X ∥ ψ 2 \left\|X^2-1 \right\|_{\psi_2} \le C \left\| X^2 \right\|_{\psi_1}=C\left\| X\right\|_{\psi_2} ∥∥X2−1∥∥ψ2≤C∥∥X2∥∥ψ1=C∥X∥ψ2)
下面我們使用Bernstein不等式,
P
(
∣
∥
X
∥
2
2
n
−
1
∣
≥
u
)
=
P
(
∣
1
n
∑
i
=
1
n
(
X
i
−
1
)
2
∣
≥
u
)
≤
2
e
−
c
n
min
(
u
C
K
2
,
u
2
C
2
K
4
)
≤
2
e
−
c
n
C
2
K
4
min
(
u
C
K
2
,
u
2
)
P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge u)=P(|\frac{1}{n}\sum_{i=1}^n (X_i-1)^2| \ge u) \\ \le 2e^{-cn\min (\frac{u}{CK^2},\frac{u^2}{C^2K^4})} \le 2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)}
P(∣n∥X∥22−1∣≥u)=P(∣n1i=1∑n(Xi−1)2∣≥u)≤2e−cnmin(CK2u,C2K4u2)≤2e−C2K4cnmin(uCK2,u2)
這裡
C
,
c
>
0
C,c>0
C,c>0是常數,我們不妨選擇
C
C
C使得
C
K
2
>
1
CK^2>1
CK2>1,則
2
e
−
c
n
C
2
K
4
min
(
u
C
K
2
,
u
2
)
≤
2
e
−
C
′
n
K
4
min
(
u
2
,
u
)
2e^{-\frac{cn}{C^2K^4}\min (uCK^2,u^2)} \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)}
2e−C2K4cnmin(uCK2,u2)≤2e−K4C′nmin(u2,u)
引理3 ∣ z − 1 ∣ ≥ δ ⇒ ∣ z 2 − 1 ∣ ≥ max ( δ , δ 2 ) , ∀ z ≥ 0 |z-1| \ge \delta \Rightarrow |z^2-1| \ge \max(\delta,\delta^2),\forall z \ge 0 ∣z−1∣≥δ⇒∣z2−1∣≥max(δ,δ2),∀z≥0
於是
P
(
∣
∥
X
∥
2
n
−
1
∣
≥
δ
)
≤
P
(
∣
∥
X
∥
2
2
n
−
1
∣
≥
max
(
δ
,
δ
2
)
)
≤
2
e
−
C
′
n
K
4
min
(
u
2
,
u
)
,
w
h
e
r
e
u
=
max
(
δ
,
δ
2
)
P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le P(|\frac{\left\| X \right\|_2^2}{n}-1| \ge \max(\delta,\delta^2)) \\ \le 2e^{-\frac{C'n}{K^4}\min(u^2,u)},where\ u=\max(\delta,\delta^2)
P(∣n∥X∥2−1∣≥δ)≤P(∣n∥X∥22−1∣≥max(δ,δ2))≤2e−K4C′nmin(u2,u),where u=max(δ,δ2)
有趣的事情發生了,
min
(
u
2
,
u
)
=
min
(
[
max
(
δ
,
δ
2
)
]
2
,
max
(
δ
,
δ
2
)
)
=
δ
2
,
∀
δ
≥
0
\min(u^2,u)=\min([\max(\delta,\delta^2)]^2,\max(\delta,\delta^2))=\delta^2,\forall \delta \ge 0
min(u2,u)=min([max(δ,δ2)]2,max(δ,δ2))=δ2,∀δ≥0
事實上
min
(
[
max
(
x
,
x
2
)
]
2
,
max
(
x
,
x
2
)
)
=
{
x
2
,
(
−
∞
,
−
1
)
∪
(
0
,
∞
)
x
4
,
[
−
1
,
0
]
\min([\max(x,x^2)]^2,\max(x,x^2)) = \begin{cases} x^2,(-\infty,-1) \cup (0,\infty) \\ x^4, [-1,0] \end{cases}
min([max(x,x2)]2,max(x,x2))={x2,(−∞,−1)∪(0,∞)x4,[−1,0]
因此
P
(
∣
∥
X
∥
2
n
−
1
∣
≥
δ
)
≤
2
e
−
C
′
n
δ
2
K
4
P(|\frac{\left\| X \right\|_2}{\sqrt{n}}-1| \ge \delta) \le2e^{-\frac{C'n\delta^2}{K^4}}
P(∣n∥X∥2−1∣≥δ)≤2e−K4C′nδ2
這就說明了
∥
X
∥
2
n
−
1
\frac{\left\| X \right\|_2}{\sqrt{n}}-1
n∥X∥2−1是亞高斯的,選擇
δ
=
t
/
n
\delta = t/\sqrt{n}
δ=t/n,則
P
(
∣
∥
X
∥
2
−
n
∣
≥
t
)
≤
2
e
−
C
′
t
2
K
4
P(|\left\| X \right\|_2-\sqrt{n}| \ge t) \le2e^{-\frac{C't^2}{K^4}}
P(∣∥X∥2−n∣≥t)≤2e−K4C′t2
並且對比亞高斯性的 P ( ∣ X ∣ ≥ t ) ≤ 2 exp ( − c t 2 / ∥ X ∥ ψ 2 2 ) , ∀ t ≥ 0 P(|X|\ge t) \le 2\exp(-ct^2/\left\|X \right\|_{\psi_2}^2),\forall t\ge 0 P(∣X∣≥t)≤2exp(−ct2/∥X∥ψ22),∀t≥0
我們知道它的亞高斯範數與
K
2
K^2
K2同階。
證畢
附
n
±
O
(
n
)
=
n
±
O
(
1
)
\sqrt{n\pm O(\sqrt{n})}=\sqrt{n} \pm O(1)
n±O(n)=n±O(1)的證明
Notice that
a
n
/
n
≥
0
a_n/\sqrt{n}\ge 0
an/n≥0. Thus,
n
+
a
n
−
n
≥
0
\sqrt{n+a_n}-\sqrt{n}\ge 0
n+an−n≥0,
b
n
≥
0
b_n \ge 0
bn≥0. Now that
a
n
<
M
n
a_n<M\sqrt{n}
an<Mn and
b
n
b_n
bn is increasing on
a
n
a_n
an,
b
n
<
n
+
M
n
−
n
=
M
n
n
+
M
n
+
n
→
M
2
,
a
s
n
→
∞
b_n < \sqrt{n+M\sqrt{n}}-\sqrt{n} = \frac{M\sqrt{n}}{\sqrt{n+M\sqrt{n}}+\sqrt{n}} \to \frac{M}{2},\ as\ n \to \infty
bn<n+Mn−n=n+Mn+nMn→2M, as n→∞
In fact, define sequence
c
n
c_n
cn as
c
n
=
n
+
M
n
−
n
c_n = \sqrt{n+M\sqrt{n}}-\sqrt{n}
cn=n+Mn−n, and we’ll see
c
n
c_n
cn is increasing on
n
n
n and has an upper bound.
c
n
=
(
(
n
+
M
2
)
2
−
M
2
4
−
n
c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n}
cn=((n+2M)2−4M2−n
Let
f
(
x
)
=
(
x
+
a
)
2
−
a
2
−
x
f(x)=\sqrt{(x+a)^2-a^2}-x
f(x)=(x+a)2−a2−x,
a
>
0
a>0
a>0
f
′
(
x
)
=
x
+
a
(
x
+
a
)
2
−
a
2
−
1
=
(
x
+
a
)
2
−
(
x
+
a
)
2
−
a
2
(
x
+
a
)
2
−
a
2
>
0
f'(x)=\frac{x+a}{\sqrt{(x+a)^2-a^2}}-1 = \frac{\sqrt{(x+a)^2}-\sqrt{(x+a)^2-a^2}}{\sqrt{(x+a)^2-a^2}}>0
f′(x)=(x+a)2−a2x+a−1=(x+a)2−a2(x+a)2−(x+a)2−a2>0
This means f ( x ) f(x) f(x) is monotonically increasing and in turn, c n c_n cn is increasing on n n n. c n = ( ( n + M 2 ) 2 − M 2 4 − n < ( ( n + M 2 ) 2 − n = M 2 c_n=\sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2-\frac{M^2}{4}}-\sqrt{n} < \sqrt{\left((\sqrt{n}+\frac{M}{2}\right)^2}-\sqrt{n}=\frac{M}{2} cn=((n+2M)2−4M2−n<((n+2M)2−n=2M
So c n c_n cn has an upper bound. Above, we conclude that M 2 \frac{M}{2} 2M is the supremum of c n c_n cn. Hence, we define M ′ = M 2 M'=\frac{M}{2} M′=2M.
Furthermore, since
0
≤
a
n
/
n
<
M
0 \le a_n/\sqrt{n} < M
0≤an/n<M, we may use
a
n
a_n
an to replace
O
(
n
)
O(\sqrt{n})
O(n), so
n
+
a
n
−
n
=
b
n
=
O
(
1
)
\sqrt{n+a_n}-\sqrt{n}=b_n=O(1)
n+an−n=bn=O(1)
We have proved that 0 ≤ b n < M / 2 0 \le b_n < M/2 0≤bn<M/2. Thus, b n = O ( 1 ) b_n=O(1) bn=O(1) is true.
相關文章
- UA MATH567 高維統計II 隨機向量5 亞高斯隨機向量H5隨機
- UA MATH567 高維統計II 隨機向量2 各向同性的隨機向量H5隨機
- UA MATH567 高維統計II 隨機向量6 亞高斯隨機向量的應用: 半正定規劃H5隨機
- 向量(高階的隨機化應用)隨機
- MATLAB中如何生成指定範圍的隨機整數向量Matlab隨機
- UA MATH567 高維統計I 概率不等式8 亞指數範數H5
- 隨機範圍小數和隨機範圍整數隨機
- UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用:Stochastic Block Model與社群發現 問題描述H5隨機矩陣ASTBloC
- Python如何隨機生成1到100的隨機數?Python隨機
- 生成某個範圍的隨機數隨機
- 如何產生指定範圍的隨機數隨機
- python生成隨機數、隨機字串Python隨機字串
- 對SVM支援向量機(1)
- UA MATH567 高維統計I 概率不等式10 Bernstein不等式H5
- UA MATH567 高維統計I 概率不等式11 Azuma不等式H5
- java_隨機數(統計例項)Java隨機
- 在指定範圍內生成隨機數隨機
- 支援向量機之線性可分向量機
- 【概率論】一維隨機變數隨機變數
- java1-100隨機數Java隨機
- UA MATH567 高維統計I 概率不等式7 亞指數性與亞指數分佈H5
- 隨機數隨機
- 計算機程式的思維邏輯 (34) – 隨機計算機隨機
- java 生成一個隨機整數,範圍從 1 到 10Java隨機
- 明明的隨機數隨機
- Linux Shell 生成隨機數和隨機字串Linux隨機字串
- 支援向量機
- Matlab 隨機生成兩個數值之間的隨機數Matlab隨機
- 數學一|概統|三、多維隨機變數及其分佈隨機變數
- 支援向量機(SVM)
- js生成一定範圍內的隨機整數JS隨機
- 隨機數漫談隨機
- Js Math隨機數JS隨機
- JavaScript 生成隨機數JavaScript隨機
- C++ 隨機數C++隨機
- c++ 一維向量,和二維向量的基本使用C++
- 概率論與梳理統計-隨機變數random variables隨機變數random
- CWE-329: 密碼分組連結模式未使用隨機初始化向量密碼模式隨機