UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用：Stochastic Block Model與社群發現問題描述

UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用：Stochastic Block Model與社群發現

我們來介紹亞高斯矩陣的一個應用：評估社群發現演算法的效率。Community detection in networks是一個比較重要的非監督學習問題，這一講我們用Stochastic Block Model (SBM)來描述一個網路：

假設這個網路有 $n$ 個節點，網路中有兩個社群，它們的規模相當，各擁有 $n / 2$ 個節點，記這兩個社群為 $C_1,C_2$ ，我們用 $G (n, p, q)$ 表示這個隨機網路，其中 $p$ 表示某條邊連線的兩個點屬於同一個社群的概率， $q$ 表示某條邊連線的兩個點屬於不同社群的概率，假設 $p > q$ ，用 $A$ 表示這個網路的伴隨矩陣，顯然它是一個隨機矩陣，
$P(A_{ij}=1|i,j \in C_1\ or\ i,j \in C_2)=p \\ P(A_{ij}=1|i \in C_1,j \in C_2\ or\ i \in C_2,j \in C_1)=q$

Community detection in networks試圖回答的問題是尋找一種分割：
$C_1 \sqcup C_2 = \{1,2,\cdots,n\}$

使得 $C_1,C_2$ 分別包含兩個不同社群中的節點。

簡單分析

我們可以將 $A$ 分解為它的期望與殘差矩陣：
$A = E [A] + R$

其中
$\left[ \begin{matrix} \overbrace{p \cdots p}^{C_1} & \overbrace{q \cdots q}^{C_2 } \\ p \cdots p & q \cdots q \\q \cdots q & p \cdots p\\ q \cdots q & p \cdots p \end{matrix} \right]$

不妨假設 $n$ 是一個偶數，顯然 $r a n k E [A] = 2$ ，它有兩個特徵值與對應的特徵向量： $\lambda_1=\frac{n(p+q)}{2},\lambda_2 = \frac{n(p-q)}{2} \\ u_1 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ 1 \\ 1 \end{matrix} \right],u_2 = \frac{1}{\sqrt{n}} \left[ \begin{matrix} 1 \\ 1 \\ \cdots \\ -1 \\ -1 \end{matrix} \right]$

其中 $u_2$ 有 $n / 2$ 個 $1$ ， $n / 2$ 個 $- 1$ ， $u_2$ 是一個非常重要的值，對於一般情況，如果一個隨機網路中有兩個社群，那麼它的期望的 $u_2$ 的符號可以指示節點的社群。於是Community detection in networks的目標是給定一個某個隨機矩陣的樣本資料集，要還原隨機矩陣的期望的特徵向量。

在一般情況下，我們無法算出 $E [A]$ ，但我們可以對 $A$ 做類似的分解：
$A = D + R$

其中 $D$ 表示確定性的部分， $R$ 代表隨機性，假設 $R$ 是亞高斯矩陣，則
$\left\| D\right\| = \lambda_1 \sim n \\ P(\left\| R \right\| \le CK(\sqrt{n}+t)) \ge 1-4e^{-t^2}$

這說明signal $D$ 比噪聲 $R$ 更強得多，比如取 $t=\sqrt{n}$ ，則
$P(\left\| R \right\| \le 2CK\sqrt{n}) \ge 1-4e^{-n}$

顯然 $\left\| D\right\|$ 的階比 $\left\| R \right\|$ 大，接下來我們要做的分析是這個隨機噪聲會對社群發現的結果造成怎樣的影響。

攝動方法(perturbation method)
研究一個小噪聲矩陣對確定性矩陣的影響，我們可以使用攝動方法，下面先介紹一些需要的結論：

Weyl不等式 對於任意兩個矩陣 $S, T$
$\max_i|\lambda_i(S)-\lambda_i(T)| \le \left\| S-T \right\|$

證明
$\forall x \in S^{n-1}$ ，根據三角不等式，
$\left\| Sx \right\|_2 \le \left\| Tx \right\|_2 + \left\| (S-T)x \right\|_2 \le \left\| Tx \right\|_2 + \left\| S-T \right\|$

根據Courant-Fischer minimax定理
$\lambda_i(S) = \max_{dim E = i}\min_{x \in S(E)}\left\| Sx \right\|_2 \\ \le \max_{dim E = i}\min_{x \in S(E)}\left\| Tx \right\|_2 + \left\| S-T \right\| \le \lambda_i(T)+\left\| S-T \right\| \\ \Rightarrow \lambda_i(S) -\lambda_i(T) \le \left\| S-T \right\|$

類似地，
$\lambda_i(T) -\lambda_i(S) \le \left\| S-T \right\|$

UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用：Stochastic Block Model與社群發現 問題描述

UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用：Stochastic Block Model與社群發現

相關文章

UA MATH567 高維統計III 隨機矩陣7 亞高斯矩陣的應用：Stochastic Block Model與社群發現問題描述