以下部分是我學習CMU 15-751: TCS Toolkit的課堂筆記。由於只是個人筆記,因此許多地方在推導上可能不那麼嚴謹,還望理論大佬多多包涵。
1 問題定義
1.1 無向圖\(G\)
在本文中,我們將研究物件限定在無向圖(undirected graph)\(G=(V, E)\),且滿足:
- 有限(finite);
- 允許重邊和自環;
- 不允許度為0的頂點(即孤立,isolated頂點),但允許有多個連通分量;
此外,我們在某些情況下可能會假設\(G\)是正則的。
正則圖:指各頂點的度均相同的無向簡單圖。
1.2 頂點標籤\(f\)
定義 設函式
將圖的每個頂點用一個實數值來進行標記,我們稱其為頂點標籤(vertex labelling)。在實際應用場景中,\(f\)可能是溫度、電壓、嵌入的座標(推廣到\(\mathbb{R}^d\)時)或者\(S\subseteq V\)的0-1示性函式。
在本文中,我們會將函式\(f\)想成是一個如下所示的(列)向量:
回顧 函式集合\(\mathcal{F}=\{f: V\rightarrow \mathbb{R}\}\)上帶有加法和標量乘法:
- 加法:\(f+g\)(逐點);
- 標量乘法:\(c\cdot f\)(\(c\in\mathbb{R}\));
可以證明,\(\mathcal{F}\)是一個向量空間,且維度\(n=|V|\)。後面我們還會在\(\mathcal{F}\)上定義內積和範數。
2 Laplacian二次型
2.1 定義
接下來我們將要介紹的是譜圖論(spectral graph theory)的關鍵,也就是Laplacian二次型(Laplacian quadratic form),其定義如下:
(符號約定:\(u\sim v\)表示服從均勻分佈的隨機無向邊\((u, v)\in E\))
直觀地理解,Laplacian二次型刻畫了圖的“能量”(energy),這也是我們為什麼用\(\mathcal{E}(f)\)來表示它的原因。它在其它語境下,又被稱為Dirichlet形式(Dirichlet form),區域性方差(local variance),解析邊界大小(analytic boundary size)。
2.2 性質
關於Laplacian二次型,我們有以下事實:
-
\(\mathcal{E}\left[f\right]\geqslant 0\);
-
\(\mathcal{E}\left[c \cdot f\right] = c^2 \cdot \mathcal{E}\left[f\right]\);
-
\(\mathcal{E}\left[f + c \right] = \mathcal{E}\left[f\right]\)(\(c\in\mathbb{R}\));
直覺上,\(\mathcal{E}\left[f\right]\)的值越小,也就意味著\(f\)更加“光滑”(smooth),即其值不會沿著邊變化得太劇烈。
例 設圖頂點的子集\(S\subseteq V\), 0-1示性函式\(f=\mathbb{I}_{S}\)用於指示頂點是否在集合\(S\)中,即:
則我們有:
注意上述式子中要乘以\(1/2\)是因為我們考慮的是無向圖,要避免有向邊的重複計數(即“伸出”與“伸入”\(S\)),最後只需計算“伸出”\(S\)的邊。
2.3 標準隨機遊走
為了選擇一個隨機頂點,我們可以:
- 均勻隨機地選擇一條邊 \((u, v)\);
- 輸出 \(u\)(或\(v\));
我們依據此取樣方式得到的頂點分佈記為\(\pi\),\(\pi_i\)表示頂點\(i\)被抽中的機率。我們有以下事實:
事實 \(\pi(u)\)正比於\(\text{deg}(u)\),即
(注意這裡用到了握手定理,即\(\sum_v \text{deg}(v)=2|E|\))
直觀地看,\(\pi\)為每個頂點給出了權重/重要性。
注:如果\(G\)是正則的,那麼\(\pi\)是在\(V\)上的均勻分佈。
在此基礎上,我們可以得到一些有用的結論。
事實 下列步驟:
- 隨機採 \(u\sim \pi\);
- 再均勻隨機地採\(u\)的一個鄰居\(v\)(記為\(v\sim u\))
實質上就等價於均勻隨機地取樣邊\((u, v)\)。如果我們接著輸出\(v\),則\(v\)也服從分佈\(\pi\)。
推論 設\(t\in \mathbb{N}\),隨機採\(u\sim \pi\),進行\(t\)步的 “標準隨機遊走”(standard random walk,S.R.W.):
則\(v\)的分佈也是\(\pi\)。
定義 \(\pi\)是不變(invariant)/ 平穩(stationary)分佈。
Q: 現在假設\(u_0\in V\)是非隨機的,並從\(u_0 \overset{t}{\rightsquigarrow}v\)。隨著\(t\rightarrow \infin\),\(v\)的分佈是否還會\(\rightarrow \pi\)?
A: 當\(G\)非連通圖時不是;當\(G\)為二分圖時也不是;而其它情況都是如此(我們後面會介紹原因)。
Q: 那麼需要多少步才能到達平穩分佈呢(也即馬爾可夫鏈的混合時間,mixing time)?
A: 這需要考慮圖\(G\)的譜(特徵值),具體我們會在下一講中介紹。直觀的例子比如圖擁有較小的割集,那麼在隨機遊走時就需要較長的時間來跨越\(S\)和\(\bar{S}\);更極端的例子比如非連通圖直接永遠不會達到平穩分佈。在\(2.2\)中我們證明了若圖的割集較小則其\(\mathcal{E}\left[\mathbb{I}_S\right]\)就較小,而我們後面會看到快速收斂等價於\(\mathcal{E}\left[f\right]\)永遠不會小。
2.4 \(f\)的均值和方差
設\(f:V\rightarrow \mathbb{R}\),若\(u\sim \pi\),則\(f(u)\)是一個實隨機變數(我們這裡簡記為\(f\))。對於該隨機變數,我們接下來討論它的均值與方差。
均值(mean) \(f\)的均值定義為:
例 若\(S\subseteq V\),\(f=\mathbb{I}_S\),則
直觀上,這個機率表示\(S\)的“權重”或“體積”。
方差(variance) \(f\)的方差定義為:
注意,上述式\((3)\)成立是由於:
辨析 這裡要注意\(f\)的方差\(\text{Var}(f)\)和其能量\(\mathcal{E}(f)\)的差異,它們倆的對比如下:
可見方差\(\text{Var}[f]\)是對圖的頂點取期望(我們稱其為關於\(f\)的全域性方差,global variance),而\(\mathcal{E}[f]\)則是對圖的邊取期望(我們稱其為關於\(f\)的區域性方差,local variance)。
3 Laplacian二次型的極值
3.1 \(\mathcal{F}\)上的的內積與範數
接下來我們討論Laplacian二次型的極值,而這就需要我們先定義\(\mathcal{F}=\{f: V\rightarrow \mathbb{R}\}\)空間上的內積和範數。
定義 設\(f, g: V\rightarrow\mathbb{R}\),則向量空間\(\mathcal{F}\)上的 加權內積(weighted inner product) 可以定義為:
直觀地,我們可以將其寫做:
注: 當\(G\)是正則圖時(此時\(\pi\)為均勻分佈),上式是經由\(\frac{1}{|V|}\)縮放的“標準點積”(normal dot product)。
回顧 實向量空間上的內積滿足以下性質
- \(\langle f, g\rangle_{\pi}=\langle g, f\rangle_{\pi}\);
- \(\langle c\cdot f + g, h\rangle_{\pi} = c\langle f, h\rangle_{\pi} + \langle g, h \rangle_{\pi}\)(\(c\in\mathbb{R}\));
- \(\langle f, f\rangle_{\pi}=\mathbb{E}_{u\sim\pi}\left[f(u)^2\right]\geqslant 0\quad \text{with equality iff } f\equiv 0\);
定義 對於\(f\in\mathcal{F}\),我們可以由內積誘匯出\(f\)的\(2\)-範數:
處理2-範數的平方通常比直接處理它更容易,故我們常常使用\( \lVert f \rVert^2_2:=\langle f, f\rangle_{\pi}=\mathbb{E}_{u\sim\pi}\left[f(u)^2\right] \)。
此外,我們還可以定義\(f\)的\(1\)-範數:
例 設\(S\subseteq V\),\(f=\mathbb{I}_S\),則
且我們有
3.2 最小化/最大化\(\mathcal{E}\left[f\right]\)
我們在 2.3 中提到隨機遊走快速收斂等價於\(\mathcal{E}\left[f\right]\)永遠不會小,那麼\(\mathcal{E}\left[f\right]\)能夠有多小呢?
最小化 現在我們來考慮最小化\(\mathcal{E}\left[f\right]\),即求解:
我們已知\(\mathcal{E}[f]\geqslant0\),故我們接下來討論什麼樣的\(f\)可以使\(\mathcal{E}[f]=0\)。
首先對於\(f\equiv 0\)(即將圖的每個頂點都對映到\(0\))這一trival的情況,\(\mathcal{E}\left[f\right]=0\);
接下來考慮non-trival的情況。我們注意到\(f\equiv 1\)(或任何其它常數)時,
事實上,由於圖的不同連通分量之間是不存在邊的,因此只要保證\(f\)在圖\(G\)的每個連通分量上是常數就行。
命題 \(\mathcal{E}[f]=0\)當且僅當\(f\)在\(G\)的每個連通分量上是常數。此時:
即當圖的連通分量為\(S_1,\cdots, S_l\)時, \(\mathbb{I}_{S_1}, \mathbb{I}_{S_2}, \cdots, \mathbb{I}_{S_l}\)是線性無關的(linearly independent)(並滿足\(\mathcal{E}\left[f\right]=0\)約束)。所謂線性無關,直觀上即如下所示的關係:
更一般地說,集合\(\{f: \mathcal{E}[f]=0\}\)事實上就是\(\mathbb{I}_{S_1}, \mathbb{I}_{S_2}\cdots, \mathbb{I}_{S_l}\)的張成空間\(\{\sum^l_{i=1}c_i\mathbb{I}_{S_i}: c_1,\cdots, c_l\in \mathbb{R}\}\)。
最大化 接下來我們來考慮最大化\(\mathcal{E}\left[f\right]\),即求解
(這裡需要注意由於\(\mathcal{E}[c\cdot f]=c^2\mathcal{E}[f]\),故我們要新增關於\(\text{Var}\left[f\right]\)的約束項以控制常數縮放因子的影響)
事實上,上述最佳化問題即等價於:
這是因為:
直覺上,該最佳化問題是在尋找一個好的嵌入\(V\rightarrow \mathbb{R}\),使得邊的兩個端點在嵌入空間中能夠儘可能“遠”。那麼,什麼樣的\(G\)才能最成功呢?答案是二分圖。
如果\(G\)是二分圖,\(V=(V_1, V_2)\)。設
也即
於是我們有\(\lVert f \rVert^2_2=\mathbb{E}[f^2]=\mathbb{E}\left[1\right]=1\),且\(\mathcal{E}[f]=2\)(由於\(\frac{1}{2}\mathbb{E}_{u\sim v}[(f(u) - f(v))^2]\)中\(f(u)\)和\(f(v)\)都為\(\pm1\))
命題 \(\mathcal{E}[f] \leqslant 2 \lVert f \rVert^2_2\)(即\(2\mathbb{E}[f^2]\))
證明如下:
例 等式\(\mathcal{E}[f] = 2 \lVert f\rVert^2_2\)當且僅當\(G\)為二分圖的時候成立。
4 Markov轉移運算元
4.1 定義
根據我們前面在 3.2 中的的敘述,我們已經知道
$\mathcal{E}[f]=\text{arithm}= \lVert f\rVert^2_2 - \mathbb{E}_{u\sim v}[f(u)\cdot f(v)] $
這裡
注意上圖中的帶\(*\)表示式\(\mathbb{E}_{v\sim u}\left[f(v)\right]\)刻畫的是頂點\(u\)鄰居集合\(\{v\}\)的\(f\)標籤平均值。而這個表示式實際上描述了一個將頂點\(u\)對映到其鄰居標籤平均值的函式,接下來我們就來進一步研究這個函式。
定義 我們定義函式\(Kf: V\rightarrow\mathbb{R}\)滿足
由於我們是離散狀態空間,故上式可以寫為\((Kf)(u)=\sum_v f(v)\text{Pr}\left[v\rightarrow u\mid v\right]\),這裡\(\text{Pr}[v\rightarrow u\mid v]\)表示鄰居頂點\(v\)到當前頂點\(u\)的狀態轉移機率。直觀地理解,函式\(Kf\)使得頂點\(u\)被賦予其鄰居集合的\(f\)標籤平均值。
這裡\(K\)為定義在函式空間\(\mathcal{F}=\{f: V\rightarrow \mathbb{R}\}\)上的線性運算元,它將函式\(f\in\mathcal{F}\)對映到\(Kf\in\mathcal{F}\),並滿足:
定義 我們將上述的運算元\(K\)稱為圖\(G\)的Markov轉移運算元(Markov transition operator)/歸一化鄰接矩陣(normalized adjacency matrix)。
我們可以將運算元\(K\)表示成一個矩陣,該矩陣以如下方式作用:
且滿足
所以\(K\)是歸一化後的鄰接矩陣\(A\)的轉置(當然這裡由於我們關注無向圖,\(A^T=A\)),其每一列的和為\(1\)(代表一個機率分佈)。這樣的矩陣被稱為隨機矩陣(stochastic marix)。
4.2 自伴性質
如果圖\(G\)是\(d\)-正則的(即所有頂點的度都為\(d\)),那麼我們有:
那麼對於非正則圖呢?此時\(K\)的矩陣表示(在非規範正交基下)儘管可能不再是對稱陣,但是運算元\(K\)仍然滿足自伴的性質。我們有以下事實:
事實 對於\(f, g: V\rightarrow \mathbb{R}\),
證明
基於此,我們有下列推論:
推論
也即\(K\)是自伴的(self-adjoint)。而這在圖\(G\)是正則圖的情況下就等價於\(K\)是對稱的。
接下來再來看我們熟悉的那個示性函式例子。
例 設\(S, T\subseteq V\)(\(S\cap T=\emptyset\)),\(f=\mathbb{I}_S\),\(g=\mathbb{I}_T\),則:
4.3 Markov鏈
機率分佈轉移 設\(p\)為在頂點\(V\)上的機率分佈,即
我們進行如下步驟:
- 隨機採一個頂點\(u\sim p\)。
- 進行一步從\(u\rightarrow v\)的隨機遊走,並設\(p^{\prime}\)為\(v\)的機率分佈。
則我們有如下的機率分佈轉移關係:
推論 對於平穩機率分佈\(\pi\),滿足
接下來我們再展示一個例子說明機率轉移具體是如何運作的。
引理 對於運算元$K^2 = K \circ K $,我們有:
證明 給定\(f\),設\(g=Kf\),則
故
推論 \(\forall t \in \mathbb{N}\),\((K^tf)(u)=\mathbb{E}_{u \overset{t\text{-step S.R.W}}{ \rightsquigarrow} w}\left[ f(w)\right]\)(甚至\(t=0\)時,我們也有\(I f(u) = f(u)\))。
參考
[1] CMU 15-751: TCS Toolkit
[2] Bilibili: CMU電腦科學理論(完結)—你值得擁有的數學和計算機課)
[3] Spielman D. Spectral graph theory[J]. Combinatorial scientific computing, 2012, 18: 18.
[4] Axler S. Linear algebra done right[M]. springer publication, 2015.