[論文閱讀筆記] Fast Network Embedding Enhancement via High Order Proximity Approximati

[論文閱讀筆記] Fast Network Embedding Enhancement via High Order Proximity Approximation

本文結構

解決問題
主要貢獻
主要內容
參考文獻

(1) 解決問題

大多數先前的工作，要麼是沒有考慮到網路的高階相似度（如譜聚類，DeepWalk，LINE，Node2Vec），要麼是考慮了但卻使得演算法效率很低，不能擴充到大規模網路（如GraRep）。

(2) 主要貢獻

Contribution 1. 將許多現有的NRL演算法架構總結成一個統一的框架（相似度矩陣構造以及降維），並且得出一個結論，如果更高階的相似度資訊被考慮進相似度矩陣，那麼NRL演算法的表徵效果會提高。

Contribution 2. 提出了NEU增強策略來提高現有的NRL演算法的表徵效果，經由NEU演算法處理過的表徵矩陣R在理論上融入了節點的更高階相似度（近似）。最後，在多標籤分類和鏈路預測實驗上證明了演算法不僅在時間上是有效的，而且在精度上也是有很大提升的。

(3) 主要內容

1. 預備知識

K階相似度：一階相似度可以表示為兩節點的邊權，二階相似度可以表示為兩節點的公共鄰居數，那麼推廣到更高階的相似度呢？首先考慮二階相似度的另一種解釋：節點v_i走兩步到達節點v_j的概率。將一階二階相似度簡單推廣到k階相似度，即節點v_i走k步到達節點v_j的概率。假設A為歸一化後的鄰接矩陣（一階相似度轉移概率矩陣），那麼k階相似度轉移概率矩陣為A^k（k階相似度轉移矩陣），A^k_ij表示節點v_i走k步到達節點v_j的概率。

（個人理解： 高階相似度為什麼會起作用？由於現實中的網路往往都是稀疏的，這意味著邊的規模和節點的規模往往是一樣的。因此，真實網路的一階相似度矩陣通常是非常稀疏的，僅憑一階相似度已不足以反應節點間的關係。因此，需要結合更高階的節點相似度）

2. 統一框架

論文提出了一個基於相似度矩陣的降維（矩陣分解）的統一框架，並將現有演算法歸結到該框架中。

基於相似度矩陣的降維（矩陣分解）統一框架包含兩個步驟：

Step 1：相似度矩陣M的構造。（如鄰接矩陣，拉普拉斯矩陣，k階相似度矩陣等）
Step 2：相似度矩陣的降維，即矩陣分解，如特徵值分解或SVD分解。
目標： 分解矩陣 M=RC^T，即尋找矩陣R和矩陣C來似矩陣M，矩陣M和矩陣RCT的離可以用差的矩陣範數來表。其中，R為中心向量表徵矩，C為上下文向量表徵矩陣。

舉例說明演算法符合上述統一框架：

Example 1：Spectral Clustering（SC）

相似度矩陣M：歸一化後的拉普拉斯矩陣（一階相似度）
降維方法：特徵值分解。

Example 2：Graph Factorization （GF）

相似度矩陣M：歸一化後的鄰接矩陣（一階相似度）降維方法：SCD分解。

Example 3：DeepWalk

相似度矩陣M：

DeepWalk演算法以基於隨機遊走生成的取樣來近似高階相似度，而沒有實際上去精確計算k階相似度矩陣。

降維方法：以目標函式優化的方式，SkipGram的目標優化（SGD），尋找矩陣R和矩陣C使得RC^T近似M。

Example 4：GraRep

演算法原理：
GraRep精確計算1,...k階，k個相似度矩陣，並且為每個相似度矩陣計算一個特定的表徵（利用SVD分解），最後將這k個表徵連線起來。

本質上也是基於相似度矩陣分解，屬於提出的統一框架但是，GraRep不能有效適用於大規模網路，計算效率太低。

3. 演算法原理

根據以上演算法存在的問題：本論文研究如何從近似高階相似度矩陣中有效的學習網路表徵（使得演算法既有效率又有效果）。

假設我們已經用上述NRL框架中的某個演算法學習了相對比較低階的相似度矩陣f(A)的近似RC^T。在這個基礎之上，我們的目標是去學習一個更好的R'和C'，其R'C'^T近似一個更高階的矩陣g(A)，其度比f(A)更高。

f(A)的定義（相似度矩陣）：表示由A的1...k次冪組成的多項式。f(A)的度k表示多項式中考慮到的最大階的相似度，即A的最大次冪，參考以上DeepWalk的相似度矩陣，f(A)=M。

注意到NEU演算法主要是為了增強其他表示學習模型得到的嵌入結果，即在含有低階資訊的嵌入向量的基礎上，融合更高階的資訊生成質量更好的嵌入向量。該演算法原理很簡單，即對其他演算法得到的表示向量嵌入矩陣做一個後處理操作，其迭代更新公式如下：

一個疑問：這個R和C的迭代更新是怎麼考慮進了更高階的相似度的？

Theorem：
給定網路表徵矩陣R和向下文向量表徵矩陣C（可由其他表徵演算法學習而得），假設RC^T近似相似度矩陣M=f(A)，近似誤差限

且f(A)的度為K。經由上述迭代公式（3）更新而得的R’和C’的積R’C’^T近似於矩陣

g(A)具有K+2的度，且近似誤差限為

由以上定理可以得出結論： 即每迭代更新一次，分解的近似相似度矩陣的度提升2，但是相應的誤差上限會提升2.25倍，因此必須權衡融入的高階節點相似度資訊以及相應的誤差。

一個變種的迭代公式：

可以推得變種迭代更新公式在一次迭代中可以獲得更高階的相似度（第一個迭代公式一次迭代只是多了2階）。（當然比變種迭代公式更復雜的在一次迭代中獲得更高階的相似度的迭代公式可以類似推廣）

總結：說了那麼多就是對其他表示學習演算法得到的嵌入矩陣進行以上迭代更新，即可在嵌入向量中融入更高階的資訊。

(4) 參考文獻

Yang C , Sun M , Liu Z , et al. Fast Network Embedding Enhancement via High Order Proximity Approximation[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2017.

[論文閱讀筆記] Fast Network Embedding Enhancement via High Order Proximity Approximati