論文解讀( N2N)《Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization》

發表於2022-04-01

論文資訊

論文標題:Node Representation Learning in Graph via Node-to-Neighbourhood Mutual Information Maximization
論文作者:Wei Dong, Junsheng Wu, Yi Luo, Zongyuan Ge, Peng Wang
論文來源:CVPR 2022
論文地址:download 
論文程式碼:download   

1 摘要

  在本工作中,我們提出了一種簡單而有效的自監督節點表示學習策略,通過直接最大化節點的隱藏表示及其鄰域之間的互資訊,這可以通過圖平滑理論證明。在 InfoNCE 之後,我們的框架通過一個替代對比損失進行了優化,其中正樣本選擇支撐了表示學習的質量和效率。為此,我們提出了一種拓撲感知的正取樣策略,該策略通過考慮節點之間的結構依賴性,從鄰域進行正取樣,從而能夠提前進行正選擇。在極端情況下,當只有一個正的取樣時,我們完全避免了昂貴的鄰域聚合。我們的方法在各種節點分類資料集上都取得了很好的效能。值得一提的是,通過將我們的損失函式應用於基於 MLP 的節點編碼器,我們的方法可以比現有的解決方案更快。

2 介紹

  本文任務:節點分類。[ 關鍵:通過從鄰域獲取上下文資訊來學習帶結構資訊的節點表示 ]

  GNNs 過程可總結為: Aggregation-Combine-Prediction pipeline

  Aggregation 步驟通過 mean [15]、max [15]、attention [31] 和 ensemble [8] 等各種鄰域聚合器將鄰域資訊聚合為向量化表示,並通過 sum 或 concatenation 與節點表示相結合,實現鄰域資訊融合。為獲得多跳資訊,在最終獲得用於預測節點標籤的表示之前,常重複採用 Aggregation-Combine 操作。

  

3 方法

3.1 GNN 框架

  有監督的GNN 框架為:

  $\begin{array}{l}\overrightarrow{\boldsymbol{s}}_{i}^{(l-1)} &=\operatorname{AGGREGATION}\left(\left\{\overrightarrow{\boldsymbol{h}}_{j}^{(l-1)}: v_{j} \in \mathcal{N}_{i}\right\}\right) \\\overrightarrow{\boldsymbol{h}}_{i}^{(l)} &=\operatorname{COMBINE}\left(\left\{\overrightarrow{\boldsymbol{s}}_{i}^{(l-1)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l-1)}\right\}\right) \\\mathcal{L}_{\mathrm{CE}} &=\operatorname {PREDICTION}\left(\left\{\overrightarrow{\boldsymbol{h}}_{i}^{(L)}, y_{v_{i}}\right\}\right)\end{array}\quad\quad\quad\quad(1)$

3.2.節點到鄰域(N2N)互資訊最大化

  基於特徵空間 $\mathcal{X}^{D^{(l)}}$的節點表示 $\overrightarrow{\boldsymbol{h}}_{i}^{(l)}$ 的概率密度函式 $p\left(H(\boldsymbol{x})^{(l)}\right)$,同樣鄰居節點表示也類似$p\left(S(\boldsymbol{x})^{(l)}\right)$,我們將節點表示與其對應的鄰域表示之間的互資訊定義為:

  $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)= \int_{\mathcal{X}^{(l)}} p\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right) \cdot \log \frac{p\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)}{p\left(S(\boldsymbol{x})^{(l)}\right) \cdot p\left(H(\boldsymbol{x})^{(l)}\right)} d \boldsymbol{x}\quad\quad\quad\quad(2)$

  PS:互資訊  $I(X ; Y)$  是聯合分佈  $p(x, y) $ 與 邊緣分佈  $p(x) p(y)$  的相對熵。

  互資訊難計算的原因:由於在連續和高維空間中。

  幸運的是,通過 Mutual Information Neural Estimation (MINE) [1],可實現互資訊計算,它將互資訊最大化轉化為最小化 $\text{InfoNCE}$ 損失,將 $\text{Eq. (2)}$ 中的 N2N 互資訊損失轉換為:

  $\begin{aligned}\mathcal{L}_{\text {InfoNCE }} =-\mathbb{E}_{v_{i} \in \mathcal{V}}\left[\log \frac{\exp \left(\operatorname{sim}\left(\overrightarrow{\boldsymbol{s}}_{i}^{(l)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l)}\right) / \tau\right)}{\sum_{v_{k} \in \mathcal{V}} \exp \left(\operatorname{sim}\left(\overrightarrow{\boldsymbol{h}}_{k}^{(l)}, \overrightarrow{\boldsymbol{h}}_{i}^{(l)}\right) / \tau\right)}\right]\end{aligned}\quad\quad\quad(3)$

  最大化互資訊 $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)$ 起著圖平滑的作用 ,這被證明對節點/圖預測是積極的,在此,本文引入特徵平滑度量[18]:
    $\delta_{f}^{(l)}=\frac{\left\|\sum_{v_{i} \in \mathcal{V}}\left(\sum_{v_{j} \in \mathcal{N}_{i}}\left(\overrightarrow{\boldsymbol{h}}_{i}^{(l)}-\overrightarrow{\boldsymbol{h}}_{j}^{(l)}\right)\right)^{2}\right\|_{1}}{|\mathcal{E}| \cdot D^{(l)}}\quad\quad\quad(4)$

  工作[ 18 ] 進一步提出從鄰居表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$ 得到的資訊,可以表達為 KL 散度的形式:

    $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)= \int_{\mathcal{X}^{(l)}} p\left(S(\boldsymbol{x})^{(l)}\right) \cdot \log \frac{p\left(S(\boldsymbol{x})^{(l)}\right)}{p\left(H(\boldsymbol{x})^{(l)}\right)} d \boldsymbol{x}\quad\quad\quad(5)$

  $\text{Eq. (5)}$ 和特徵平滑度量有著很大的關聯,即 $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right) \sim \delta_{f}^{(l)}$。

證明:

  通過互資訊與資訊熵之間的關係,我們得到:

    $I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)= \mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)+\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)\quad\quad\quad(10)$

  其中:$\mathrm{H}(\cdot)$ 是資訊熵,$\mathrm{H}(\cdot, \cdot)$ 是聯合資訊熵。

  帶資訊熵的KL散度定義為:  

    $D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)= \mathrm{H}\left(S(\boldsymbol{x})^{(l)}, H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)\quad\quad\quad(11)$

  應用 $\text{Eq.10}$ 和 $\text{Eq.11}$ 得到:

    $\begin{array}{l} I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right)&=\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right)+\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right) -D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)-\mathrm{H}\left(S(\boldsymbol{x})^{(l)}\right) \\ &=\mathrm{H}\left(H(\boldsymbol{x})^{(l)}\right)-D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right) \end{array}\quad\quad\quad(12)$

  由  $\text{Eq.12}$ 便得到結論:

    ${\large I\left(S(\boldsymbol{x})^{(l)} ; H(\boldsymbol{x})^{(l)}\right) \sim \frac{1}{D_{K L}\left(S(\boldsymbol{x})^{(l)} \| H(\boldsymbol{x})^{(l)}\right)} \sim \frac{1}{\delta_{f}^{(l)}}\quad\quad\quad(13)} $

知識點補充: 

互資訊

  互資訊(Mutual Information)是資訊理論裡一種有用的資訊度量,它可以看成是一個隨機變數中包含的關於另一個隨機變數的資訊量,或者說是一個隨機變數由於已知另一個隨機變數而減少的不肯定性。

  定義:設兩個隨機變數  $(X, Y)$  的聯合分佈為  $p(x, y) $ ,邊緣分佈分別為  $p(x)$, $p(y) $ ,互資訊  $I(X ; Y) $ 是聯合分佈  $p(x, y)$  與 邊緣分佈  $p(x) p(y) $ 的相對熵,即

    $I(X ; Y)=\sum\limits _{x \in X} \sum\limits_{y \in Y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

  即 $H(X)-H(X \mid Y)=H(Y)-H(Y \mid X)$

  按照熵的定義展開可以得到:

    $\begin{aligned} I(X ; Y) &=H(X)-H(X \mid Y) \\ &=H(X)+H(Y)-H(X, Y) \\&=\sum\limits_{x} p(x) \log \frac{1}{p(x)}+\sum\limits_{y} p(y) \log \frac{1}{p(y)}-\sum\limits_{x, y} p(x, y) \log \frac{1}{p(x, y)} \\ &=\sum\limits _{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}\end{aligned}$

    

相對熵

  相對熵(relative entropy),又被稱為Kullback-Leibler散度(Kullback-Leibler divergence)或資訊散度(information divergence),是兩個概率分佈(probability distribution)間差異的非對稱性度量。在資訊理論中,相對熵等價於兩個概率分佈的資訊熵(Shannon entropy)的差值 。相對熵表示使用理論分佈擬合真實分佈時產生的資訊損耗。

  定義:設 $P(x)$, $Q(x)$ 是隨機變數 $X$ 上的兩個概率分佈,則在離散和連續隨機變數的情形下,相對熵的定義分別為:

    $\begin{array}{l} \mathrm{KL}(P \| Q)=\sum P(x) \log \frac{P(x)}{Q(x)} \\ \mathrm{KL}(P \| Q)=\int P(x) \log \frac{P(x)}{Q(x)} d x \end{array}$

  與資訊理論中其它概念的關係:對前向KL散度,其值等於真實分佈與擬合分佈的交叉熵與真實分佈的資訊熵之差:

    $\mathrm{KL}(P \| Q)=H(P, Q)-H(P)$

3.3 拓撲正相關抽樣(TAPS)

  獲得的鄰居表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$ ,所存在的問題是:

    • 首先,整個社群可能包含冗餘甚至有噪聲的資訊。  
    • 其次,聚合操作的計算代價高昂。  

  為解決這個問題,本文提出 TAPS 策略。

  對於一個節點 $v_{i}$,使用 $X_{i}$ 代表它的拓撲資訊。$X_{i}$ 可以代表其鄰域 $\mathcal{N}_{i}$ 所提供的資訊量,也可以代表著其非鄰域 $\overline{\mathcal{N}_{i}}=\mathcal{V}-\mathcal{N}_{i}$ 所帶來的資訊。基於$X_{i}$,我們定義 $p\left(X_{i}=\mathcal{N}_{i}\right)=\frac{\left|\mathcal{N}_{i}\right|}{|\mathcal{V}|} $ 和 $p\left(X_{i}=\overline{\mathcal{N}_{i}}\right)=\frac{\left|\mathcal{V}-\mathcal{N}_{i}\right|}{|\mathcal{V}|}$ ,其中 $|\cdot|$ 代表著基函式(可增可減)。$p\left(X_{i}=\mathcal{N}_{i}\right) $ 表示當我們在圖上隨機取樣一個節點時,該節點落入 $v_{i}$ 鄰域的概率。此外,對於相鄰的兩個節點 $v_i$ 和 $v_j$,我們可以定義以下聯合概率:

    $\begin{array}{l} p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\mathcal{N}_{j}\right)=\frac{\left|\mathcal{N}_{i} \cap \mathcal{N}_{j}\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\overline{\mathcal{N}_{j}}\right)=\frac{\left|\mathcal{N}_{i} \cap\left(\mathcal{V}-\mathcal{N}_{j}\right)\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\overline{\mathcal{N}_{i}}, X_{j}=\mathcal{N}_{j}\right)=\frac{\left|\left(\mathcal{V}-\mathcal{N}_{i}\right) \cap \mathcal{N}_{j}\right|}{|\mathcal{V}|} \\ p\left(X_{i}=\overline{\mathcal{N}_{i}}, X_{j}=\overline{\mathcal{N}_{j}}\right)=\frac{\left|\left(\mathcal{V}-\mathcal{N}_{i}\right) \cap\left(\mathcal{V}-\mathcal{N}_{j}\right)\right|}{|\mathcal{V}|}, \end{array}\quad\quad\quad(7)$

  其中 $p\left(X_{i}=\mathcal{N}_{i}, X_{j}=\mathcal{N}_{j}\right)$ 是隨機選擇的節點落入 $v_i$ 和 $v_j$ 相交鄰居的概率。基於互資訊,我們將 $v_i$ 和 $v_j$ 之間的圖結構依賴關係定義為:

    $\begin{aligned}I\left(X_{i} ; X_{j}\right)=& \sum\limits _{X_{i}} \sum\limits_{X_{j}} p\left(X_{i}, X_{j}\right) \cdot \log \frac{p\left(X_{i}, X_{j}\right)}{p\left(X_{i}\right) \cdot p\left(X_{j}\right)} \\ & \text { s.t. } v_{j} \in \mathcal{N}_{i} . \end{aligned}\quad\quad\quad\quad(8)$

  上面的圖結構依賴值主要度量兩個節點的拓撲相似性。值越大,表示兩個節點之間有很強的依賴性。

  在我們的 TAPS 策略中,我們通過排序選擇和 $v_i$ 正相關依賴值的鄰居節點,然後通過 Aggregator 操作獲得節點$v_i$的鄰居節點表示 $\overrightarrow{\boldsymbol{s}}_{i}^{(l)}$。當只選擇一個正節點時,我們直接選擇對 $v_i$ 依賴值最大的節點 $v_j$,從而避免了昂貴的聚合操作。同時,由於圖的拓撲結構僅依賴於鄰接矩陣,TAPS允許我們預先進行正取樣,這可以避免訓練過程中的正取樣開銷。

4 訓練框架

  有三種基於圖的自監督訓練方案[21]。

    • 第一種型別是 Pre-training 和 Fine-tuning(PT和FT)。預訓練階段首先用代理任務初始化GNN編碼器的引數。在此之後,這個預先訓練好的GNN編碼器將在特定的下游任務的監督下進行微調。  
    • 第二種是 Joint Learning (JL) 方案,其中GNN編碼器、代理任務和下游任務被聯合訓練。  
    • 最後一種型別是無監督表示學習(URL)。與 PT&FT 類似,URL也遵循了一個兩階段的訓練方案,其中第一階段基於代理任務對GNN編碼器進行訓練,但在第二個下游任務階段,GNN編碼器被凍結。  

  在我們的工作中,我們同時採用JL和URL管道來訓練和評估我們的網路。

4.1 JL 訓練框架

  如 Figure 1.(a)說明了 JL 訓練過程。

  

  可以看出,不像大多數現有的基於圖的SSL工作,使用GNN作為節點/圖編碼器,我們簡單地使用一個淺的MLP作為編碼器,這更有效。在JL方案中,我們在MLP編碼器輸出的節點表示之上聯合應用InfoNCE損失和交叉熵損失:

    $\mathcal{L}=(1-\alpha) \mathcal{L}_{\mathrm{CE}}+\alpha \mathcal{L}_{\mathrm{InfoNCE}}\quad\quad\quad(9)$

4.2 URL 訓練框架

  如 Figure 1.(b) 所示,包括兩個訓練階段:訓練前的代理任務使用 InfoNCE 損失 $\mathcal{L}_{\mathrm{InfoNCE}}$ 訓練 MLP 編碼器,下游任務使用交叉熵損失 $\mathcal{L}_{\mathrm{CE}}$ 學習線性節點分類器。

5 實驗

5.1 實驗設定

  6 個節點分類資料集:Cora[39],Pubmed[39],citsee[39],Amazon Photo[28],Coauthor CS [28] 和 Coauthor Physics [28]。

5.2 基線

  對比的方法:

  

5.3 結果分析

  Table 2 顯示了本文的方法與其他選擇的方法之間的效能比較。

  

  • 我們的 N2N 模型,無論是 N2N(JL) 還是 N2N(URL),在所有 6 個資料集上的表現始終優於比較方法。在 Cora、Pubmed 和 Coauthor CS 等資料集上,提高率可以高達 3%。這表明了 N2N 互資訊最大化策略在 GNN 和其他基於 GCL 的節點表示學習方面的競爭力。另一個值得一提的問題是,由於我們基於 N2N 的方法避免了拓撲增強,而是簡單地使用 MLP 作為節點編碼器,我們的方法在訓練和推理方面更有效。
  • 在 N2N 系列中,我們在基於 TAPS 抽樣更多的正相關鄰居,通常觀察到改善,但改善是有限的。這表明了 N2N-TAPS-1 的潛力,因為它避免了已知的昂貴的鄰域聚合操作。然而,當從附近隨機抽樣單個正樣本時,效能顯著下降。這一結果表明,所提出的戰術策略確實可以取樣拓撲意義的正相關鄰居。
  • 在現有的方法中,GCL 方案與有監督的 GNN 變體相比,具有類似的效能,甚至稍微更好的效能。這一觀察結果表明,SSL 可能是基於圖的表示學習中的一種很有前途的替代方法。

5.4 消融實驗

5.4.1 基於隨機正抽樣的 N2N(JL)

  在本節中,基於隨機正抽樣的 N2N(JL)。為了進一步證明我們的 TAPS 策略的必要性和優勢,通過將取樣量從 $1$ 改變到 $5$ 來進行隨機正抽樣實驗。我們選擇了兩個資料集,即Amazon Photo 和 Coauthor Physics 來做這個實驗,因為它們的 平均節點度>5。對於每個取樣量,我們用不同的隨機種子進行了三次實驗。結果如 Table 3 所示。從表中我們可以清楚地觀察到,隨機正抽樣導致較大的效能方差,這意味著隨機抽樣不能識別一致的和資訊豐富的鄰居。

  

5.4.2 時間消耗對比

  我們的方法被期望比現有的工作更有效。一方面,我們的工作採用MLP作為節點編碼器,從而避免了編碼階段昂貴的節點聚合。另一方面,陷阱使我們能夠預先取樣有限的高質量陽性。特別是,當選擇了一個正相關樣本時,我們就完全擺脫了聚合操作。

  Table 4 顯示了時間消耗的比較。從結果中我們可以看到,我們的方法可以比典型的基於 GNN 和 GCL 的方法快幾級。GraphMLP [19] 也採用了MLP作為編碼器,但它使用的是所有鄰居節點資訊,這就解釋了它在 CS 和 Physics 等大型資料集上的緩慢性。 

   

5.4.3 TAPS策略評估

  TAPS 是我們框架中保證正取樣質量和效率的重要組成部分。在 Table 2 中,我們展示了 N2NTAPS-1 由於基於 TAPS 隨機抽樣的優勢。在本節中,我們將TAPS取樣應用於另一個基於 GNN 基線 GraphSAGE-Mean,以驗證 TAPS 是否可以作為一般的鄰域取樣策略來識別資訊鄰域。

  

  結果如 Fig.2 所示。預設情況下,GraphSAGE-Mean 使用隨機抽樣來選擇鄰居進行聚合,這有接收噪聲資訊的風險。我們用 TAPS 替換 GraphSAGE-Mean中的隨機抽樣,並保持所有其他實現的完整。它的效能明顯得到了提高,通常使用更多的鄰居可以更有利於效能。這個觀察告訴我們,考慮結構依賴關係來選擇有用的鄰居來豐富節點表示是很重要的。

5.4.4 標籤平滑性分析

  為了利用 TAPS 策略驗證鄰域取樣的質量,我們引入了 CSGNN 中提出的標籤平滑度度量

    $\delta_{l}=\sum_{\left(v_{i}, v_{j}\right) \in \mathcal{E}}\left(1-\mathbb{I}\left(v_{i} \simeq v_{j}\right)\right) /|\mathcal{E}|$

  其中:$\mathbb{I}(\cdot) $ 是一個指示函式,即當 $y_{v_{i}}=y_{v_{j}}$ 時 $\mathbb{I}\left(v_{i} \simeq v_{j}\right)=1$,當 $y_{v_{i}} \neq y_{v_{j}}$ 時,$\mathbb{I}\left(v_{i} \simeq v_{j}\right)=0$。

  一個大的 $\delta_{l}$ 表明具有不同標籤的節點被認為是連線的鄰居,而一個較小的 $\delta_{l}$ 表示一個具有更高質量的鄰域結構的圖 $\mathcal{G}$,即一個節點的大多數鄰域與該節點具有相同的標籤。擁有小 $\delta_{l}$  即代表了高質量的鄰域,這可以為其相應的中心節點提供同質的資訊增益。

  Fig.3 顯示,通過我們的 TAPS 策略將取樣量從 $1$ 擴大到 $5$,標籤平滑值逐漸增加。在沒有任何取樣策略的情況下,整個圖的標籤平滑度值最高。這一現象表明,我們的 TAPS 策略可以提高鄰域取樣質量,這解釋了為什麼所提出的 N2N-TAPS-1 模型在某些資料集上具有競爭效能。

  TAPS 策略本質上是一種子圖劃分方案。一個好的子圖內部節點標籤應該一致度高。Figure 4 顯示了子圖的大小(子圖中的節點)和由TAPS得到的這些子圖的數量方面的統計分佈。Cora 上的子圖劃分的細節如 Fig.5 所示,其中不同的節點顏色代表不同的標籤。在每個子圖中,大多數節點都有相同的顏色(相同的標籤),甚至在一些大型的子圖中,這意味著 TPAS 生成了高質量的鄰域。這種視覺化還揭示了我們的TAPS策略能夠在圖中建模多跳上下文資訊,儘管我們沒有明確地這樣做。其他資料集的統計分佈和子圖劃分的詳細資訊見附錄B和C。 

  

6 結論

  本文提出了一種簡單而有效的自監督節點表示學習策略,通過互資訊最大化,直接優化節點的隱藏表示與其鄰域之間的對齊。理論上,我們的公式鼓勵圖形平滑。我們還提出了一個戰術策略來識別資訊豐富的鄰居,並提高我們的框架的效率。值得一提的是,當只選擇一個正節點時,我們的模型可以完全避免鄰域聚合,但仍然保持著良好的節點分類效能。一項有趣的工作將是將提出的自監督節點表示學習和鄰域取樣策略擴充套件到異構圖資料。

 

參考論文

[8] Principal Neighbourhood Aggregation for Graph Nets.關於 Aggregation 中 ensemble 方法:
[15] Inductive representation learning on large graphs.
[31] Graph attention networks.
[7] On the efficacy of knowledge distillation.
[1] Mutual information neural estimation.
[18] Measuring and improving the use of graph information in graph neural networks.
[21] Graph self-supervised learning: A survey.
[23] Relational knowledge distillation.

 

相關文章