論文解讀(SelfGNN)《Self-supervised Graph Neural Networks without explicit negative sampling》

發表於2022-04-14

論文資訊

論文標題:Self-supervised Graph Neural Networks without explicit negative sampling
論文作者:Zekarias T. Kefato, Sarunas Girdzijauskas
論文來源:2021, WWW
論文地址:download 
論文程式碼:download 

1 介紹

  本文核心貢獻:

    • 使用孿生網路隱式實現對比學習;
    • 本文提出四種特徵增強方式(FA); 

2 相關工作

Graph Neural Networks

  GCN 和 GAT 存在的一個問題:GCN 和 GAT 需要全批處理訓練,也就是說,整個圖($H$)應該被載入到記憶體中,這使得它們是可轉換的,不能擴充套件到大型網路。

3 方法

3.1 資料增強

  拓撲結構:

    • 基於隨機遊走的 $\text{PageRank}$ 演算法:

      $\boldsymbol{H}^{P P R}=\alpha(\boldsymbol{I}-(1-\alpha) \tilde{A})^{-1} \quad\quad\quad(2)$
      $\boldsymbol{H}^{H K}=\exp \left(t A D^{-1}-t\right)\quad\quad\quad(3)$

         其中 $\alpha$ 是心靈傳輸概率 ,$t$ 是擴散時間

    • 基於 $\text{Katz}$ 指標的演算法:

      $\boldsymbol{H}^{k a t z}=(I-\beta \tilde{A})^{-1} \beta \tilde{A}\quad\quad\quad(4)$

      Katz-index是一對節點之間所有路徑集的加權和,路徑根據其長度進行懲罰。衰減係數($\beta$)決定了處罰過程。

  特徵增強:

    • Split:特徵 $X$ 拆分成兩部分 $\boldsymbol{X}=\boldsymbol{X}[:,: F / 2]$  和  $\boldsymbol{X}^{\prime}=\boldsymbol{X}[:, F / 2:]$ ,然後分別用於生成兩個檢視。
    • Standardize:特徵矩陣進行  z-score standardization :

      ${\large X^{\prime}=\left(\frac{X^{T}-\bar{x}}{s}\right)^{T}} $

      其中 $\bar{x} \in \mathbb{R}^{F \times 1}$ 和  $s \in \mathbb{R}^{F \times 1}$  是與每個特徵相關聯的均值向量標準差向量

    • Local Degree Profile (LDP):提出了一種基於節點區域性度輪廓計算出的五個統計量的節點特徵構建機制 $\mathbf{X}^{\prime} \in \mathbb{R}^{N \times 5}$ ,然後使用零填充 $X^{\prime} \in \mathbb{R}^{N \times F}$ 使其維度與 $X$ 一致。 
    • Paste:是一種功能增強技術,它簡單地結合了 $X$ 和 LDP 功能,如增強功能 $\boldsymbol{X}^{\prime} \in \mathbb{R}^{N \times(F+5)}$。在這種情況下,在原始特徵矩陣 $X$ 上應用了一個零填充,例如 $X \in \mathbb{R}^{N \times(F+5)}$ 。

3.2 框架

  總體框架如下:

    

  組成部分:

    • 元件一:生成檢視,$any(G)$ 是對原始圖 $G$ 從拓撲或特徵層面進行資料增強;
    • 元件二:圖自編碼器 $f_{\theta}$ 和 $f_{\phi}$,一種堆疊架構,如 Figure 2 (A) 所示。概括為:$X_{1}=f_{\theta}\left(G_{1}\right)$, $X_{2}=f_{\phi}\left(G_{2}\right)$;
    • 元件三:孿生網路(Siamese Network,用於評估兩個輸入樣本的相似性)是一個投影頭,類似$g_{\theta}$的架構,如 Figure 2 (B) 所示。本文在這發現使用這個投影頭對效能沒有多大提升,所以實際上並沒有使用;
    • 元件四:預測塊(prediction block),對學生網路(左邊)使用,這個預測塊可以是 MLP ,也可以是  $g_{\theta}$,架構如Figure 2 (B) 所示。學生網路用於從教師網路(右邊)中學到有用的資訊;【$g_{\theta}\left(\mathbf{X}_{1}\right) \approx \mathbf{X}_{2}$】

    

  須知:

  只對學生網路的引數通過梯度更新(SG),學生網路使用的損失函式如下:

    $\mathcal{L}_{\theta}=2-2 \cdot \frac{\left\langle g_{\theta}\left(X_{1}\right), X_{2}\right\rangle}{\left\|g_{\theta}\left(X_{1}\right)\right\|_{F} \cdot\left\|X_{2}\right\|_{F}}\quad\quad\quad(5)$

  教師網路引數通過學生網路使用指數移動平均(EMA,exponential moving average)進行更新。指數移動平均如下:

    $\phi \leftarrow \tau \phi+(1-\tau) \theta\quad\quad\quad(6)$

  這裡 $\tau$ 是衰減率。

4 實驗

  資料集:

    • citation networks (Cora, Citeseer, Pubmed)
    • author collaboration networks (CS, Physics)
    • co-purchased products network (Photo, Computers)

      

  實驗設定:

    • 70/10/20–train/validation/test
    • $\alpha=0.15$, $t=3$, $\beta=0.1$

  與原始 GNN 的比較:

    

  對比 ClusterSelfGNN 效能的提升:

   

  與自監督 GNN 的比較:

    

  消融實驗:

    

   Split 策略的有效性:

    

5 結論

  本研究提出了一種新的對比自監督方法SelfGNN,它不需要顯式的對比項,負樣本。雖然負樣本對對比學習的成功至關重要,但我們採用了批量歸一化,以引入隱式負樣本。此外,我們還介紹了四種與拓撲節點特徵增強技術一樣有效的節點特徵增強技術。我們使用7個真實資料集進行了廣泛的實驗,結果表明SelfGNN獲得了與監督GNNs相當的效能,同時明顯優於半監督和自監督方法。SelfGNN依賴於兩個並行的gnn同時載入到記憶體中,這給大型網路造成了一個主要的瓶頸。雖然本研究提出了基於聚類的改進,但需要做仔細和有原則的工作來適當地解決這個問題。這是我們未來工作的目標。

相關論文

Cluster-GCN: An Efficient Algorithm for Training Deep and Large Graph Convolutional Networks
GraphSAINT: Graph Sampling Based Inductive Learning Method
Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks.
GraphSAINT: Graph Sampling Based Inductive Learning Method
MVS-GNN [9]: Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks
BERT[10]: Pre-training of Deep Bidirectional Transformers for Language Understanding.
GPT [2]:Language Models are Few-Shot Learners
A simple yet effective baseline for non-attributed graph classification
Strategies for Pre-training Graph Neural Networks
GPT-GNN: Generative Pre-Training of Graph Neural Networks
GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training
Contrastive Multi-View Representation Learning on Graphs
Deep Graph Infomax
Diffusion Improves Graph Learning

相關文章