論文解讀(SUBG-CON)《Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning》

發表於2022-04-27

論文資訊

論文標題:Sub-graph Contrast for Scalable Self-Supervised Graph Representation Learning
論文作者:Yizhu Jiao, Yun Xiong, Jiawei Zhang, Yao Zhang, Tianqi Zhang, Yangyong Zhu
論文來源:2020 ICDM
論文地址:download 
論文程式碼:download

1 Introduction 

  創新點:提出一種新的子圖對比度自監督表示學習方法,利用中心節點與其取樣子圖之間的強相關性來捕獲區域結構資訊。

  與之前典型方法對比:

  

2 Method

2.1 Subgraph-Based Self-Supervised Representation Learning

  對於中心節點 $i$,設計了一個子圖取樣器 $\mathcal{S}$,從原始圖中提取其上下文子圖 $\mathbf{X}_{i} \in \mathbb{R}^{N^{\prime} \times F}$。上下文子圖為學習節點 $i $ 的表示提供了區域結構資訊。其中,$\mathbf{X}_{i} \in \mathbb{R}^{N^{\prime} \times F}$ 表示第  $i$  個上下文子圖的節點特徵矩陣。$\mathbf{A}_{i}$ 表示節點 $i$ 鄰居的鄰接矩陣。$N^{\prime}$ 表示上下文子圖的大小。

  目標是學習一個上下文子圖的編碼器  $\mathcal{E}: \mathbb{R}^{N^{\prime} \times F} \times \mathbb{R}^{N^{\prime} \times N^{\prime}} \rightarrow \mathbb{R}^{N^{\prime} \times F^{\prime}}$ ,用於獲取上下文圖中的節點表示。

  注意:

    • 子圖取樣器 $S$ :作為一種資料增強的手段,需要計算鄰居重要性得分,並對重要節點進行取樣,從而組成一個上下文子圖,為中心節點提供領域結構資訊。  
    • 子圖編碼器 $\mathcal{E} $:需要計算中心節點 $i$ 的表示,還要根據子圖資訊生成子圖表示 $s_i$  

2.2  Subgraph Sampling Based Data Augmentation

  重要性得分矩陣 $\mathcal{S}$ 可以記為:【鄰居節點連的節點越多越不重要】

    $\mathbf{S}=\alpha \cdot(\mathbf{I}-(1-\alpha) \cdot \overline{\mathbf{A}})\quad\quad\quad\quad(1)$

  其中

    • $\overline{\mathbf{A}}=AD^{-1}$;
    • $S(i,:)$ 為節點 $i$ 的重要度得分向量,表示它與其他節點的相關性;
    • $\alpha \in[0,1] $ 是一個引數,它總是被設定為 $0.15 $;

  對於一個特定的節點 $i$ ,子圖取樣器 $S$ 選擇 $top-k$ 重要的鄰居,用得分矩陣 $S$ 組成一個子圖。所選節點的指數可以記為

    $i d x=\text { top_rank }(\mathbf{S}(i,:), k)$

  其中,$\text { top_rank }$ 是返回頂部 $k$ 值的索引的函式,$k$ 表示上下文圖的大小。

  然後,可以使用上述產生的 $ids$ 生成子圖鄰接矩陣 $A_i$、特徵矩陣$X$:

    $\mathbf{X}_{i}=\mathbf{X}_{i d x,:}, \quad \mathbf{A}_{i}=\mathbf{A}_{i d x, i d x}$

  到目前為止可以生成上下文子圖 $ \mathcal{G}_{i}=   \left(\mathbf{X}_{i}, \mathbf{A}_{i}\right) \sim \mathcal{S}(\mathbf{X}, \mathbf{A})$ 。

2.3  Encoding Subgraph For Representations

  給定中心節點 $i$ 的上下文子圖 $\mathcal{G}_{i}=\left(\mathbf{X}_{i}, \mathbf{A}_{i}\right) $,編碼器 $\mathcal{E}: \mathbb{R}^{N^{\prime} \times F} \times \mathbb{R}^{N^{\prime} \times N^{\prime}} \rightarrow \mathbb{R}^{N^{\prime} \times F^{\prime}}$ 對其進行編碼,得到潛在表示矩陣 $\mathbf{H}_{i} $ 表示為

    $\mathbf{H}_{i}=\mathcal{E}\left(\mathbf{X}_{i}, \mathbf{A}_{i}\right)$

    $\mathbf{h}_{i}=\mathcal{C}\left(\mathbf{H}_{i}\right)$

  其中,$\mathcal{C}$ 表示選擇中心節點表示的操作。

  我們利用一個讀出函式 $\mathcal{R} : \mathbb{R}^{N^{\prime} \times F^{\prime}} \rightarrow \mathbb{R}^{F^{\prime}}$,並使用它將獲得的節點表示總結為子圖級表示 $\mathbf{s}_{i}$,記為

    $\mathbf{s}_{i}=\mathcal{R}\left(\mathbf{H}_{i}\right)$

  其實就是 $\mathcal{R}(\mathbf{H})=\sigma\left(\frac{1}{N^{\prime}} \sum\limits _{i=1}^{N^{\prime}} \mathbf{h}_{i}\right)$

2.4 Contrastive Learning via Central Node and Context Subgraph

  整體框架如下所示:

   

  對於捕獲上下文子圖中的區域資訊的節點表示 $h_i$,我們將上下文子圖表示 $s_i$ 視為正樣本。另一方面,對於一組子圖表示,我們使用一個 Corruption functions $\mathcal{P}$ (其實就是 shuffle 操作)來破壞它們以生成負樣本,記為

    $\left\{\widetilde{\mathbf{s}}_{1}, \widetilde{\mathbf{s}}_{2} \ldots, \widetilde{\mathbf{s}}_{M}\right\} \sim \mathcal{P}\left(\left\{\mathbf{s}_{1}, \mathbf{s}_{2}, \ldots, \mathbf{s}_{m}\right\}\right)$

  其中,$m$ 是表示集的大小。

  採用三聯體損失函式(triplet loss):

    $\mathcal{L}=\frac{1}{M} \sum\limits _{i=1}^{M} \mathbb{E}_{(\mathbf{X}, \mathbf{A})}\left(-\max \left(\sigma\left(\mathbf{h}_{i} \mathbf{s}_{i}\right)-\sigma\left(\mathbf{h}_{i} \widetilde{\mathbf{s}}_{i}\right)+\epsilon, 0\right)\right)\quad\quad\quad(2)$

  演算法流程如下:

   

3 Experiment

資料集

  

實驗細節

不同編碼器對比

  對於 Cora、Citeseer、Pubmed、PPI 採用帶跳躍連線的一層的 GCN 編碼器:

    $\mathcal{E}(\mathbf{X}, \mathbf{A})=\sigma\left(\hat{\mathbf{D}}^{-\frac{1}{2}} \hat{\mathbf{A}} \hat{\mathbf{D}}^{-\frac{1}{2}} \mathbf{X} \mathbf{W}+\hat{\mathbf{A}} \mathbf{W}_{s k i p}\right)$

  其中:$\mathbf{W}_{s k i p}\$ 是跳躍連線的可學習投影矩

  對於 Reddit、Flickr 採用兩層的 GCN 編碼器:

    $\begin{array}{c}G C N(\mathbf{X}, \mathbf{A})=\sigma\left(\hat{\mathbf{D}}^{-\frac{1}{2}} \hat{\mathbf{A}} \hat{\mathbf{D}}^{-\frac{1}{2}} \mathbf{X} \mathbf{W}\right) \\\mathcal{E}(\mathbf{X}, \mathbf{A})=G C N(G C N(\mathbf{X}, \mathbf{A}), \mathbf{A})\end{array}$

  對比結果:

   

不同的目標函式:

   

  對比結果:

  

子圖距離對比

  

訓練時間和記憶體成本

  

子圖大小分析

  

4 Conclusion

  在本文中,我們提出了一種新的可擴充套件的自監督圖表示,通過子圖對比,子V.。它利用中心節點與其區域子圖之間的強相關性進行模型優化。基於取樣子圖例項,子g-con在監督要求較弱、模型學習可擴充套件性和並行化方面具有顯著的效能優勢。通過對多個基準資料集的實證評估,我們證明了與有監督和無監督的強基線相比,SUBG-CON的有效性和效率。特別地,它表明,編碼器可以訓練良好的當前流行的圖形資料集與少量的區域資訊。這表明現有的方法可能仍然缺乏捕獲高階資訊的能力,或者我們現有的圖資料集只需要驅蟲資訊才能獲得良好的效能。我們希望我們的工作能夠激發更多對圖結構的研究,以探索上述問題。

 

相關文章