論文資訊
論文標題:SimGRACE: A Simple Framework for Graph Contrastive Learning without Data Augmentation
論文作者:Jun Xia, Lirong Wu, Jintao Chen, Bozhen Hu, Stan Z. Li
論文來源:2022, WWW
論文地址:download
論文程式碼:download
1 Introduction
對比學習種資料增強存在的三個問題:
-
- First, the augmentations can be manually picked per dataset by trial-and-errors.
- Second, the augmentations can be selected via cumbersome search.
- Third, the augmentations can be obtained with expensive domain knowledge as guidance.
框架對比:
2 Method
框架如下:
2.1 SimGRACE
2.1.1 Encoder perturbation
GNN encoder $f(\cdot ; \theta)$ 及其擾動版本 $f\left(\cdot ; \boldsymbol{\theta}^{\prime}\right)$ 從同一個圖獲得其表示:
$\begin{array}{l} \mathbf{h}=f(\mathcal{G} ; \boldsymbol{\theta})\\\mathbf{h}^{\prime}=f\left(\mathcal{G} ; \boldsymbol{\theta}^{\prime}\right)\end{array} \quad\quad\quad(1)$
擾動版本的編碼器 $ f(\cdot ; \boldsymbol{\theta})$ 的超引數:
$\boldsymbol{\theta}_{l}^{\prime}=\theta_{l}+\eta \cdot \Delta \theta_{l} \quad\text{with} \quad \Delta \theta_{l} \sim \mathcal{N}\left(0, \sigma_{l}^{2}\right) \quad\quad\quad(2)$
其中:
-
- $\theta_{l}$ 和 $\theta_{l}^{\prime}$ 分別對應著 GNN encoder 及其擾動版本第 $l$ 層的權重引數;
- $\eta$ 代表著擾動大小的係數;
- $\Delta \theta_{l}$ 是從零均值和方差為 $\sigma_{l}^{2}$的高斯分佈中取樣的擾動項;
請注意,BGRL 和 MERIT 在訓練期間使用 online encoder 更新 target network 。SimGRACE 與它們的不同之處在於:
-
- SimGRACE 用隨機高斯噪聲擾動編碼器,而不是動量更新;
- SimGRACE不需要資料增強,而 BGRL和 MERIT 將它作為先決條件;
- SimGRACE專注於圖級表示學習,而 BGRL 和 MERIT 只適用於節點級任務;
2.1.2 Projection head
使用非線性投影頭 $g(\cdot)$ 提高表示質量:
$\begin{array}{l} z=g(\mathbf{h})\\z^{\prime}=g\left(\mathbf{h}^{\prime}\right)\end{array} \quad\quad\quad(3)$
2.1.3 Contrastive loss
在 SimGRACE 訓練過程中,隨機抽取 $N$ 個圖,然後將它們輸入GNN編碼器 $f(\cdot ; \theta)$ 及其擾動版本 $f\left(\cdot ; \boldsymbol{\theta}^{\prime}\right)$,每個圖有兩個表示,總共有 $2N$ 個圖表示。我們將 minibatch 中的第 $n$ 個圖的圖表示 $z$ 、$z^{\prime}$ 重新定義為 $z_{n}$ 、$z_{n}^{\prime}$ 。負對是由 minibatch 中的其他 $N−1$ 個圖的擾動表示生成的。將餘弦相似度函式表示為 $\operatorname{sim}\left(z, z^{\prime}\right)=z^{\top} z^{\prime} /\|z\|\left\|z^{\prime}\right\|$,第 $n$ 個圖的對比損失定義為:
${\large \ell_{n}=-\log \frac{\left.\exp \left(\operatorname{sim}\left(z_{n}, z_{n}^{\prime}\right)\right) / \tau\right)}{\sum_{n^{\prime}=1, n^{\prime} \neq n}^{N} \exp \left(\operatorname{sim}\left(z_{n}, z_{n^{\prime}}\right) / \tau\right)}} \quad\quad\quad(4)$
2.2 Why can SimGRACE work well?
根據 [43] 分析對比學習的表示 質量。其 alignment metric 被直接定義為正對之間的預期距離:
$\ell_{\text {align }}(f ; \alpha) \triangleq \underset{(x, y) \sim p_{\text {pos }}}{\mathbb{E}}\left[\|f(x)-f(y)\|_{2}^{\alpha}\right], \quad \alpha>0 \quad\quad\quad(5)$
其中 $p_{\text {pos }}$ 是正對的分佈(對同一樣本的資料增強)。這個度量與對比學習的目標很好地一致:正樣本應該在嵌入空間中保持接近。
類似地,對於 SimGRACE 框架,提供了一個修改的 alignment 度量:
$\ell_{\text {align }}(f ; \alpha) \triangleq \underset{x \sim p_{\text {data }}}{\mathbb{E}}\left[\left\|f(x ; \boldsymbol{\theta})-f\left(x ; \boldsymbol{\theta}^{\prime}\right)\right\|_{2}^{\alpha}\right], \quad \alpha>0 \quad\quad\quad(6)$
其中,$p_{\text {data }}$ 代表著資料分佈,本文在實驗中設定 $\alpha=2$ 。
另一種是 uniformity 度量,它被定義為平均成對高斯勢的對數:
${\large \ell_{\text {uniform }}(f ; \alpha) \triangleq \log \underset{x, y^{i . i \cdot d .}{ }_{\sim} p_{\text {data }}}{\mathbb{E}}\left[e^{-t\|f(x ; \theta)-f(y ; \theta)\|_{2}^{2}}\right] . \quad t>0} \quad\quad\quad(7)$
本文設定 $t=2$ 。uniformity 度量也與對比學習的目標相一致,即隨機樣本的嵌入應該分散在超球面上。
在訓練過程中,我們每 2 個 epoch 設定一次 SimGRACE、GraphCL 和 MoCL 的檢查點,並在 Figure 3 中視覺化 alignment $\ell_{\text {align }}$ 和 uniformity $\ell_{\text {uniform }}$。可以觀察到,這三種方法都可以改善 alignment 和 uniformity。然而,GraphCL 在 alignment 上比 SimGRACE 和 MoCL 獲得的增益更小,換句話說,正對不能在 GraphCL 中保持接近,因為一般的圖形資料會增強( drop edges, drop nodes and etc)。破壞了原始圖資料的語義,從而降低了 GraphCL 學習到的表示的質量。相反,MoCL以領域知識作為指導來增強圖資料,因此可以在增強過程中保留語義。最終,MoCL顯著地改善了對齊效果。與 GraphCL相比,SimGRACE可以在提高 uniformity 的同時實現更好的 alignment ,因為編碼器的擾動可以很好地保持資料的語義。另一方面,雖然MoCL通過引入領域知識作為指導,實現了比SimGRACE更好的 alignment,但它只在 uniformity 上獲得了很小的增益,最終的效能低於 SimGRACE。
2.3 AT-SimGRACE
GraphCL 表明,GNNs 可以通過其所提出的框架獲得魯棒性。然而,他們並沒有解釋為什麼GraphCL可以增強魯棒性。此外,GraphCL似乎對隨機攻擊免疫良好,而對對抗性攻擊卻不令人滿意。我們的目標是利用對抗性訓練(AT) 來有原則地提高SimGRACE的對抗性魯棒性。AT 直接將對抗性示例納入訓練過程,解決以下優化問題:
${\large \underset{\theta}{\text{min}} \mathcal{L}^{\prime}(\theta), \quad \text { where } \quad \mathcal{L}^{\prime}(\theta)=\frac{1}{n} \sum\limits _{i=1}^{n} \underset{\mathrm{x}_{i}^{\prime}-\mathbf{x}_{i} \|_{p} \leq \epsilon}{\text{max}} \ell_{i}^{\prime}\left(f\left(\mathrm{x}_{i}^{\prime} ; \boldsymbol{\theta}\right), y_{i}\right)} \quad\quad\quad(8)$
其中:
-
- $n$ 是訓練示例的數量;
- $\mathrm{x}_{i}^{\prime}$ 是以 $$\mathrm{x}_{i}$ 為中心的 $ \epsilon -ball$(以 $ L_{p} $ 範數為界)中的對抗性示例;
- $f $ 是帶權重引數 $\theta$ 的 DNN;
- $\ell^{\prime}(\cdot)$ 是標準的自監督分類損失(cross-entropy loss);
- $\mathcal{L}^{\prime}(\boldsymbol{\theta})$ 稱為 "adversarial loss";
上述AT 框架不能直接用於圖對比學習,原因如下:
-
- AT要求標籤作為監督,而標籤在圖對比學習中不可用;
- 以對抗的方式擾動資料集中的每個圖將會引入巨大的計算開銷,這已經在 GROC 中指出;
為了解決第一個問題,我們用對比損失 $Eq.4$ 代替了監督分類損失 $Eq.8$。為了解決第二個問題,我們不對圖資料進行對抗轉換,而是以對抗的方式干擾編碼器,這樣計算效率更高。
假設 $\Theta$ 是 GNN 的權值空間,對於任何 $w$ 和任何正 $ \epsilon$ ,我們可以在 $\theta$ 中定義以 $w$ 為中心,半徑為 $ \epsilon$ 的範數球:
$\mathbf{R}(\mathbf{w} ; \epsilon):=\{\theta \in \Theta:\|\theta-\mathbf{w}\| \leq \epsilon\} \quad\quad\quad\quad(9)$
本文以 $L_{2}$ 範數作為範數球,因此可以定義我們的 AT-SimGRACE 的優化目標:
$\begin{array}{l}\underset{\theta}{\text{min}} \mathcal{L}(\theta+\Delta)\\\text{where}\quad\quad \mathcal{L}(\theta+\Delta)=\frac{1}{M} \sum\limits _{i=1}^{M} \underset{\Delta \in \mathrm{R}(0 ; \epsilon)}{\text{max}} \ell_{i}\left(f\left(\mathcal{G}_{i} ; \theta+\Delta\right), f\left(\mathcal{G}_{i} ; \theta\right)\right) \end{array} \quad\quad\quad\quad(10)$
其中,$M$ 是資料集中圖的數量。我們使用 Algorithm 1 去解決這個優化問題。對於內部最大化,我們使用梯度上升演算法在對比損失的方向進行$I$ 步去更新 $\Delta$。在內部最大化的輸出擾動 $\Delta$ 的條件下,外層迴圈用小批量SGD更新 GNNs 的權值 $\theta$。
2.4 Theoretical Justification
在本節中,我們旨在解釋為什麼 AT-SimGRACE 可以增強圖對比學習的魯棒性的原因。當模型的輸入確實受到干擾時,對抗性訓練(AT)通過限制損失的變化來增強其魯棒性。
本文使用 PAC-Bayes 框架來推導對期望誤差的保證。
假設權值上的先驗分佈(prior distribution)$P$ 是零均值,方差為 $\sigma^{2}$ 的高斯分佈,編碼器的預期誤差可以限定為:
$\mathbb{E}_{\left\{\mathcal{G}_{i}\right\}_{i=1}^{M}, \Delta}[\mathcal{L}(\theta+\Delta)] \leq \mathbb{E}_{\Delta}[\mathcal{L}(\theta+\Delta)]+4 \sqrt{\frac{K L(\theta+\Delta \| P)+\ln \frac{2 M}{\delta}}{M}} \quad\quad\quad\quad(11)$
我們選擇 $\Delta$ 作為一個各方向為零均值,方差為$\sigma^{2} $ 的球面高斯擾動(spherical Gaussian perturbation),且將方差設為基於權重 $ \sigma=\alpha\|\theta\| $。此外,我們用 $\mathcal{L}(\theta)+\mathbb{E}_{\Delta}[\mathcal{L}(\theta+\Delta)]-\mathcal{L}(\theta)$ 代替 $ \mathbb{E}_{\Delta}[\mathcal{L}(\theta+\Delta)]$。重寫 $Eq.11$ 得:
${\large \begin{array}{l} \mathbb{E}_{\left\{\mathcal{G}_{i}\right\}_{i=1}^{M}, {\Delta}}[\mathcal{L}(\theta+\Delta)] \leq \mathcal{L}(\theta)+&\underbrace{\left\{\mathbb{E}_{\Delta}[\mathcal{L}(\theta+\Delta)]-\mathcal{L}(\theta)\right\}}_{\text {Expected sharpness }}\\&+4 \sqrt{\frac{1}{M}\left(\frac{1}{2 \alpha}+\ln \frac{2 M}{\delta}\right)}\end{array}} \quad\quad\quad\quad(12)$
顯然 $\mathbb{E}_{\Delta}[\mathcal{L}(\theta+\Delta)] \leq \max _{\Delta}[\mathcal{L}(\theta+\Delta)]$ ,第三項 $4 \sqrt{\frac{1}{M}\left(\frac{1}{2 \alpha}+\ln \frac{2 M}{\delta}\right)}$ 是一個常數,因此,AT-SimGRACE優化了損失 $\underset{\Delta}{\text{max}}[\mathcal{L}(\theta+ \Delta)]-\mathcal{L}(\theta)$ 的最壞情況到預期誤差的界限,這就解釋了為什麼 AT-SimGRACE 可以增強魯棒性。
3 Experiments
分類
遷移學習
對抗攻擊
有效性
超引數敏感實驗
4 Conclusions
在本文中,我們提出了一個簡單的圖對比學習框架(SimGRACE)。雖然它看起來很簡單,但我們證明了SimGRACE可以在不同規模和型別的多個圖形資料集上超越或匹配最先進的競爭對手,同時享有前所未有的靈活性、高效和易用性。我們將圖對比學習從繁瑣的手動調優、繁瑣的搜尋或昂貴的領域知識中解放出來。此外,我們還設計了對抗性訓練方案來原則性地提高SimGRACE的魯棒性,並從理論上解釋了其原因。未來的工作有兩個很有前途的途徑:(1)探索編碼器擾動是否可以在計算機視覺和自然語言處理等其他領域的工作良好。(2)將預先訓練過的gnn應用於更現實世界的任務,包括社會分析和生物化學。
References
Graph Contrastive Learning Automated (ICML 2021)
Graph Contrastive Learning with Augmentations (NeurIPS 2020)
Strategies for Pre-training Graph Neural Networks (ICLR 2020)
Adversarial Attack on Graph Structured Data (ICML 2018)