論文解讀(BGRL)《Bootstrapped Representation Learning on Graphs》

發表於2022-04-14

論文資訊

論文標題:Bootstrapped Representation Learning on Graphs
論文作者:Shantanu Thakoor, Corentin Tallec, Mohammad Gheshlaghi Azar, Rémi Munos, Petar Veličković, Michal Valko
論文來源:2021, ArXiv
論文地址:download 
論文程式碼:download

1 介紹

  研究目的:對比學習中不適用負樣本。

  本文貢獻:

    • 對圖比學習不使用負樣本

2 方法

2.1 整體框架(節點級對比)

   

    上面是 online network,下面是 target network 。

  步驟:

    • 步驟一:分別應用隨機圖增強函式 $\mathcal{A}_{1}$ 和 $\mathcal{A}_{2}$,產生 $G$ 的兩個檢視:$\mathbf{G}_{1}=   \left(\widetilde{\mathbf{X}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$ 和 $\mathbf{G}_{2}=\left(\widetilde{\mathbf{X}}_{2}, \widetilde{\mathbf{A}}_{2}\right) $;
    • 步驟二:線上編碼器從其增廣圖中生成一個線上表示 $\widetilde{\mathbf{H}}_{1}:=\mathcal{E}_{\theta}\left(\widetilde{\mathbf{X}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$;目標編碼器從其增廣圖生成目標表示 $\widetilde{\mathbf{H}}_{2}:=\mathcal{E}_{\phi}\left(\widetilde{\mathbf{X}}_{2}, \widetilde{\mathbf{A}}_{2}\right) $;
    • 步驟三:線上表示被輸入到一個預測器 $p_{\theta}$ 中,該預測器  $p_{\theta}$  輸出對目標表示的預測  $\widetilde{\mathbf{Z}}_{1}:=   p_{\theta}\left(\widetilde{\mathbf{H}}_{1}, \widetilde{\mathbf{A}}_{1}\right)$,除非另有說明,預測器在節點級別工作,不考慮圖資訊(僅在 $\widetilde{\mathbf{H}}_{1}$ 上操作,而不是 $\widetilde{\mathbf{A}}_{1}$)。

2.2 BGRL更新步驟

更新 $\theta$

  線上引數 $\theta$(而不是 $\phi$),通過餘弦相似度的梯度,使預測的目標表示 $\mathbf{Z}_{1}$ 更接近每個節點的真實目標表示 $\widetilde{\mathbf{H}}_{2}$。

    $\ell(\theta, \phi)=-\frac{2}{N} \sum\limits _{i=0}^{N-1} {\large \frac{\widetilde{\mathbf{Z}}_{(1, i)} \widetilde{\mathbf{H}}_{(2, i)}^{\top}}{\left\|\widetilde{\mathbf{Z}}_{(1, i)}\right\|\left\|\widetilde{\mathbf{H}}_{(2, i)}\right\|}} \quad\quad\quad(1)$

  $\theta$ 的更新公式:

    $\theta \leftarrow \operatorname{optimize}\left(\theta, \eta, \partial_{\theta} \ell(\theta, \phi)\right)\quad\quad\quad(2)$

  其中 $ \eta $ 是學習速率,最終更新僅從目標對 $\theta$ 的梯度計算,使用優化方法如 SGD 或 Adam 等方法。在實踐中,

  我們對稱了訓練,也通過使用第二個檢視的線上表示來預測第一個檢視的目標表示。

更新 $\phi$

  目標引數 $\phi$ 被更新為線上引數 $\theta$ 的指數移動平均數,即:

    $\phi \leftarrow \tau \phi+(1-\tau) \theta\quad\quad\quad(3)$

  其中 $\tau$ 是控制 $\phi$ 與 $ \theta$ 的距離的衰減速率。

  只有線上引數被更新用來減少這種損失,而目標引數遵循不同的目標函式。根據經驗,與BYOL類似,BGRL不會崩潰為平凡解,而 $\ell(\theta, \phi)$ 也不收斂於 $0$ 。

2.3. 完全非對比目標

  對比學習常用的負樣本帶來的問題是:

    • 如何定義負樣本  
    • 隨著負樣本數量增多,帶來的記憶體瓶頸;

  本文損失函式定義的好處:

    • 不需要對比負對 $\{(i, j) \mid i \neq j\} $ ;
    • 計算方便,只需要保證餘弦相似度大就行;

2.4.圖增強函式

  本文采用以下兩種資料增強方法:

    • 節點特徵掩蔽(node feature masking)
    • 邊緣掩蔽(edge masking)

3 實驗

資料集

  

  資料集劃分:

    • WikiCS: 20 canonical train/valid/test splits
    • Amazon Computers, Amazon Photos——train/validation/test—10/10/80%
    • Coauthor CS, Coauthor Physics——train/validation/test—10/10/80%

直推式學習——基線實驗

  圖編碼器採用 $\text{GCN$ Encoder 。

  

大圖上的直推式學習——基線實驗

  結果:

  

歸納式學習——基線實驗

  編碼器採用 GraphSAGE-GCN (平均池化)和 GAT 。 

  結果:

  

4 結論

  介紹了一種新的自監督圖表示學習方法BGRL。通過廣泛的實驗,我們已經證明了我們的方法與最先進的方法具有競爭力,儘管不需要負例,並且由於不依賴於投影網路或二次節點比較而大大降低了儲存需求。此外,我們的方法可以自然地擴充套件到學習圖級嵌入,其中定義消極的例子是具有挑戰性的,並且所有的目標不具有規模。

 

相關文章