論文資訊
論文標題:Iterative Graph Self-Distillation
論文作者:Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian Tang, Xiaodan Liang, Eric P. Xing
論文來源:2021, ICLR
論文地址:download
論文程式碼:download
1 Introduction
創新點:圖級對比。
2 Method
整體框架如下:
2.1 Iterative Graph Self-Distillation Framework
在 IGSD 中,引入了一個結構相似的兩個網路,由 encoder $f_{\theta}$、projector $g_{\theta}$ 和 predictor $h_{\theta}$ 組成。我們將教師網路和學生網路的組成部分分別表示為 $f_{\theta^{\prime}}$、$g_{\theta^{\prime}}$ 和 $f_{\theta}$、$g_{\theta}$、$h_{\theta}$
IGSD 過程描述如下:
-
- 首先對原始輸入圖 $G_{j}$ 進行擴充,以獲得增廣檢視 $G_{j}^{\prime}$。然後將 $G_{j}^{\prime}$ 和不同的圖例項 $G_{i}$ 分別輸入到兩個編碼器 $f_{\theta}$、$f_{\theta^{\prime}}$ 中,用於提取圖表示 $\boldsymbol{h}, \boldsymbol{h}^{\prime}=f_{\theta}\left(G_{i}\right), f_{\theta^{\prime}}\left(G_{j}^{\prime}\right) $;
- 其次,投影頭 $g_{\theta}$,$g_{\theta^{\prime}}$ 通過 $z=g_{\theta}(\boldsymbol{h})=W^{(2)} \sigma\left(W^{(1)} \boldsymbol{h}\right)$ 和 $z^{\prime}=g_{\theta^{\prime}}\left(\boldsymbol{h}^{\prime}\right)=W^{\prime(2)} \sigma\left(W^{\prime(1)} \boldsymbol{h}^{\prime}\right) $ 轉換圖表示 $\boldsymbol{h}, \boldsymbol{h}^{\prime}$ 到投影 $z$,$z^{\prime}$,其中 $\sigma$ 表示ReLU非線性;
- 最後,為防止崩潰為一個平凡的解,在學生網路中使用預測頭來獲得投影 $z$ 的預測 $h_{\theta}(z)=W_{h}^{(2)} \sigma\left(W_{h}^{(1)} z\right) $;
通過對稱傳遞兩個圖實列 $G_{i}$ 和 $G_{j}$,可以得到總體一致性損失:
$\mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)=\left\|h_{\theta}\left(z_{i}\right)-z_{j}^{\prime}\right\|_{2}^{2}+\left\|h_{\theta}\left(z_{i}^{\prime}\right)-z_{j}\right\|_{2}^{2}\quad\quad\quad(2)$
在一致性損失的情況下,teacher network 提供了一個迴歸目標來訓練 student network,在通過梯度下降更新 student network 的權值後,將其引數 $\theta^{\prime}$ 更新為學生引數 $\theta$ 的指數移動平均值(EMA):
$\theta_{t}^{\prime} \leftarrow \tau \theta_{t-1}^{\prime}+(1-\tau) \theta_{t}\quad\quad\quad(3)$
2.2 Self-supervised Learning with IGSD
給定一組無標記圖 $\mathcal{G}=\left\{G_{i}\right\}_{i=1}^{N}$,我們的目標是學習每個圖 $G_{i} \in \mathcal{G}$ 的低維表示,有利於下游任務,如圖分類。
在 IGSD 中,為了對比錨定 $G_{i}$ 與其他圖例項$G_{j}$(即負樣本),使用以下自監督的 InfoNCE 目標:
${\large \mathcal{L}^{\text {self-sup }}=-\mathbb{E}_{G_{i} \sim \mathcal{G}}\left[\log \frac{\exp \left(-\mathcal{L}_{i, i}^{\mathrm{con}}\right)}{\exp \left(-\mathcal{L}_{i, i}^{\mathrm{con}}\right)+\sum_{j=1}^{N-1} \mathbb{I}_{i \neq j} \cdot \exp \left(-\mathcal{L}_{i, j}^{\mathrm{con}}\right)}\right]} $
其中,$\mathcal{L}_{i, j}^{\text {con }}=\mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)$ 。
我們通過用混合函式 $\operatorname{Mix}_{\lambda}(a, b)=\lambda \cdot a+(1-\lambda) \cdot b$:融合潛在表示 $\boldsymbol{h}=f_{\theta}(G) $ 和 $\boldsymbol{h}^{\prime}=f_{\theta^{\prime}}(G)$,得到圖表示 $\tilde{\boldsymbol{h}}$ :
$\tilde{\boldsymbol{h}}=\operatorname{Mix}_{\lambda}\left(\boldsymbol{h}, \boldsymbol{h}^{\prime}\right)$
2.3 Semi-supervised Learning with IGSD
考慮一個整個資料集 $\mathcal{G}=\mathcal{G}_{L} \cup \mathcal{G}_{U}$ 由標記資料 $\mathcal{G}_{L}= \left\{\left(G_{i}, y_{i}\right)\right\}_{i=1}^{l}$ 和未標記資料 $G_{U}=\left\{G_{i}\right\}_{i=l+1}^{l+u} $(通常 $u \gg l$ ),我們的目標是學習一個模型,可以對不可見圖的圖示籤進行預測。生成 $K$ 個增強檢視,我們得到了 $ \mathcal{G}_{L}^{\prime}= \left\{\left(G_{k}^{\prime}, y_{k}^{\prime}\right)\right\}_{k=1}^{K l} $ 和 $\mathcal{G}_{U}^{\prime}=\left\{G_{k}^{\prime}\right\}_{k=l+1}^{K(l+u)} $ 作為我們的訓練資料。
為了彌合自監督的預訓練和下游任務之間的差距,我們將我們的模型擴充套件到半監督設定。在這種情況下,可以直接插入自監督損失作為表示學習的正則化器。然而,侷限於標準監督學習的例項性監督可能會導致有偏的負抽樣問題。為解決這一問題,我們可以使用少量的標記資料來進一步推廣相似性損失,以處理屬於同一類的任意數量的正樣本:
$\mathcal{L}^{\text {supcon }}=\sum\limits_{i=1}^{K l} \frac{1}{K N_{y_{i}^{\prime}}} \sum\limits_{j=1}^{K l} \mathbb{I}_{i \neq j} \cdot \mathbb{I}_{y_{i}^{\prime}=y_{j}^{\prime}} \cdot \mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)\quad\quad\quad(5)$
其中,$N_{y_{i}^{\prime}}$ 表示訓練集中與錨點 $i$ 具有相同標籤 $y_{i}^{\prime}$ 的樣本總數。由於IGSD的圖級對比性質,我們能夠緩解帶有監督對比損失的有偏負抽樣問題,這是至關重要的,但在大多數 context-instance 對比學習模型中無法實現,因為子圖通常很難給其分配標籤。此外,有了這種損失,我們就能夠使用自我訓練來有效地調整我們的模型,其中偽標籤被迭代地分配給未標記的資料。
對於交叉熵或均方誤差 $\mathcal{L}\left(\mathcal{G}_{L}, \theta\right) $,總體目標可以總結為:
$\mathcal{L}^{\text {semi }}=\mathcal{L}\left(G_{L}, \theta\right)+w \mathcal{L}^{\text {self-sup }}\left(\mathcal{G}_{L} \cup \mathcal{G}_{U}, \theta\right)+w^{\prime} \mathcal{L}^{\text {supcon }}\left(\mathcal{G}_{L}, \theta\right)\quad\quad\quad(6)$
3 Experiments
節點分類
3 Conclusions
在本文中,我們提出了一種新的基於自蒸餾的圖級表示學習框架IGSD。我們的框架通過對圖例項的增強檢視的例項識別,迭代地執行師生精餾。在自監督和半監督設定下的實驗結果表明,IGSD不僅能夠學習與最先進的模型競爭的表達性圖表示,而且對不同的編碼器和增強策略的選擇也有效。在未來,我們計劃將我們的框架應用到其他的圖形學習任務中,並研究檢視生成器的設計,以自動生成有效的檢視。