論文資訊

論文標題：Iterative Graph Self-Distillation
論文作者：Hanlin Zhang, Shuai Lin, Weiyang Liu, Pan Zhou, Jian Tang, Xiaodan Liang, Eric P. Xing
論文來源：2021, ICLR
論文地址：download
論文程式碼：download

1 Introduction

　　創新點：圖級對比。

2 Method

　　整體框架如下：

2.1 Iterative Graph Self-Distillation Framework

　　在 IGSD 中，引入了一個結構相似的兩個網路，由 encoder $f_{\theta}$、projector $g_{\theta}$ 和 predictor $h_{\theta}$ 組成。我們將教師網路和學生網路的組成部分分別表示為 $f_{\theta^{\prime}}$、$g_{\theta^{\prime}}$ 和 $f_{\theta}$、$g_{\theta}$、$h_{\theta}$

　　IGSD 過程描述如下：

- 首先對原始輸入圖 $G_{j}$ 進行擴充，以獲得增廣檢視 $G_{j}^{\prime}$。然後將 $G_{j}^{\prime}$ 和不同的圖例項 $G_{i}$ 分別輸入到兩個編碼器 $f_{\theta}$、$f_{\theta^{\prime}}$ 中，用於提取圖表示 $\boldsymbol{h}, \boldsymbol{h}^{\prime}=f_{\theta}\left(G_{i}\right), f_{\theta^{\prime}}\left(G_{j}^{\prime}\right) $；
- 其次，投影頭 $g_{\theta}$，$g_{\theta^{\prime}}$ 通過 $z=g_{\theta}(\boldsymbol{h})=W^{(2)} \sigma\left(W^{(1)} \boldsymbol{h}\right)$ 和 $z^{\prime}=g_{\theta^{\prime}}\left(\boldsymbol{h}^{\prime}\right)=W^{\prime(2)} \sigma\left(W^{\prime(1)} \boldsymbol{h}^{\prime}\right) $ 轉換圖表示 $\boldsymbol{h}, \boldsymbol{h}^{\prime}$ 到投影 $z$，$z^{\prime}$，其中 $\sigma$ 表示ReLU非線性；
- 最後，為防止崩潰為一個平凡的解，在學生網路中使用預測頭來獲得投影 $z$ 的預測 $h_{\theta}(z)=W_{h}^{(2)} \sigma\left(W_{h}^{(1)} z\right) $；

　　通過對稱傳遞兩個圖實列 $G_{i}$ 和 $G_{j}$，可以得到總體一致性損失：

　　　　$\mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)=\left\|h_{\theta}\left(z_{i}\right)-z_{j}^{\prime}\right\|_{2}^{2}+\left\|h_{\theta}\left(z_{i}^{\prime}\right)-z_{j}\right\|_{2}^{2}\quad\quad\quad(2)$

　　在一致性損失的情況下，teacher network 提供了一個迴歸目標來訓練 student network，在通過梯度下降更新 student network 的權值後，將其引數 $\theta^{\prime}$ 更新為學生引數 $\theta$ 的指數移動平均值(EMA)：

　　　　$\theta_{t}^{\prime} \leftarrow \tau \theta_{t-1}^{\prime}+(1-\tau) \theta_{t}\quad\quad\quad(3)$

2.2 Self-supervised Learning with IGSD

　　給定一組無標記圖 $\mathcal{G}=\left\{G_{i}\right\}_{i=1}^{N}$，我們的目標是學習每個圖 $G_{i} \in \mathcal{G}$ 的低維表示，有利於下游任務，如圖分類。

　　在 IGSD 中，為了對比錨定 $G_{i}$ 與其他圖例項$G_{j}$（即負樣本），使用以下自監督的 InfoNCE 目標：

　　　　${\large \mathcal{L}^{\text {self-sup }}=-\mathbb{E}_{G_{i} \sim \mathcal{G}}\left[\log \frac{\exp \left(-\mathcal{L}_{i, i}^{\mathrm{con}}\right)}{\exp \left(-\mathcal{L}_{i, i}^{\mathrm{con}}\right)+\sum_{j=1}^{N-1} \mathbb{I}_{i \neq j} \cdot \exp \left(-\mathcal{L}_{i, j}^{\mathrm{con}}\right)}\right]} $

　　其中，$\mathcal{L}_{i, j}^{\text {con }}=\mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)$ 。

　　我們通過用混合函式 $\operatorname{Mix}_{\lambda}(a, b)=\lambda \cdot a+(1-\lambda) \cdot b$：融合潛在表示 $\boldsymbol{h}=f_{\theta}(G) $ 和 $\boldsymbol{h}^{\prime}=f_{\theta^{\prime}}(G)$，得到圖表示 $\tilde{\boldsymbol{h}}$ ：

　　　　$\tilde{\boldsymbol{h}}=\operatorname{Mix}_{\lambda}\left(\boldsymbol{h}, \boldsymbol{h}^{\prime}\right)$

2.3 Semi-supervised Learning with IGSD

　　考慮一個整個資料集 $\mathcal{G}=\mathcal{G}_{L} \cup \mathcal{G}_{U}$ 由標記資料 $\mathcal{G}_{L}= \left\{\left(G_{i}, y_{i}\right)\right\}_{i=1}^{l}$ 和未標記資料 $G_{U}=\left\{G_{i}\right\}_{i=l+1}^{l+u} $（通常 $u \gg l$ ），我們的目標是學習一個模型，可以對不可見圖的圖示籤進行預測。生成 $K$ 個增強檢視，我們得到了 $ \mathcal{G}_{L}^{\prime}= \left\{\left(G_{k}^{\prime}, y_{k}^{\prime}\right)\right\}_{k=1}^{K l} $ 和 $\mathcal{G}_{U}^{\prime}=\left\{G_{k}^{\prime}\right\}_{k=l+1}^{K(l+u)} $ 作為我們的訓練資料。

　　為了彌合自監督的預訓練和下游任務之間的差距，我們將我們的模型擴充套件到半監督設定。在這種情況下，可以直接插入自監督損失作為表示學習的正則化器。然而，侷限於標準監督學習的例項性監督可能會導致有偏的負抽樣問題。為解決這一問題，我們可以使用少量的標記資料來進一步推廣相似性損失，以處理屬於同一類的任意數量的正樣本：

　　　　$\mathcal{L}^{\text {supcon }}=\sum\limits_{i=1}^{K l} \frac{1}{K N_{y_{i}^{\prime}}} \sum\limits_{j=1}^{K l} \mathbb{I}_{i \neq j} \cdot \mathbb{I}_{y_{i}^{\prime}=y_{j}^{\prime}} \cdot \mathcal{L}^{\text {con }}\left(G_{i}, G_{j}\right)\quad\quad\quad(5)$

　　其中，$N_{y_{i}^{\prime}}$ 表示訓練集中與錨點 $i$ 具有相同標籤 $y_{i}^{\prime}$ 的樣本總數。由於IGSD的圖級對比性質，我們能夠緩解帶有監督對比損失的有偏負抽樣問題，這是至關重要的，但在大多數 context-instance 對比學習模型中無法實現，因為子圖通常很難給其分配標籤。此外，有了這種損失，我們就能夠使用自我訓練來有效地調整我們的模型，其中偽標籤被迭代地分配給未標記的資料。

　　對於交叉熵或均方誤差 $\mathcal{L}\left(\mathcal{G}_{L}, \theta\right) $，總體目標可以總結為：

　　　　$\mathcal{L}^{\text {semi }}=\mathcal{L}\left(G_{L}, \theta\right)+w \mathcal{L}^{\text {self-sup }}\left(\mathcal{G}_{L} \cup \mathcal{G}_{U}, \theta\right)+w^{\prime} \mathcal{L}^{\text {supcon }}\left(\mathcal{G}_{L}, \theta\right)\quad\quad\quad(6)$

3 Experiments

節點分類

3 Conclusions

　　在本文中，我們提出了一種新的基於自蒸餾的圖級表示學習框架IGSD。我們的框架通過對圖例項的增強檢視的例項識別，迭代地執行師生精餾。在自監督和半監督設定下的實驗結果表明，IGSD不僅能夠學習與最先進的模型競爭的表達性圖表示，而且對不同的編碼器和增強策略的選擇也有效。在未來，我們計劃將我們的框架應用到其他的圖形學習任務中，並研究檢視生成器的設計，以自動生成有效的檢視。

論文解讀（IGSD）《Iterative Graph Self-Distillation》