Paper Information

論文作者：Zhen Peng、Wenbing Huang、Minnan Luo、Q. Zheng、Yu Rong、Tingyang Xu、Junzhou Huang
論文來源：WWW 2020
論文地址：download
程式碼地址：download

前言

　　1、自監督學習（Self-supervised）：屬於無監督學習，其核心是自動為資料打標籤（偽標籤或其他角度的可信標籤，包括影像的旋轉、分塊等等），通過讓網路按照既定的規則，對資料打出正確的標籤來更好地進行特徵表示，從而應用於各種下游任務。

　　2、互資訊（Mutual Information）：表示兩個變數 $X$ 和 $Y$ 之間的關係，定義為：

　　　　$I(X ; Y)=\sum\limits_{x \in X} \sum\limits _{y \in Y} p(x, y) \log \frac{p(x \mid y)}{p(x)}$

　　可以解釋為由 $X$ 引入而使 $Y$ 的不確定度減小的量， $I(X ; Y) $ 越大說明兩者關係越密切。

　　3、噪聲對抗估計 (Noise Contrastive Estimation, NCE) ：在 NLP 任務中一種降低計算複雜度的方法，將語言模型估計問題簡化為一個二分類問題。

Abstract

　　本文研究瞭如何以無監督的方式將圖形結構資料中的豐富資訊儲存並提取到嵌入空間中。

　　Graphical Mutual Information (GMI) 用於測量輸入圖和高階隱藏表示之間的相關性。

　　在 GMI 的幫助下，我們開發了一個無監督的學習模型，通過最大化圖神經編碼器的輸入和輸出之間的 GMI 來進行訓練。

1 Introduction

　　Deep Graph Infomax (DGI) ，通過最大化圖級別表示向量和隱藏表示互資訊之間的互資訊【全域性和區域性資訊之間的互資訊】，來區分 Positive graph 和 Negative graph 。其存在的問題是：獲取圖級別表示的 Readout 函式常常是單設的，但是 Readout 的單設效能會受到引數訓練方式的影響，這表明 Readout 函式在某些情況下會變成非單射。當 Readout 函式非單射時，圖表示中包含的輸入圖資訊將隨著輸入圖的大小增大而減小【一對多造成】。

　　接著，本文提出了一種直接的方法來考慮圖結構方面的 $\text{MI}$，而不使用任何 Readout 函式和 corruption function，作者通過比較編碼器的輸入（即由輸入鄰域組成的子圖）和輸出（即每個節點的隱藏表示），直接推匯出 $\text{MI}$。[ 改進 ]

　　作者理論推導表明，直接匯出的 $\text{MI}$ 可以分解為每個鄰居特徵和隱藏向量之間的區域性 $\text{MI}$ 的加權和。這樣，我們對輸入特徵進行了分解，使 $\text{MI}$ 計算易於處理。此外，如果我們調整權值，這種形式的 $\text{MI}$ 可以很容易地滿足對稱性質。由於上述 $\text{MI}$ 主要是在節點特徵級別上測量的，作者稱之為特徵互資訊（FMI）。

　　關於上述提到的 $\text{FMI}$ ，存在著兩個問題：

- 組合的權重仍然未知；
- 沒有考慮到拓撲結構（即邊緣特性）；

　　為解決這兩個問題，作者定義了基於 $\text{FMI}$ 提出了 Graphical Mutual Information（GMI），GMI 將 $\text{FMI}$ 中的權重設定為表示空間中每個鄰居和目標節點之間的距離。為了保留拓撲資訊，GMI 通過一個額外的互資訊項進一步將這些權值與輸入的邊緣特徵相關聯。

2 Related work

2.1 Mutual information estimation

　　如 1995 年的 InfoMax原則一樣，主張最大化神經網路的輸入和輸出之間的 $\text{MI}$。

　　論文參考型別 1、2。

2.2 Neural networks for graph representation learning

　　論文參考型別3、4、5、6。

3 Graphical mutual information:definition and maximization

　　圖$\mathcal{G}$：$\mathcal{G}=\{\mathcal{V}, \mathcal{E}\}$ ， $v_{i} \in \mathcal{V} $， $e_{i j}=\left(v_{i}, v_{j}\right) \in \mathcal{E}$

　　假設節點特徵服從經驗概率分佈 $ \mathbb{P}$ ，由 $\boldsymbol{X} \in \mathbb{R}^{N \times D}=\left\{\boldsymbol{x}_{1}, \ldots, \boldsymbol{x}_{N}\right\}$ 給出，其中 $\boldsymbol{x}_{i} \in \mathbb{R}^{D}$ 表示節點 $v_{i}$ 的特徵。

　　鄰接矩陣 $\boldsymbol{A} \in \mathbb{R}^{N \times N}$ 表示連線關係，與邊 $e_{i j}$ 對應的 $A_{i j}$ 可以是實數，也可以是多維向量。

　　圖表示學習目標是根據輸入的特徵矩陣和鄰接矩陣學習一個能獲得潛在表示的編碼器 $f: \mathbb{R}^{N \times D} \times \mathbb{R}^{N \times N} \rightarrow \mathbb{R}^{N \times D^{\prime}} $ ，這樣潛在向量 $\boldsymbol{H}=\left\{\boldsymbol{h}_{1}, \cdots, \boldsymbol{h}_{N}\right\}=f(\boldsymbol{X}, \boldsymbol{A})$ 表示所有節點的高階表示。

　　那麼承接Introduction 中提到的 [ 改進 ] ，編碼過程可以在節點級重寫。作者將節點 $i$ 的 $\boldsymbol{X}_{i}$ 和 $\boldsymbol{A}_{i}$ 分別定義為其鄰居的特徵矩陣和對應鄰接矩陣。特別地，當編碼器 $f$ 是 $l$ 層 GNN 時， $\boldsymbol{X}_{i}$ 由 $v_{i}$ 的所有 $k \leq l$ $\text{hop}$ 鄰居組成，顯然還可以進一步在鄰接矩陣中新增自環，那麼它則會包含節點 $i$ 本身資訊。圖中節點編碼過程: $\boldsymbol{h}_{i}=f\left(\mathcal{G}_{i}\right)=f\left(\boldsymbol{X}_{i}, \boldsymbol{A}_{i}\right)$ 。

Difficulties in defining graphical mutual information

　　根據 Deep InfoMax（DIM）的思想，應該最大化每個節點的表示 $\boldsymbol{h}_{i}$ 和 $\mathcal{G}_{i}$ 之間的 $\text{MI}$，這裡用 $\text{MI}$表示為 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)$ 。但是，沒有一個較好的方法定義 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)$ ，原因是：

- $\text{MI}$ 應該具有平移不變性，即：如果 $\mathcal{G}_{i}$ 和 $\mathcal{G}_{i}^{\prime}$ 同構，那麼 $I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)=I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}^{\prime}\right)$ 。
- 如果採用 MINE 方法進行 $\text{ML}$ 計算，那麼 MINE 中的判別器只接受固定大小的輸入。但這對於 $\mathcal{G}_{i}$ 是不可行的，因為不同的 $\mathcal{G}_{i}$ 通常包含不同數量的鄰居節點，因此具有不同的大小。

3.1 Feature Mutual Information

　　將 $\boldsymbol{X}_{i}$ 的經驗概率分佈表示為 $p\left(\boldsymbol{X}_{i}\right)$， $\boldsymbol{h}_{i} $ 的概率分佈表示為 $p\left(\boldsymbol{h}_{i}\right)$ ，聯合分佈用 $p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right) $ 表示。根據資訊理論，$\boldsymbol{h}_{i} $ 和 $\boldsymbol{X}_{i}$ 之間的 $\text{MI}$ 可以定義為：

　　　　${\large I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\int_{\mathcal{H}} \int_{\mathcal{X}} p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right) \log \frac{p\left(\boldsymbol{h}_{i}, \boldsymbol{X}_{i}\right)}{p\left(\boldsymbol{h}_{i}\right) p\left(\boldsymbol{X}_{i}\right)} d \boldsymbol{h}_{i} d \boldsymbol{X}_{i}}\quad\quad\quad(1) $

　　　以下將根據互資訊分解定理計算 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)$。

　　Theorem 1 (Mutual information decomposition). If the conditional probability $p\left(\boldsymbol{h}_{i} \mid \boldsymbol{X}_{i}\right)$ is multiplicative, the global mutual information $I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)$ defined in Eq. (1) can be decomposed as a weighted sum of local MIs, namely,

　　　　$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\sum\limits _{j}^{i_{n}} w_{i j} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad\quad(2)$

　　其中：

- $x_{j}$ is the $j-th$ neighbor of node $i$　　
- $i_{n}$ is the number of all elements in $X_{i}$　　
- the weight $w_{i j}$ satisfies $\frac{1}{i_{n}} \leq w_{i j} \leq 1$ for each $j$

　　為了證明 Theorem 1 ，我們首先引入了兩個 lemmas 和一個 definition。

　　Lemma 1. For any random variables $X$, $Y$, and $Z$, we have

　　　　$I(X, Y ; Z) \quad \geq \quad I(X ; Z)\qquad \qquad (3)$

　　證明：

　　　　$\begin{array}{l}I(X, Y ; Z)-I(X ; Z)\\ =\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(X, Y) p(Z)} d X d Y d Z-\iint_{X Z} p(X, Z) \log \frac{p(X, Z)}{p(X) p(Z)} d X d Z\\ =\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(X, Y) p(Z)} d X d Y d Z-\iiint_{X Y Z} p(X, Y, Z) \log \frac{p(X, Z)}{p(X) p(Z)} d X d Y d Z\\ =\iiint_{XYZ} p(X, Y, Z) \log \frac{p(X, Y, Z)}{p(Y \mid X) p(X, Z)} d X d Y d Z\\ =\iiint_{XYZ} p(Y, Z \mid X) p(X) \log \frac{p(Y, Z \mid X)}{p(Y \mid X) p(Z \mid X)} d X d Y d Z\\ =I(Y ; Z \mid X) \geq 0 \end{array}$

　　因此，我們得到 $I(X,Y;Z) \ge I(X;Z)$。

　　Definition 1. The conditional probability $p\left(h \mid X_{1}, \cdots, X_{n}\right)$ is called multiplicative if it can be written as a product

　　　　$p\left(h \mid X_{1}, \cdots, X_{n}\right)=r_{1}\left(h, X_{1}\right) \cdots r_{n}\left(h, X_{n}\right)\quad\quad\quad\quad(4)$

　　其中 $r_1, · · · ,r_n$ 是 appropriate functions 。

　　Lemma 2. If $p\left(h \mid X_{1}, \cdots, X_{n}\right)$ is multiplicative, then we have

　　　　$I(X ; Z)+I(Y ; Z) \geq I(X, Y ; Z)\quad\quad\quad(5)$

　　現在來證明 Theorem 1 ：

　　根據 Lemma 1 ，對於任何一個 $j$ ：

　　　　$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{1}, \cdots, \boldsymbol{x}_{i_{n}}\right) \geq I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(6)$

　　這意味著：

　　　　$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right)=\sum\limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \geq \sum \limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(7)$

　　另一方面，根據 Lemma 2 ，我們得到：

　　　　$I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \leq \sum\limits I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad\quad(8)$

　　根據 $\text{Eq.7}$ 和 $\text{Eq.8}$ ：

　　　　$\sum\limits \frac{1}{i_{n}} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right) \leq I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) \leq \sum\limits I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)\quad\quad \quad(9)$

　　因為 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right) \geq 0$ ，必須存在權重 $\frac{1}{i_{n}} \leq w_{i j} \leq 1 $。當設定 $w_{i j}=I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{i}\right) / \sum I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)$ 時，我們將實現 $\text{Eq.2}$，同時確保 $\frac{1}{i_{n}} \leq w_{i j} \leq 1$，進而證明了定理1。

　　利用 Theorem 1 中的分解，可以通過 MINE 計算出 $\text{Eq.2}$ 的右側，因為鑑別器的輸入現在成了 $\left(\boldsymbol{h}_{i}, \boldsymbol{x}_{j}\right) $ 對，它們的大小總是保持不變 (即 $D^{\prime}-b y-D$) 。

　　此外，我們還可以調整權值，以反映輸入圖的同構變換。例如，如果 $ \boldsymbol{X}_{i} $ 只包含節點 $ i $ 的 $1-h o p $ 鄰居，則將所有權重設定為相同，將導致不同順序的輸入節點產生相同的 $\mathrm{MI}$。

　　儘管分解有一些好處，但很難表徵權值的確切值，因為它們與 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)$ 的值及其潛在的概率分佈有關。

　　一種簡單的方法是將所有權值設定為 $ \frac{1}{i_{n}} $ ，然後 $\text{Eq.2}$ 右邊的最大化等價於最大化 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{X}_{j}\right)$ 的下界，通過它，真正的 FMI 在一定程度上最大化。

3.2 Topology-Aware Mutual Information

　　受 Theorem 1 分解的啟發，我們試圖從圖的另一個方面（即拓撲檢視）構造可訓練的權值，從而使 $w_{ij}$ 的值更靈活，並捕獲圖的固有屬性

　　Definition 2 (Graphical mutuak mutual information). The MI between the hidden vector $\boldsymbol{h}_{i}$ and its support graph $\mathcal{G}_{i}=\left(\boldsymbol{X}_{i}, \boldsymbol{A}_{i}\right)$ is defined as

　　　　$\begin{array}{c} I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right):=\sum\limits _{j}^{i_{n}} w_{i j} I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)+I\left(w_{i j} ; \boldsymbol{a}_{i j}\right), \\ \text { with } w_{i j}=\sigma\left(\boldsymbol{h}_{i}^{\mathrm{T}} \boldsymbol{h}_{j}\right) \end{array}$

　　其中 $\boldsymbol{x}_{j}$ 和 $i_{n}$ 的定義與 Theorem 1 相同，$\boldsymbol{a}_{i j}$ 是鄰接矩陣 $A$ 中的邊權值，$\sigma(\cdot)$ 是一個 $ \text{sigmoid}$ 函式

　　$Eq.10$ 中第一項的 $w_{i j}$ 衡量了一個區域性 $\text{MI}$ 對全域性 $\text{MI}$ 的貢獻，通過 $\boldsymbol{h}_{i}$ 和 $\boldsymbol{h}_{j}$ 之間的相似性來實現 $I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)$ 貢獻 (即 $w_{i j}= \sigma\left(\boldsymbol{h}_{i}^{T} \boldsymbol{h}_{j}\right)$ ) 。同時，$I\left(w_{i j} ; \boldsymbol{a}_{i j}\right. )$ 最大化 $w_{i j} $ 和輸入圖的邊權重 $\boldsymbol{a}_{i j}$ 之間的 $\text{MI}$ ，以強制 $w_{i j} $ 符合拓撲關係。

　　從這個意義上講，貢獻的程度將與拓撲結構中的接近度一致，這通常被認為是，如果節點 $j$“更接近”節點 $i$，$w_{i j}$ 可能更大，否則 $w_{i j}$ 可能更小。該策略彌補了 FMI 只關注節點特徵的缺陷，並使區域性 $\text{MI}$ 自適應地對全域性 $\text{MI}$ 有貢獻。

　　請注意，$Eq.10$ 適用於一般情況。對於某些特定的情況下，我們可以稍微修改以提高效率。例如，當處理未加權圖時，我們可以用負交叉熵損失替換第二個$\text{MI}$ 項 $I\left(w_{i j} ; \boldsymbol{\alpha}_{i j}\right)$。最小化交叉熵也有助於 $\text{MI}$ 最大化，並提供了一個更有效的計算。

　　$Eq.10$ 有幾點好處。首先，這種 $\text{MI}$ 對輸入圖的同構變換是不變的。其次，它在計算上是可行的，因為右邊的每個分量都可以用 MINE 來估計。更重要的是，GMI 在捕獲原始輸入資訊方面比DGI更強大，因為它在細粒度節點級別的隱藏向量和節點和邊緣的輸入特徵方面具有顯式的相關性。

3.3 Maximization of GMI

　　藉助於 MINE ，我們最大化 Eq.10 的第二項。在 MINE 中使用聯合分佈和邊緣乘積之間的 KL 散度的 Donsker Varadhan(DV) 表示來估計 $\text{MI}$ 的下界。

　　由於更關注的是最大化 $\text{MI}$，而不是獲得其特定值，所以可以使用其他非 KL 散度的替代方案，如 Jensen-Shannon MI estimator (JSD) 和 Noise-Contrastive estimator (infoNCE) 來代替它。

　　本文為了有效性和效率，選用 JSD 估計器，因為 infoNCE 估計器對負面取樣策略（負面樣本的數量）敏感，因此可能成為固定可用記憶體的大規模資料集的瓶頸。相反，JSD 估計器對負抽樣策略的不敏感性及其在許多工上的良好效能使其更適合我們的任務。

　　接著作者通過下式計算 Eq.10 中的第一項：

　　　　$I\left(\boldsymbol{h}_{i} ; \boldsymbol{x}_{j}\right)=-s p\left(-\mathcal{D}_{w}\left(\boldsymbol{h}_{i}, \boldsymbol{x}_{j}\right)\right)-\mathbb{E}_{\tilde{\mathbb{P}}}\left[\operatorname{sp}\left(\mathcal{D}_{w}\left(\boldsymbol{h}_{i}, \boldsymbol{x}_{j}^{\prime}\right)\right)\right]\quad\quad\quad(11)$

　　其中

- $\mathcal{D}_{w}: D \times D^{\prime} \rightarrow \mathbb{R}$ 是由引數為 $w$ 的神經網路構建的判別器；
- $x^{\prime}{ }_{j}$ 是來自 $\tilde{\mathbb{P}}=\mathbb{P}$ 的負樣本；
- $s p(x)=\log \left(1+e^{x}\right)$，即soft-plus function；

　　正如 3.2 節中提到的，我們通過計算交叉熵而不是使用 JSD 估計器使 $I\left(w_{i j} ; \boldsymbol{\alpha}_{i j}\right)$ 最大化，因為我們在實驗中處理的圖是未加權的。

　　　　$I\left(w_{i j} ; \boldsymbol{a}_{i j}\right)=\boldsymbol{a}_{i j} \log w_{i j}+\left(1-\boldsymbol{a}_{i j}\right) \log \left(1-w_{i j}\right)\quad\quad\quad(12)$

　　通過最大化所有隱藏向量 $H$ 上的 Eq.11 和 Eq.12 ，得到了 GMI 優化的完整目標函式$I\left(\boldsymbol{h}_{i} ; \mathcal{G}_{i}\right)$ 。此外，我們還可以進一步新增權衡引數來平衡 Eq.11 和 Eq.12 的靈活性。

4 Experiments

　　在本節中，通過評估 GMI 在兩個常見任務上的效能：節點分類（transductive and inductive）和鏈路預測。GMI 和另外兩種無監督演算法( EP-B 和 DGI )之間的另一個相對公平的比較進一步證明了其有效性。我們還提供了 t-SNE 圖的視覺化，並分析了模型深度的影響。

4.1 Datasets

4.2 Classification

4.3 Effectiveness of Objective Function

4.4 Link Prediction

4.5 Visualization

論文參考型別

1~最大化神經網路輸入與輸出的互資訊
　　InfoMax [3]
　　ICA [1, 21]
2~解決 1 無法計算高維連續變數之間的互資訊
　　Mutual Information Neural Estimation (MINE) [2] 及其涉及到的 JS 散度 [30]
3~基於隨機遊走和分解的傳統方法
　　[6, 15, 33, 34, 39]
4~圖上監督表示學習方法
　　[7, 9, 25, 40, 48]
5~圖上無監督表示學習方法
　　[11, 16, 41]
　　GraphSAGE [16]
　　DGI [41] ：無法儲存輸入圖的精細資訊。

論文解讀（GMI）《Graph Representation Learning via Graphical Mutual Information Maximization》