論文解讀(DAGNN)《Towards Deeper Graph Neural Networks》

發表於2022-05-02

論文資訊 

論文標題:Towards Deeper Graph Neural Networks
論文作者:Meng Liu, Hongyang Gao, Shuiwang Ji
論文來源:2020, KDD
論文地址:download 
論文程式碼:download 

1 Introduction

問題引入:

  圖卷積是領域聚合的代表,這些鄰域聚合方法中的一層只考慮近鄰,當進一步深入以實現更大的接受域時,效能會下降,這種效能惡化歸因於過平滑問題( over-smoothing),即當感受域增大時,在傳播和更新過程中將不同標籤的節點的嵌入變得一樣。

問題解決:

  提出 Deep Adaptive Graph Neural Network (DAGNN) 當感受域增大時,來自適應的接收領域資訊。

2 Empircial and theoretical analysis of deep GNNs

  大多數流行的圖卷積操作遵循鄰域聚合(或訊息傳遞)的方式,通過傳播(propagating)相鄰節點的表示並隨後應用轉換來(transformation)學習節點表示。一般圖卷積的第 $l$ 層可以描述為:

    $\begin{aligned}a_{i}^{(\ell)} &=\operatorname{PROPAGATION}^{(\ell)}\left(\left\{x_{i}^{(\ell-1)},\left\{x_{j}^{(\ell-1)}\left\lfloor j \in \mathcal{N}_{i}\right\}\right\}\right)\right.\\\boldsymbol{x}_{i}^{(\ell)} &=\operatorname{TRANSFORMATION~}^{(\ell)}\left(a_{i}^{(\ell)}\right) .\end{aligned}\quad\quad\quad(1)$

  典型代表 GCN 的前向傳播過程可以表達為 :

    $\boldsymbol{X}^{(\ell)}=\sigma\left(\widehat{\boldsymbol{A}} \boldsymbol{X}^{(\ell-1)} W^{(\ell)}\right) \quad\quad\quad(2)$

2.1 Quantitative Metric for Smoothness

  在這裡,首先定義節點 $i$ 和節點 $j$ 的表示之間的歐氏距離的相似性度量:

    $D\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right)=\frac{1}{2}\left\|\frac{\boldsymbol{x}_{i}}{\left\|\boldsymbol{x}_{i}\right\|}-\frac{\boldsymbol{x}_{j}}{\left\|\boldsymbol{x}_{j}\right\|}\right\|  \quad\quad\quad(3)$

  注意:$D\left(\boldsymbol{x}_{i}, \boldsymbol{x}_{j}\right) \in [0,1]$ 。

   基於 $\text{Eq.3}$ 提出的節點 $i$  平滑度度量 $S M V_{i}$ :

    $S M V_{i}=\frac{1}{n-1} \sum\limits _{j \in V, j \neq i} D\left(x_{i}, x_{j}\right) \quad\quad\quad(4)$

  故圖 $G$ 的平滑性度量如下:

    $S M V_{G}=\frac{1}{n} \sum\limits _{i \in V} S M V_{i} \quad\quad\quad(4)$

  顯然,$S M V_{G}$ 和圖平滑性呈負相關。

2.2 Why Deeper GNNs Fail?

對比試驗:

  

  對於深度為 $0$ 的 GNN ,可認為是隻考慮了語義資訊,沒有考慮結構資訊的 MLP。從上圖觀察到測試精度隨著層數先增加後下降。

t-SNE 視覺化的結果:

  節點表示隨著層數的增加不斷趨於相似,當層數達到 $6$ 層時,節點表示已經很難分離。

  上述問題產生的原因:節點表示在大量的迭代中重複傳播,特別是對於具有稀疏連線邊的圖,因此,從理論上講,多次傳播迭代並不足以產生過度平滑。

  

  本文認為由於轉換和傳播的糾纏,損害了 GNNs 的效能。論點來源於:首先,他們之間的引數交織在一起,當感受域增大時,需要更多的引數。因此,訓練具有大量引數的深度GNN。這可能可以解釋為什麼 Figure 2 中多個GCN層的效能波動很大。其次,表示的轉換和傳播應該被視為兩個獨立的操作。

  從  Figure 2 和 Figure 1 所示 發現節點的類可以通過其初始特性完全預測,不使用任何圖形結構資訊,結果反而好。

  基於圖結構的傳播,在連線節點通常屬於同一類的情況下,使同一類中的節點表示相似,從而簡化分類任務。因此,表示轉換和傳播分別從特徵和結構兩個方面發揮著不同的作用。

  為了驗證上述論點,解耦了 $\text{Eq.2}$ 中的傳播和轉換 :

    $\begin{aligned}Z &=\operatorname{MLP}(X) \\X_{o u t} &=\operatorname{softmax}\left(\widehat{A}^{k} Z\right)\end{aligned} \quad\quad\quad (6)$

  其中

    • $Z \in \mathbb{R}^{n \times c}$ 表示由 MLP 網路從原始特徵矩陣轉換而來的新的特徵矩陣;
    • $c$ 為類數;

  變換後,應用  $k$  步傳播推匯出輸出特徵矩陣 $X_{\text {out }} \in \mathbb{R}^{n \times c}$,採用 $softmax$ 計算分類概率。在這項工作中,我們系統地分析了這個方案,並揭示了它可以幫助構建更深層次的模型,而不遭受效能下降。

  在 $\text{Eq.6}$ 中採用的不同層數表示的測試精度和平滑度度量值 Cora 上的結果如 Figure 4 所示

   

  在解決了特徵轉換和傳播的糾纏之後,更深層次的模型能夠利用更大的接受域而不影響效能退化。可以觀察到,過度平滑的問題在一個大的接受域開始受影響,如在Cora 資料集上 75 hop 時,才出現平滑度度量值大大下降,度量值接近 $0$。

  在實踐中,通常不需要一個非常大的接受域,因為在一個被連線的元件中,最大的最短路徑距離通常是一個可接受的小數字。因此,訓練訊號可以用少量的層傳播到整個圖中。具有 $2$ 個或 $3$ 個GCN層的圖神經網路通常具有競爭能力,這就證明了這一點。

2.3 Theoretical Analysis of Very Deep Models

  在本節對過平滑問題做一個嚴格推導。

  $\widehat{A}_{\oplus}=\widetilde{D}^{-1} \widetilde{A}$ 和 $\widehat{A}_{\odot}=\widetilde{D}^{-\frac{1}{2}} \widetilde{A} \widetilde{D}^{-\frac{1}{2}} $,是兩種常用的傳播機制。行平均歸一化 $\widehat{A}_{\oplus}$ 用於 GraphSAGE [9] 和 DGCNN [38],對稱的標準化 $\widehat{A}_{\odot}$ 用於 GCN 。下面,我們通過證明 $ \widehat{A}_{\oplus}^{k} $ 和 $\widehat{A}_{\odot}^{k}$ 在 $k$ 趨於無窮時的收斂性來描述過平滑問題。

  假設 $\boldsymbol{e}=[1,1, \cdots, 1] \in \mathbb{R}^{1 \times n}$ 是一個值全為 $1$ 的行向量,函式 $\Psi(\boldsymbol{x})=\frac{\boldsymbol{x}}{\operatorname{sum}(\boldsymbol{x})} $ 將向量規範化為和為 $1$,函式 $\Phi(\boldsymbol{x})=\frac{\boldsymbol{x}}{\|\boldsymbol{x}\|}$ 使一個向量標準化,使其大小為 $1$。

  THEOREM 3.1. Given a connected graph  $G$, $\lim _{k \rightarrow \infty} \widehat{A}_{\oplus}^{k}=\Pi_{\oplus}$ , where  $\Pi_{\oplus}$  is the matrix with all rows are  $\pi_{\oplus}$  and  $\pi_{\oplus}=\Psi(e \widetilde{D})$ .

  THEOREM 3.2. Given a connected graph  $G$, $\lim _{k \rightarrow \infty} \widehat{A}_{\odot}^{k}=\Pi_{\odot}$ , where  $\Pi_{\odot}=\Phi\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{e}^{T}\right)\left(\Phi\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{e}^{T}\right)\right)^{T} $.

  從上述兩個定理中,我們可以分別推匯出在無限深度模型中 $k$ 趨於無窮時 $\widehat{A}_{\oplus}^{k} $ 和 $\widehat{A}_{\odot}^{k} $ 的精確收斂值。因此,應用無限層迭代傳播資訊相當於利用一步 $\Pi_{\oplus}$  或  $\Pi_{\odot}$ 傳播特徵。$\Pi_{\oplus}$ 的行是相同的,$\Pi_{\odot}$ 的行與相應節點的度的平方根值成正比。因此,$\Pi_{\oplus}$  或  $\Pi_{\odot}$ 的行是線性不可分割的,利用它們作為傳播機制會產生難以區分的表示,從而導致過平滑問題。

  為了證明這兩個定理,我們首先引入以下兩個引理。這兩個引理的證明可以在附錄中找到A.5和A.6.

  Lemma 3.3. Given a graph $G$, $\lambda$ is an eigenvalue of $\widehat{\boldsymbol{A}}_{\oplus}$ with left eigenvector $\boldsymbol{v}_{l} \in \mathbb{R}^{1 \times n}$ and right eigenvector $\boldsymbol{v}_{r} \in \mathbb{R}^{n \times 1}$ if and only if $\lambda$ is an eigenvalue of $\widehat{\boldsymbol{A}}_{\odot}$ with left eigenvector $\boldsymbol{v}_{l} \widetilde{\mathbf{D}}^{-\frac{1}{2}} \in \mathbb{R}^{1 \times n}$ and right eigenvector $\widetilde{\boldsymbol{D}}^{\frac{1}{2}} \boldsymbol{v}_{r} \in \mathbb{R}^{n \times 1}$ .

  Lemma 3.4. Given a connected graph $G$, $\widehat{A}_{\oplus}$ and $\widehat{A}_{\odot}$ always have an eigenvalue $1$ with unique associated eigenvectors and all other eigenvalues $\lambda$ satisfy $|\lambda|<1$ . The left and right eigenvectors of $\widehat{\boldsymbol{A}}_{\oplus}$ associated with eigenvalue $1$ are $\boldsymbol{e} \widetilde{D} \in \mathbb{R}^{1 \times n}$ and $\boldsymbol{e}^{T} \in \mathbb{R}^{n \times 1} $, respectively. For $\widehat{\boldsymbol{A}}_{\odot}$ , they are $\boldsymbol{e} \widetilde{D}^{\frac{1}{2}} \in \mathbb{R}^{1 \times n}$ and $\widetilde{\boldsymbol{D}}^{\frac{1}{2}} \boldsymbol{e}^{T} \in \mathbb{R}^{n \times 1}$ .

  這兩個定理適用於圖神經網路中經常研究的連通圖。對於一個不連通的圖,這些定理也可以應用於它的每個連通元件,這意味著無限次應用這些傳播機制將在每個連通元件中產生難以區分的節點表示。

  上述定理表明,過平滑將使節點表示不可分割,並提供了常用傳播機制的精確收斂值。理論上,我們已經證明了在超平滑模型中是不可避免的。此外,收斂速度是我們在實踐中應該考慮的一個更重要的因素。在數學上,根據 $Eq.7$ 的說法,收斂速度依賴於除傳播矩陣的 $1$ 以外的其他特徵值,特別是第二大特徵值。直觀地說,傳播矩陣由相應圖的拓撲資訊決定的。這可能是我們在第2.2節中觀察到的稀疏連通圖只有在應用極深模型時,稀疏連線圖才會出現過度平滑的原因。

3 Method

  整體框架如下:

   

  該框架分解為:轉換(transformation)、 傳播(propagation)、自適應調整(adaptive adjustment)

  公式化:

    $\begin{array}{ll}Z=\operatorname{MLP}(\boldsymbol{X}) & \in \mathbb{R}^{n \times c} \\H_{\ell}=\widehat{A}^{\ell} Z, \ell=1,2, \cdots, k & \in \mathbb{R}^{n \times c} \\H=\operatorname{stack}\left(Z, H_{1}, \cdots, H_{k}\right) & \in \mathbb{R}^{n \times(k+1) \times c} \\S=\sigma(H s) & \in \mathbb{R}^{n \times(k+1) \times 1} \\\widetilde{S}=\operatorname{reshape}(S) & \in \mathbb{R}^{n \times 1 \times(k+1)} \\X_{\text {out }}=\operatorname{softmax}(\text { squeeze }(\widetilde{S} H)) & \in \mathbb{R}^{n \times c}\end{array}\quad\quad\quad(8)$

  其中

    • $c$ 是節點類的數量;
    • $Z \in \mathbb{R}^{n \times c}$ 是通過將 MLP 網路應用於原始特徵矩陣而推匯出的特徵矩陣;
    • $ \widehat{A}=\widetilde{D}^{-\frac{1}{2}} \widetilde{A}_{D}^{-\frac{1}{2}}$,其中 $\widetilde{A}=A+I$ 是一個表示模型深度的超引數;
    • $s \in \mathbb{R}^{c \times 1}$ 是一個可訓練的投影向量;
    • $\sigma(\cdot) $ 是一個啟用函式;

  $S=\sigma(H s)$ 利用這種自適應調整機制,DAGNN可以自適應地平衡來自每個節點的本地和全域性鄰域的資訊。顯然,轉換過程 $Z=\operatorname{MLP}(X)$ 和自適應調整過程 $S=\sigma(H s)$ 具有可訓練的引數,而在傳播過程 $H_{\ell}=\widehat{A}^{\ell} Z, \ell=1,2, \cdots, k$ 中沒有可訓練的引數,從而形成了一個引數高效的模型。

  在 DAGNN 中,最終的表示形式 $X_{\text {out }}$ 被用作最終的預測。因此,所有帶標籤的樣本的交叉熵損失都可以計算為

    $\mathcal{L}=-\sum\limits_{i \in V_{L}} \sum\limits_{p=1}^{c} Y_{[i, p]} \ln X_{o u t}[i, p]\quad\quad\quad(9)$

  其中:

    • $V_{L}$ 為標記節點的集合
    • $Y \in \mathbb{R}^{n \times c}$ 為標記指標矩陣
    • $c$ 是類的數量

4 Experiment 

  節點分類:

  

  

5 Conclusion

  在本文中,我們考慮了當前深度圖神經網路中存在的效能退化問題,並對深層圖神經網路提出了新的見解。我們首先對這個問題進行了系統的分析,並認為影響網路效能的關鍵因素是表示轉換和傳播的糾纏。我們建議將這兩個操作解耦,並證明了沒有這種糾纏的深度圖神經網路可以利用大的接受域,而不會受到效能下降的影響。此外,在建立非常深的模型時,我們對上述策略進行了理論分析,這可以作為對過度平滑問題的嚴格和溫和的描述。利用我們的見解,DAGNN被提出進行節點表示學習,並能夠從大的和自適應的接受域捕獲資訊。根據我們的綜合實驗,我們的DAGNN比目前最先進的模型取得了更好的效能,特別是在訓練樣本有限的情況下,這證明了它的優越性。

附錄

Lemma 3.3 證明:

  If $\lambda$ is an eigenvalue of $\widehat{A}_{\oplus}$ with left eigenvector $v_{l}$ and right eigenvector $\boldsymbol{v}_{r}$
  thus ,we have $\boldsymbol{v}_{l} \widehat{A}_{\oplus}=\lambda \boldsymbol{v}_{l} $ and $\widehat{A}_{\oplus} \boldsymbol{v}_{r}= \lambda \boldsymbol{v}_{r}$
  then, We right multiply the first eigenvalue equation with $\widetilde{D}^{-\frac{1}{2}}$ and left multiply the second eigenvalue equation with $\widetilde{D}^{\frac{1}{2}} $
  so, $\left(\boldsymbol{v}_{l} \widetilde{D}^{-\frac{1}{2}}\right) \widetilde{D}^{-\frac{1}{2}} \widetilde{A} \widetilde{D}^{-\frac{1}{2}}=\lambda\left(\boldsymbol{v}_{l} \widetilde{D}^{-\frac{1}{2}}\right)$ 、$\widetilde{D}^{-\frac{1}{2}} \widetilde{A}_{D}^{-\frac{1}{2}}\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{v}_{r}\right)= \lambda\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{v}_{r}\right)$
  hence, $\lambda$ is also an eigenvalue of $\widehat{A}_{\odot}$ with left eigenvector $\boldsymbol{v}_{l} \widetilde{D}^{-\frac{1}{2}}$ and right eigenvector $\widetilde{D}^{\frac{1}{2}} \boldsymbol{v}_{r} $.

Lemma 3.4 證明:

  首先,證明:“ $\widehat{A}_{\oplus}$ and $\widehat{A}_{\odot}$ always have an eigenvalue $1$ with unique associated eigenvectors and all other eigenvalues $\lambda$ satisfy $|\lambda|<1$ . ”

  We have  $\widehat{A}_{\oplus} \boldsymbol{e}^{T}=\boldsymbol{e}^{T}$  because each row of  $\widehat{A}_{\oplus}$  sums to $1$ .Therefore, 1 is an eigenvalue of  $\widehat{A}_{\oplus}$ .

  Suppose that there exists an eigenvalue  $\lambda$  that  $|\lambda|>1$  with eigenvector  $\boldsymbol{v}$ , then the length of the right side in  $\widehat{A}_{\oplus}^{k} \boldsymbol{v}=\lambda^{k} \boldsymbol{v}$  grows exponentially when  $k$  goes to infinity. This indicates that some entries of  $\widehat{A}_{\oplus}^{k}$  shoulde be larger than $1$ . Nevertheless, all entries of  $\widehat{A}_{\oplus}^{k}$  are positive and each row of  $\widehat{A}_{\oplus}^{k}$  always sums to $1$ , hence no entry of  $\widehat{A}_{\oplus}^{k}$  can be larger than $1$, which leads to contradiction. 

  From Lemma 3.3,  $\widehat{A}_{\oplus}$  and  $\widehat{A}_{\odot}$  have the same eigenvalues. Therefore,  $\widehat{A}_{\oplus}$  and  $\widehat{A}_{\odot}$  always have an eigenvalue $1$ and all eigenvalues  $\lambda$  satisfy  $|\lambda| \leq 1 $.

  其次,證明 “The left and right eigenvectors of $\widehat{\boldsymbol{A}}_{\oplus}$ associated with eigenvalue $1$ are $\boldsymbol{e} \widetilde{D} \in \mathbb{R}^{1 \times n}$ and $\boldsymbol{e}^{T} \in \mathbb{R}^{n \times 1} $, respectively. For $\widehat{\boldsymbol{A}}_{\odot}$ , they are $\boldsymbol{e} \widetilde{D}^{\frac{1}{2}} \in \mathbb{R}^{1 \times n}$ and $\widetilde{\boldsymbol{D}}^{\frac{1}{2}} \boldsymbol{e}^{T} \in \mathbb{R}^{n \times 1}$ .”

  We then compute the eigenvectors associated with eigenvalue $1$. Obviously, $\boldsymbol{e}^{T}$ is the right eigenvector of $\widehat{A}_{\oplus} $ associated with eigenvalue $1$ .

  Next, assume $\boldsymbol{v}_{l}$ is the left eigenvector of $\widehat{A}_{\oplus}$ associated with eigenvalue $1$ and thus $ \boldsymbol{v}_{l} \widetilde{D}^{-\frac{1}{2}}$ is the left eigenvector of $\widehat{A}_{\odot}$ associated with eigenvalue $1$ .

  We know $\widehat{A}_{\odot}$ is a symmetric matrix, whose left and right eigenvectors associated with the same eigenvalue are simply each other's transpose. Hence, we utilize $\boldsymbol{v}_{l} \widetilde{D}^{-\frac{1}{2}}=\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{e}^{T}\right)^{T}$ to obtain $\boldsymbol{v}_{l}=\boldsymbol{e} \widetilde{D}$ . After deriving the eigenvectors of $\widehat{A}_{\oplus}$ associated with eigenvalue $1 $, corresponding eigenvectors of $ \widehat{A}_{\odot}$ can be computed by Lemma 3.3.

Theorem 3.1 證明:

  $\widehat{A}_{\oplus}$  can be viewed as a transition matrix because all entries are nonnegative and each row sums to $1$ . The graph  $G$  can be further regarded as a Markov chain, whose transition matrix  $\boldsymbol{P}$  is  $\widehat{\boldsymbol{A}}_{\oplus}$ . This Markov chain is irreducible and aperiodic because the graph  $G$  is connected and self-loops are included in the connectivity. If a Markov chain is irreducible and aperiodic, then  $\lim _{k \rightarrow \infty} P^{k}=\Pi$ , where  $\Pi$  is the matrix with all rows equal to  $\pi$  and  $\pi$  can be computed by  $\pi P=\pi$ , s.t.  $\sum_{i} \pi_{i}=1$ . It is obvious that  $\pi$  is the unique left eigenvector of  $P$  and is normalized such that all entries sum to $1$ . Hence,  $\lim _{k \rightarrow \infty} \widehat{A}_{\oplus}^{k}=\Pi_{\oplus}$ , where  $\Pi_{\oplus}$  is the matrix with all rows are  $\pi_{\oplus}$  and  $\pi_{\oplus}=\Psi(e \widetilde{D})$  from Lemma  3.4 .

Theorem 3.2 證明:

  Although $\widehat{\boldsymbol{A}}_{\odot}$ cannot be processed as a transition matrix like $ \widehat{A}_{\oplus}$ , it is a symmetric matrix, which is diagonalizable. We have $\widehat{A}_{\odot}=Q \Lambda Q^{T}$ , where $Q$ is an orthogonal matrix whose columns are normalized eigenvectors of $\widehat{\boldsymbol{A}}_{\odot}$ and $\Lambda$ is the diagonal matrix whose diagonal entries are the eigenvalues. Then the $k -th$ power of $\widehat{\boldsymbol{A}}_{\odot}$ can be computed by

    $\widehat{A}_{\odot}^{k}=Q \Lambda Q^{T} \cdots Q \Lambda Q^{T}=Q \Lambda^{k} Q^{T}=\sum_{i=1}^{k} \lambda_{i}^{n} \boldsymbol{v}_{i} \boldsymbol{v}_{i}^{T} \quad\quad\quad\quad(7)$

  where $\boldsymbol{v}_{i}$ is the normalized right eigenvector associated with $\lambda_{i}$ . From Lemma 3.4, $\widehat{\boldsymbol{A}}_{\odot}$ always has an eigenvalue $1$ with unique associated eigenvectors and all other eigenvalues $ \lambda$ satisfy $|\lambda|<1$ . Hence, $\lim _{k \rightarrow \infty} \widehat{A}_{\odot}^{k}=\Phi\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{e}^{T}\right)\left(\Phi\left(\widetilde{D}^{\frac{1}{2}} \boldsymbol{e}^{T}\right)\right)^{T} $.

相關文章