論文解讀(NGCF)《LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation》

發表於2022-05-14

論文資訊

論文標題:LightGCN: Simplifying and Powering Graph Convolution Network for Recommendation
論文作者:Xiangnan He, Kuan Deng, Xiang Wang, Yan Li, Yongdong Zhang, Meng Wang
論文來源:2020, SIGIR
論文地址:download 
論文程式碼:download 

1 Introduction

  捨棄了GCN的特徵變換(feature transformation)和非線性啟用(nonlinear activation),只保留了領域聚合(neighborhood aggregation )。 

2 Prelimiaries

  NGCF 利用使用者項互動圖來傳播嵌入如下:

    $\begin{array}{l}\mathbf{e}_{u}^{(k+1)}=\sigma\left(\mathbf{W}_{1} \mathbf{e}_{u}^{(k)}+\sum\limits _{i \in \mathcal{N}_{u}} \frac{1}{\sqrt{\left|\mathcal{N}_{u} \| \mathcal{N}_{i}\right|}}\left(\mathbf{W}_{1} \mathbf{e}_{i}^{(k)}+\mathbf{W}_{2}\left(\mathbf{e}_{i}^{(k)} \odot \mathbf{e}_{u}^{(k)}\right)\right)\right) \\\mathbf{e}_{i}^{(k+1)}=\sigma\left(\mathbf{W}_{1} \mathbf{e}_{i}^{(k)}+\sum\limits _{u \in \mathcal{N}_{i}} \frac{1}{\sqrt{\left|\mathcal{N}_{u} \| \mathcal{N}_{i}\right|}}\left(\mathbf{W}_{1} \mathbf{e}_{u}^{(k)}+\mathbf{W}_{2}\left(\mathbf{e}_{u}^{(k)} \odot \mathbf{e}_{i}^{(k)}\right)\right)\right)\end{array}$

  其中

    • $\mathbf{e}_{u}^{(k)}$ 和 $\mathbf{e}_{i}^{(k)}$ 分別使用者 $u$ 和物品 $i$ 在第 $k$ 層的嵌入;
    • $\sigma$ 代表著非線性啟用函式;
    • $\mathcal{N}_{u}$ 代表著和使用者 $u$ 相關聯的物品;
    • $\mathcal{N}_{i} $ 代表著和物品 $i$ 相關聯的使用者;
    • $\mathbf{W}_{1}$ 和 $\mathbf{W}_{2}$ 代表著各層的權重矩陣;
    • $\left(\mathbf{e}_{u}^{(0)}, \mathbf{e}_{u}^{(1)}, \ldots, \mathbf{e}_{u}^{(L)}\right)$ 代表著各層的使用者嵌入;
    • $\left(\mathbf{e}_{i}^{(0)}, \mathbf{e}_{i}^{(1)}, \ldots, \mathbf{e}_{i}^{(L)}\right) $ 代表著各層的物品嵌入;

  接下來,對比不使用特徵轉換(feature transformation)和非線性啟用函式(non-linear activation function):

    • $NGCF-f$, which removes the feature transformation matrices $\mathbf{W}_{1}$ and $\mathbf{W}_{2}$ .
    • $NGCF-n$, which removes the non-linear activation function $\sigma $.
    • $NGCF-fn$, which removes both the feature transformation matrices and non-linear activation function.

  實驗:

  

  

3 Method

3.1 LightGCN

  它迭代地進行圖卷積,即將鄰居的特徵聚合為目標節點的新表示。這種鄰域聚合可以抽象為:

    $\mathbf{e}_{u}^{(k+1)}=\mathrm{AGG}\left(\mathbf{e}_{u}^{(k)},\left\{\mathbf{e}_{i}^{(k)}: i \in \mathcal{N}_{u}\right\}\right) \quad\quad\quad(2)$

3.1.1 Light Graph Convolution (LGC)

  在 LightGCN中,我們採用簡單加權和聚合器,不再使用特徵變換和非線性啟用。LightGCN 中的圖卷積運算定義為:

    ${\large \begin{array}{l}\mathbf{e}_{u}^{(k+1)}=\sum\limits _{i \in \mathcal{N}_{u}} \frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|} \sqrt{\left|\mathcal{N}_{i}\right|}} \mathbf{e}_{i}^{(k)} \\\mathbf{e}_{i}^{(k+1)}=\sum\limits _{u \in \mathcal{N}_{i}} \frac{1}{\sqrt{\left|\mathcal{N}_{i}\right|} \sqrt{\left|\mathcal{N}_{u}\right|}} \mathbf{e}_{u}^{(k)}\end{array}} \quad\quad\quad(3)$

  其中,$\frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|} \sqrt{\left|\mathcal{N}_{i}\right|}}$  是對稱標準化項。

  LGC 只聚合已連線的鄰居,而不整合目標節點本身(即自連線)。與 GCN 不同,後者通常聚合擴充套件的鄰居,需要特別處理自連線。

3.1.2 Layer Combination and Model Prediction

  只有可訓練的模型引數是在第 $0$ 層的嵌入,即所有使用者的 $\mathbf{e}_{u}^{(0)}$ 和所有物品的 $\mathbf{e}_{i}^{(0)}$。當給出它們時,可以通過 $\text{Eq.3}$ 中定義的 LGC 來計算更高層的嵌入。在 $K$ 層 LGC 之後,我們進一步結合在每一層獲得的嵌入,形成最終的使用者和物品表示:

    $\mathbf{e}_{u}=\sum\limits _{k=0}^{K} \alpha_{k} \mathbf{e}_{u}^{(k)} ; \quad \mathbf{e}_{i}=\sum\limits _{k=0}^{K} \alpha_{k} \mathbf{e}_{i}^{(k)} \quad\quad\quad(4)$

  其中,$\alpha_{k} \geq 0$ 表示第 $k$ 層嵌入在構成最終嵌入中的重要性。它可以被視為一個需要手動調整的超引數,也可以作為一個需要自動優化的模型引數。在實驗中,發現將 $\alpha_{k}$ 均勻設定為 $1 /(K+1) $ 總體上具有良好的效能。

  因此,我們不設計特殊的元件來優化 $\alpha_{k}$,以避免不必要地使 LightGCN 複雜化,並保持其簡單性。我們執行圖層組合來得到最終表示的原因有三方面。

    • 隨著層數增加,將導致過平滑的問題,故不能簡單使用最後一層的嵌入;  
    • 不同層捕獲了不同的語義資訊;    
    • 將不同層的嵌入加權和,可以捕獲與圖卷積自連線的效果;  

  模型預測被定義為使用者和專案最終表示的內積:

    $\hat{y}_{u i}=\mathbf{e}_{u}^{T} \mathbf{e}_{i}  \quad\quad\quad(5)$

3.1.3 Matrix Form

  使用者-物品互動矩陣(user-item interaction matrix)定義為:$\mathbf{R} \in \mathbb{R}^{M \times N}$,其中 $M$ 和 $N$ 分別代表著使用者、物品的數量。如果 $R_{u i}= 1$ ,則說明使用者 $u$ 和物品 $i$ 有互動,否則為 $0$。因此,得到使用者-物品圖(user-item graph)的鄰接矩陣:

    $\mathbf{A}=\left(\begin{array}{cc}\mathbf{0} & \mathbf{R} \\\mathbf{R}^{T} & \mathbf{0}\end{array}\right)   \quad\quad\quad(6)$

  第 $0$ 層的嵌入矩陣 $\mathbf{E}^{(0)} \in \mathbb{R}^{(M+N) \times T}$,$T$ 代表著嵌入的維度,可以得到 LGC 的矩陣等價形式為:

    $\mathbf{E}^{(k+1)}=\left(\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}}\right) \mathbf{E}^{(k)} \quad\quad\quad(7)$

  其中 $\mathbf{D}$ 是一個 $(M+N) \times(M+N)$ 對角矩陣,其中每個元 $D_{i i}$ 表示鄰接矩陣 $A$ 的第 $i$ 行向量中的非零項的數目。最後,我們得到了用於模型預測的最終嵌入矩陣為:

    $\begin{aligned}\mathbf{E} &=\alpha_{0} \mathbf{E}^{(0)}+\alpha_{1} \mathbf{E}^{(1)}+\alpha_{2} \mathbf{E}^{(2)}+\ldots+\alpha_{K} \mathbf{E}^{(K)} \\&=\alpha_{0} \mathbf{E}^{(0)}+\alpha_{1} \tilde{\mathbf{A}} \mathbf{E}^{(0)}+\alpha_{2} \tilde{\mathbf{A}}^{2} \mathbf{E}^{(0)}+\ldots+\alpha_{K} \tilde{\mathbf{A}}^{K} \mathbf{E}^{(0)}\end{aligned}  \quad\quad\quad(8)$

  其中,$ \tilde{\mathbf{A}}=\mathbf{D}^{-\frac{1}{2}} \mathbf{A} \mathbf{D}^{-\frac{1}{2}}$ 代表著對稱標準化矩陣。

3.2 Model Analysis

3.2.1 Relation with SGCN

  在[40]中,作者論證了GCN在節點分類中的不必要的複雜性,並提出了SGCN,它通過去除非線性並將多個權值矩陣壓縮為一個權值矩陣來簡化GCN。SGCN中的圖卷積定義為:

    $\mathbf{E}^{(k+1)}=(\mathbf{D}+\mathbf{I})^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I})(\mathbf{D}+\mathbf{I})^{-\frac{1}{2}} \mathbf{E}^{(k)}  \quad\quad\quad(9)$

  其中,$\mathbf{I} \in \mathbb{R}^{(M+N) \times(M+N)}$ 是一個單位矩陣,它被新增在 $A$ 上以包含自連線。在接下來的分析中,為了簡單起見,我們省略了 $ (\mathbf{D}+\mathbf{I})^{-\frac{1}{2}} $ 項,因為它只重新縮放嵌入。在SGCN中,在最後一層獲得的嵌入用於下游預測任務,可以表示為:【牛頓二項展開式】

    $\begin{aligned}\mathbf{E}^{(K)} &=(\mathbf{A}+\mathbf{I}) \mathbf{E}^{(K-1)}=(\mathbf{A}+\mathbf{I})^{K} \mathbf{E}^{(0)} \\&=\left(\begin{array}{c}K \\0\end{array}\right) \mathbf{E}^{(0)}+\left(\begin{array}{c}K \\1\end{array}\right) \mathbf{A} \mathbf{E}^{(0)}+\left(\begin{array}{c}K \\2\end{array}\right) \mathbf{A}^{2} \mathbf{E}^{(0)}+\ldots+\left(\begin{array}{c}K \\K\end{array}\right) \mathbf{A}^{K \mathbf{E}^{(0)}}\end{aligned}    \quad\quad\quad(10)$

  上述推導表明,在 $A$ 中插入自連線並在其上傳播嵌入,本質上等同於在每個LGC層上傳播的嵌入的加權和。

3.2.2 Relation with APPNP

  在工作[24]中,作者將 GCN 與Personalized PageRank[15] 聯絡起來,提出了一種名為 APPNP 的 GCN 變體,它可以遠端傳播而不會有過度平滑的風險。受個性化 PageRank 中的傳送設計的啟發,APPNP 補充了每個傳播層的起始特徵(即第 $0$ 層嵌入),這可以平衡保持區域性性的需要(即保持靠近根節點以緩解過度平滑)和利用來自一個大鄰域的資訊。在APPNP中的傳播層被定義為:

    $\mathbf{E}^{(k+1)}=\beta \mathbf{E}^{(0)}+(1-\beta) \tilde{\mathbf{A}} \mathbf{E}^{(k)}   \quad\quad\quad(11)$

  其中 $\beta$ 是控制傳播中控制起始特徵保留的傳送概率。$\tilde{\mathbf{A}} $ 為歸一化鄰接矩陣。在APPNP中,最後一層用於最終的預測,即:

    $\begin{aligned}\mathbf{E}^{(K)} &=\beta \mathbf{E}^{(0)}+(1-\beta) \tilde{\mathbf{A}} \mathbf{E}^{(K-1)} \\&=\beta \mathbf{E}^{(0)}+\beta(1-\beta) \tilde{\mathbf{A}} \mathbf{E}^{(0)}+(1-\beta)^{2} \tilde{\mathbf{A}}^{2} \mathbf{E}^{(K-2)} \\&=\beta \mathbf{E}^{(0)}+\beta(1-\beta) \tilde{\mathbf{A}} \mathbf{E}^{(0)}+\beta(1-\beta)^{2} \tilde{\mathbf{A}}^{2} \mathbf{E}^{(0)}+\ldots+(1-\beta)^{K} \tilde{\mathbf{A}}^{K} \mathbf{E}^{(0)}\end{aligned}   \quad\quad\quad(12)$

  結合 $\text{Eq.8}$,我們可以看到,通過相應地設定 $\alpha_{k}$,LightGCN可以完全恢復APPNP使用的預測嵌入。因此,LightGCN共享了APPNP在對抗過平滑方面的優勢——通過正確地設定 $\alpha$,我們允許使用一個大的 $K$ 來進行具有可控過平滑的遠端建模。另一個小的區別是,APPNP將自連線新增到鄰接矩陣中。然而,正如我們之前所展示的,由於不同層的加權和,這是多餘的。

3.2.3 Second-Order Embedding Smoothness

  由於LightGCN 的線性性質,我們可以更深入地瞭解它是如何平滑嵌入的。在這裡,我們分析了一個 $2$ 層的 LightGCN 來證明其合理性。以使用者方面為例,直觀地說,二階平滑在互動物品上有重疊的使用者。更具體地說,我們有:

    $\mathbf{e}_{u}^{(2)}=\sum\limits _{i \in \mathcal{N}_{u}} \frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|} \sqrt{\left|\mathcal{N}_{i}\right|}} \mathbf{e}_{i}^{(1)}=\sum\limits _{i \in \mathcal{N}_{u}} \frac{1}{\left|\mathcal{N}_{i}\right|} \sum\limits _{v \in \mathcal{N}_{i}} \frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|} \sqrt{\left|\mathcal{N}_{v}\right|}} \mathbf{e}_{v}^{(0)}     \quad\quad\quad(13)$

  我們可以看到,如果另一個使用者 $v$ 與目標使用者 $u$ 有協同互動,那麼 $v$ 在 $u$ 上的平滑強度可以用係數(否則為0)來衡量:

    $c_{v->u}=\frac{1}{\sqrt{\left|\mathcal{N}_{u}\right|} \sqrt{\left|\mathcal{N}_{v}\right|}} \sum\limits _{i \in \mathcal{N}_{u} \cap \mathcal{N}_{v}} \frac{1}{\left|\mathcal{N}_{i}\right|}    \quad\quad\quad(14)$

  這個係數是相當可解釋的:二階鄰域 $v$ 對 $u$ 的影響由 1)共互動物品的數量越多越大;2)共互動物品的受歡迎程度越低(即使用者個性化偏好越明顯)越大;3) $v$ 的活動越少,越活躍越大。這種可解釋性很好地滿足了CF在測量使用者相似度時的假設,並證明了LightGCN的合理性。

3.3 Model Training

  LightGCN的可訓練引數只是第 $0$ 層的嵌入 $\Theta=\left\{\mathbf{E}^{(0)}\right\}$。我們採用 Bayesian Personalized Ranking (BPR)損失,一種成對的損失,鼓勵對觀察到的條目的預測高於未觀察到的對應項:

    $L_{B P R}=-\sum\limits _{u=1}^{M} \sum\limits _{i \in \mathcal{N}_{u}} \sum\limits _{j \notin \mathcal{N}_{u}} \ln \sigma\left(\hat{y}_{u i}-\hat{y}_{u j}\right)+\lambda\left\|\mathbf{E}^{(0)}\right\|^{2}    \quad\quad\quad(15)$

4 Experiments

資料集

  

對比實驗

  

5 Conclusion

  在這項工作中,我們提出了不必要的複雜設計,並進行了實證研究來證明這一論點。我們提出了LightGCN,它由兩個基本元件組成:光圖卷積和層組合。在光圖卷積中,我們放棄了特徵變換和非線性啟用——GCN 中的兩種標準操作,但不可避免地增加了訓練的難度。在層組合中,我們將一個節點的最終嵌入作為其嵌入對所有層的加權和,證明了它包含了自連線的影響,有助於控制過平滑。我們進行了實驗來證明LightGCN在簡單方面的優點:更容易被訓練,更好的泛化能力,更有效。

 

相關文章