論文解讀(MCGC)《Multi-view Contrastive Graph Clustering》

發表於2022-04-11

論文資訊

論文標題:Multi-view Contrastive Graph Clustering
論文作者:Erlin Pan、Zhao Kang
論文來源:2021, NeurIPS
論文地址:download
論文程式碼:download

1 介紹

   本文貢獻:

    • 使用Graph Filter 過濾了高階噪聲資料;  
    • 提出 Graph Contrastive Regularizer 改善了檢視的質量;  

2 方法

2.1 定義

  將多檢視圖資料定義為 $G=\left\{\mathcal{V}, E_{1}, \ldots, E_{V}, X^{1}, \ldots, X^{V}\right\}$,其中 $\mathcal{V}$ 表示 $N$ 個節點的集合,$e_{i j} \in E_{v}$ 表示第 $v$ 個檢視中節點 $i$ 與節點 $j $ 的關係,$X^{v}=\left\{x_{1}^{v}, \ldots, x_{N}^{v}\right\}^{\top}$ 為特徵矩陣。鄰接矩陣 $\left\{\widetilde{A}^{v}\right\}_{v=1}^{V}$ 描述了初始圖的結構。$\left\{D^{v}\right\}_{v=1}^{V}$ 表示不同檢視中的度矩陣。歸一化鄰接矩陣 $A^{v}=\left(D^{v}\right)^{-\frac{1}{2}}\left(\widetilde{A}^{v}+I\right)\left(D^{v}\right)^{-\frac{1}{2}}$ 和相應的圖拉普拉斯運算元 $L^{v}=I-A^{v}$。

2.2 Graph Filtering

  $N$ 個節點的特徵矩陣 $ X \in \mathbb{R}^{N \times d}$ 可以被視為 $ d$ 個 $N$ 維圖訊號。根據底層圖,一個自然訊號在附近的節點上應該是平滑的。平滑訊號 $H$ 可以通過解決以下優化問題來實現:

    $\underset{\text{H}}{\text{min}}\; \|H-X\|_{F}^{2}+s \operatorname{Tr}\left(\mathrm{H}^{\top} \mathrm{LH}\right)\quad\quad\quad(1) $

  其中,$s>0$是一個平衡引數,$L $ 是與 $X$ 相關的拉普拉斯矩陣,可以通過對 $\text{Eq.1}$ 求導得到 $\text{H}$:

    $H=(I+s L)^{-1} X\quad\quad\quad(2)$

  為了避免求矩陣轉置,我們用它的一階泰勒級數展開式來近似 $\text{H}$,即 $H=(I−sL)X$。一般來說,第 $m$ 階圖濾波可以寫成

    $H=(I-s L)^{m} X\quad\quad\quad(3)$

  其中 $m$ 是一個非負整數。圖濾波可以在保留圖的幾何特徵的同時,過濾出不良的高頻噪聲。

推導過程

  $\|H-X\|_{F}^{2}+\operatorname{sTR}\left(H^{\top} L H\right)$

  $\Leftrightarrow  $ 

  $\begin{aligned}&(H-X)^{\top}(H-X)+S\left(H^{\top} L H\right) \\=&\left(H^{\top}-X^{\top}\right)(H-X)+S H^{\top} L H \\=& H^{\top} H-H^{\top} X-X^{\top} H+X^{\top} X+S H^{\top} L H\end{aligned}$

  此外

      ${\large \begin{array}{l} &\frac{\partial\left(H^{\top} H-H^{\top} X-X^{\top} H+X^{\top} X+s H^{\top} L H\right)}{\partial H} \\&= \frac{\partial H^{\top} H}{\partial H}-\frac{\partial H^{\top} X}{\partial H}-\frac{\partial X^{\top} H}{\partial H}+\frac{\partial X^{\top} X}{\partial H}+\frac{\partial s H^{\top} L H}{\partial H} \\&= 2 H-X-X+s\left(L H+L^{\top} H\right) \\&= 2 H-2 X+s L H  +s L^{\top} H \\&=\left(2+S L+S L^{\top}\right) H-2 X\end{array}} $

  $\begin{array}{l}2(I+S L) H=2 X \\H=(I+S L)^{-1} X\end{array}$

回憶:

  $\|A\|_{F}=\sqrt{\sum\limits_{i}^{n} \sum\limits _{j}^{n} a_{i j}^{2}}$

  泰勒展開 $(I-A)^{-1}=I+A+A^{2}+A^{3}+\cdots(\rho(A)<1)$

2.3 Graph Learning

  為從平滑的表示 $H$ 中學習到一個優化的圖 $S$,這裡考慮使用自表達模型( self-expression)【每個資料點都可以用其他資料樣本的線性組合來表示】去表示:

    $\underset{S}{\text{min}}\left\|H^{\top}-H^{\top} S\right\|_{F}^{2}+\alpha\|S\|_{F}^{2}\quad\quad\quad(4)$

  其中,$S \in \mathbb{R}^{N \times N}$ 為圖矩陣,$\alpha>0$ 為權衡引數。

  第一項是重構損失,第二項是作為一個正則化項,以避免平凡解。許多其他的正則化器也可以被應用,如核範數,稀疏$\ell_{1}$範數。

  為了處理多檢視資料,我們可以為每個檢視計算一個平滑表示的 $H^{v}$,並擴充套件 $\text{Eq.4 }$ 通過引入一個加權因子來區分不同觀點的貢獻。

    $\underset{S, \lambda^{v}}{\text{min}} \sum\limits _{v=1}^{V} \lambda^{v}\left(\left\|H^{v \top}-H^{v \top} S\right\|_{F}^{2}+\alpha\|S\|_{F}^{2}\right)+\sum\limits_{v=1}^{V}\left(\lambda^{v}\right)^{\gamma}\quad\quad\quad(5)$

  其中,$\lambda^{v} $ 為第 $v$ 個檢視的權值,$\gamma$ 為平滑引數。$\text{Eq.5 }$ 學習了一個由所有檢視共享的 Consensus Graph $S$。為了學習更有鑑別性的 $S$,我們在本文中引入了一種新的正則化器。

2.4 Graph Contrastive Regularizer

  本文選擇將每個節點及其 $k$ 個近鄰(KNN)視為正對。然後,我們通過在圖矩陣 $S$ 上應用對比正則化器,而不是使用節點特徵,從而在圖級上進行對比學習。它可以表示為

    $\mathcal{J}=\sum\limits_{i=1}^{N} \sum\limits _{j \in \mathbb{N}_{i}^{v}}-{\large \log \frac{\exp \left(S_{i j}\right)}{\sum\limits_{p \neq i}^{N} \exp \left(S_{i p}\right)}} \quad\quad\quad(6)$

  其中,$\mathbb{N}_{i}^{v}$ 表示第 $v$ 個檢視中節點 $i$ 的 $k$ 個最近鄰。

  $\text{Eq.6 }$是將鄰居拉近,並將非鄰居分開,以提高圖的質量。最終,我們提出的多視點對比圖聚類(MCGC)模型可以表述為:

    $\underset{S, \lambda^{v}}{\text{min}} \sum\limits_{v=1}^{V} \lambda^{v}\left(\left\|H^{v \top}-H^{v \top} S\right\|_{F}^{2}+\alpha \sum\limits_{i=1}^{N} \sum\limits_{j \in \mathbb{N}_{i}^{v}}-{\large \log \frac{\exp \left(S_{i j}\right)}{\sum\limits_{p \neq i}^{N} \exp \left(S_{i p}\right)}} \right)+\sum\limits_{v=1}^{V}\left(\lambda^{v}\right)^{\gamma}\quad\quad\quad(7)$

  與現有的多檢視聚類方法不同,MCGC從多檢視屬性和多個結構圖中探索整體資訊。此外,它從平滑訊號而不是原始資料構建一個 consensus graph。

2.5 Optimization

  在等式中有兩組 $\text{Eq.7 }$,很難直接解決它們。為了優化它們,我們採用了一種交替優化策略,即每次更新一個變數並固定所有其他變數。

  固定 $\lambda^{v}$ , 優化 $S$:

  因為 $\lambda^{v}$  是固定的,所以我們的目標函式可以表示為:

    $\underset{S}{\text{min}}  \sum\limits_{v=1}^{V} \lambda^{v}\left(\left\|H^{v \top}-H^{v \top} S\right\|_{F}^{2}+\alpha \sum\limits_{i=1}^{N} \sum\limits_{j \in \mathbb{N}_{i}^{v}}-\log {\large \frac{\exp \left(S_{i j}\right)}{\sum\limits_{p \neq i}^{N} \exp \left(S_{i p}\right)}} \right)\quad\quad\quad(8)$

  $S$ 可以用梯度下降法簡單地求解,它在 $t$ 時代的導數可以記為

    $\nabla_{1}^{(\mathrm{t})}+\alpha \nabla_{2}^{(t)}\quad\quad\quad(9)$

  第一個項是:

    $\nabla_{1}^{(\mathrm{t})}=2 \sum\limits _{v=1}^{V} \lambda^{v}\left(-\left[H^{v} H^{v \top}\right]_{i j}+\left[H^{v} H^{v \top} S^{(t-1)}\right]_{i j}\right)\quad\quad\quad(10)$

  定義:$K^{(\mathrm{t}-1)}=\sum_{p \neq i}^{N} \exp \left(S_{i p}^{(t-1)}\right)$ ,$n$為所有鄰居的數目,因此第二項為:

    $\nabla_{2}^{(t)}=\left\{\begin{array}{l}\sum\limits_{v=1}^{V} \lambda^{v}\left(-1+{\large \frac{n \exp \left(S_{i j}^{(t-1)}\right)}{K^{(t-1)}}} \right), \text { if } j \text { in } \mathbb{N}_{i}^{v} \\\sum\limits_{v=1}^{V} \lambda^{v}\left({\large \frac{n \exp \left(S_{i j}^{(t-1)}\right)}{K^{(t-1)}}} \right), \text { otherwise }\end{array}\right.\quad\quad\quad(11)$

  然後採用 Adam 優化策略來更新 $S$。為了提高收斂速度,我們用 $S^{*}$ 初始化 $S$,其中 $S^{*}$ 是 $\text{Eq.5 }$ 的解。

  固定 $S$ , 優化 $\lambda^{v} $:

  對於每個檢視 $v$,我們定義了 $M^{v}=\left\|H^{v \top}-H^{v \top} S\right\|_{F}^{2}+\alpha \mathcal{J}$。然後,將損失函式簡化為

    $\underset{\lambda^{v}}{\text{min}} \sum\limits _{v=1}^{V} \lambda^{v} M^{v}+\sum\limits_{v}^{V}\left(\lambda^{v}\right)^{\gamma}\quad\quad\quad(12)$

  通過將它的導數設為零,我們得到

    $\lambda^{v}=\left(\frac{-M^{v}}{\gamma}\right)^{\frac{1}{\gamma-1}}\quad\quad\quad(13)$

  我們交替優化 $S$ 和 $\lambda^{v}$ 直到收斂。完整的過程在 Algorithm 1 中概述。

  

  最後一步使用K-Means進行聚類。

3 Experiments

3.1 Datasets and Metrics

  資料集

  

  評價指標

    • Accuracy (ACC)  
    • normalized Mutual Information (NMI)  
    • Adjusted Rand Index (ARI)  
    • F1 score  

3.2 Results

  

  

  結果分析

    • 與單檢視的 GAE 方法相比,MCGC 在ACM、DBLP、IMDB上的ACC改善效果分別提高了 9%、4%、19%以上,雖然使用深度神經網路,但它不能探索檢視的互補性;
    • 與 PMNE 相比,ACC、NMI、ARI、F1 平均提高了 16%、20%、20%、12% ;
    • 對 LINE、RMSC、SwMC的改善更為顯著。這可以歸因於在MCGC中對特徵資訊和結構資訊的探索;
    • 儘管O2MA、O2MAC和MAGCN都捕獲了屬性和結構資訊,但MCGC的效能仍然大大優於它們。具體來說,MCGC 在 ACC、NMI 和 F1 上的 O2MAC 效能平均分別提高了近 6%、9%、11%。關於 MAGCN,所有指標的改進都超過了20%。與基於學習的對比方法相比,我們的改進也令人印象深刻;
    • 特別是,與 COMPLETER 相比,在 Amazon 資料集上的改進超過了 30%,這說明 MCGC 受益於圖結構資訊。MCGC 還將 MVGRL 的效能提高了20%。通過比較 MCGC 和 MCGC* 的結果,我們可以看到選擇鄰居的策略確實對效能有影響;

4 Ablation Study

4.1 The Effect of Contrastive Loss

  

  驗證 Contrastive regularizer 的有效性:

    • 在所有資料集上,沒有對比損失導致效能急劇下降。MCGC 在 DBLP、ACM、IMDB、Amazon 資料集上的 ACC 效能分別提高了16%、8%、5% 和 12% ;

4.2 The Effect of Multi-View Learning

  為了演示多檢視學習的效果,本文評估了以下單檢視模型的效能

    $\underset{S}{\text{min}}\left\|H^{\top}-H^{\top} S\right\|_{F}^{2}+\alpha \sum\limits _{i=1}^{N} \sum\limits_{j \in \mathbb{N}_{i}}-\log \frac{\exp \left(S_{i j}\right)}{\sum_{p \neq i}^{N} \exp \left(S_{i p}\right)}\quad\quad\quad(14)$

  

  結果分析:

    • 可以觀察到,當合並所有檢視時,總是能達到最佳的效能。此外,不同檢視的效能有很大差異。這就證明了在 $\text{Eq.7}$ 中使用 ${\lambda}^{v}$ 的必要性。因此,探索多視角資訊的互補性是有益的;

4.3 The Effect of Graph Filtering

  為了理解 graph filtering 的貢獻,本文進行了另一組實驗。如果沒有 graph filtering ,我們的目標函式就變成了

    $\underset{S, \lambda^{\nu}}{\text{min}} \sum\limits_{v=1}^{V} \lambda^{v}\left(\left\|X^{v \top}-X^{v \top} S\right\|_{F}^{2}+\alpha \sum\limits_{i=1}^{N} \sum\limits_{j \in \mathbb{N}_{i}^{v}}-\log {\large \frac{\exp \left(S_{i j}\right)}{\sum\limits_{p \neq i}^{N} \exp \left(S_{i p}\right)}} \right)+\sum\limits_{v=1}^{V}\left(\lambda^{v}\right)^{\gamma}\quad\quad\quad(15)$

  

  結果分析:

  將這個模型表示為 MCGC-。MCGC、ACC對ACM、DBLP、IMDB的ACC分別下降了 0.8%、1.3% 和 0.8%。這表明圖濾波對我們的模型有積極的影響。對於其他指標,MCGC在大多數情況下也優於 MCGC-。

5 Conclusion

  在本文中,我們提出了一種新的方法(MCGC),不僅利用屬性內容,而且利用圖的結構資訊。特別地,引入 Graph Filtering 來濾除噪聲分量,並採用對比正則化器來進一步提高學習圖的質量。

 

 

 

 

相關論文

2018—IJCAI——Scalable Multiplex Network Embedding

2020—PMLR——A simple framework for contrastive learning of visual representations

2020—IJCAI——Multi-view attribute graph convolution networks for clustering

2019—IJCAI ——Multi-view spectral clustering network  

2021—AAAI——Contrastive clustering

 

相關文章