論文解讀《Deep Attention-guided Graph Clustering with Dual Self-supervision》

發表於2022-05-15

論文資訊

論文標題:Deep Attention-guided Graph Clustering with Dual Self-supervision
論文作者:Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou
論文來源:2022, arXiv
論文地址:download 
論文程式碼:download 

1 Introduction

  當前考慮拓撲結構資訊和語義資訊的深度聚類方法存在的問題:

    • 將 DAE 和 GCN 提取到的特徵重要性同等看待;  
    • 忽略了不同層次的多尺度資訊;  
    • 沒有充分利用從 cluster 中的可用資訊;  

2 Method

  總體框架:

  

  組成部分:

    • a heterogeneity-wise fusion (HWF) module  
    • a scale-wise fusion (SWF) module  
    • a distribution-wise fusion (DWF) module  
    • a soft self-supervision (SSS) strategy  
    • a hard self-supervision (HSS) strategy  

  由於聚類任務沒有真實標籤作為監督資訊,所以採用 Student’s t-distribution $Q$ 用來度量特徵 $\mathbf{h}_{i}$ 和其質心 $\boldsymbol{\mu}_{j}$ 的相似性:

    ${\large q_{i, j}=\frac{\left(1+\left\|\mathbf{h}_{i}-\boldsymbol{\mu}_{j}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}}{\sum\limits _{j^{\prime}}\left(1+\left\|\mathbf{h}_{i}-\boldsymbol{\mu}_{j^{\prime}}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}} }  \quad\quad\quad(1)$

  為了進一步提高置信度,求目標分佈 $B$:

    ${\large b_{i, j}=\frac{q_{i, j}^{2} / \sum\limits _{i} q_{i, j}}{\sum\limits _{j}^{\prime} q_{i, j}^{2} / \sum\limits _{i} q_{i, j}^{\prime}}}    $

  然後最小化兩個分佈之間的距離:

    $\min K L(\mathbf{B}, \mathbf{Q})=\sum\limits _{i} \sum\limits _{j} b_{i, j} \log \frac{b_{i, j}}{q_{i, j}}  \quad\quad\quad(2)$

2.1 (HWF)Heterogeneity-wise Fusion module

  深度自動編碼器(DAE)和圖卷積網路(GCN)可以分別提取節點內容特徵和拓撲結構特徵。然而,以往的研究將從DAE和GCN中提取的特徵的重要性等同起來,這在一定程度上是不合理的。為此,如 Figure 2 的左邊界所示,我們提出了一個異構融合(HWF)模組來自適應地整合DAE和GCN特徵,以學習區分特徵嵌入。 

  

  利用深度自編碼器(DAE)提取潛在表示,重構損失如下:

    $\begin{array}{l}\mathcal{L}_{R}=\|\mathrm{X}-\hat{\mathrm{X}}\|_{F}^{2} \\\text { s.t. } \quad\left\{\mathrm{H}_{i}=\phi\left(\mathrm{W}_{i}^{\mathrm{e}} \mathrm{H}_{i-1}+\mathrm{b}_{i}^{\mathrm{e}}\right)\right. \\\left.\hat{\mathrm{H}}_{i}=\phi\left(\mathrm{W}_{i}^{d} \hat{\mathrm{H}}_{i-1}+\mathrm{b}_{i}^{d}\right), i=1, \cdots, l\right\}\end{array}\quad \quad \quad (3)$

  其中:

    • $\mathrm{X} \in \mathbb{R}^{n \times d}$ 代表了原始資料(raw data);  
    • $\hat{\mathrm{X}} \in \mathbb{R}^{n \times d}$ 代表了重構資料( reconstructed data);  
    • $\mathrm{H}_{i} \in \mathbb{R}^{n \times d_{i}}$ 代表了 Encoder 第 $i$ 層的輸出;  
    • $\hat{\mathrm{H}}_{i} \in \mathbb{R}^{n \times \hat{d}_{i}}$ 代表了 Decoder 第 $i$ 層的輸出;  
    • $\phi(\cdot)$ 代表了啟用函式,如 Tanh, ReLU ;    
    • $W _{i}^{e}$ 和 $b _{i}^{e} $ 代表了 Encoder 第 $i$ 層的權重引數和偏置項;  
    • $ \mathrm{W}_{i}^{d}$ 和 $\mathrm{b}_{i}^{d}$ 代表了 Dncoder 第 $i$ 層的權重引數和偏置項;  
    • $ \hat{\mathrm{H}}_{l}$ 代表了重構後的 $\hat{\mathrm{X}}$ ;  
    • $Z_{i} \in \mathbb{R}^{n \times d_{i}}$ 代表了 GCN 從第 $i$ 層學到的特徵;  
    • $\mathrm{Z}_{0}$ 和 $\mathrm{H}_{0} $ 代表原始資料 $\mathrm{X} $ ;  

  學習相應的注意力係數:

    • 將  $\mathrm{Z}_{i}$  和  $\mathrm{H}_{i}$  先進行拼接;
    • 將上述拼接的 $ \left[\mathrm{Z}_{i} \| \mathrm{H}_{i}\right] \in \mathbb{R}^{n \times 2 d_{i}}$  ,進行全連線操作;  
    • 將上述結果使用啟用函式 LeakyReLU ;  
    • 最後再使用 softmax function 和 $\ell_{2}$  normalization;  

  可以公式化為 :

    $\mathrm{M}_{i}=\ell_{2}\left(\operatorname{softmax}\left(\left(\text { LeakyReLU }\left(\left[\mathrm{Z}_{i} \| \mathrm{H}_{i}\right] \mathrm{W}_{i}^{a}\right)\right)\right)\right)\quad \quad\quad(4)$

  其中:

    • $\mathrm{M}_{i}=\left[\mathrm{m}_{i, 1} \| \mathrm{m}_{i, 2}\right] \in \mathbb{R}^{n \times 2}$ 是 attention coefficient matrix  ,且 每項大於 0;
    • $\mathrm{m}_{i, 1}$,$ \mathrm{~m}_{i, 2}$ 是衡量 $\mathrm{Z}_{i}$、$\mathrm{H}_{i}$ 重要性的權重向量;

  融合第 $i$ 層的 GCN 的特徵 $Z_{i}$ 和  AE 的特徵  $ \mathrm{H}_{i} $ :

    $\mathrm{Z}_{i}^{\prime}=\left(\mathrm{m}_{i, 1} 1_{i}\right) \odot \mathrm{Z}_{i}+\left(\mathrm{m}_{i, 2} 1_{i}\right) \odot \mathrm{H}_{i}\quad \quad \quad (5)$

  其中:

    • $1_{i} \in \mathbb{R}^{1 \times d_{i}}$ 代表著全 $1$ 向量;
    • $ '\odot'$ 代表著  Hadamard product  ;

  將上述生成的  $Z_{i}^{\prime} \in   \mathbb{R}^{n \times d_{i}}$  當作第 $i+1$ 層 GCN 的輸入,獲得 $\mathrm{Z}_{i+1}$  :

    $\mathrm{Z}_{i+1}=\text { LeakyReLU }\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}_{i}^{\prime} \mathrm{W}_{i}\right)\quad \quad (6$

  其中

    • GCN 原始模型中的鄰接矩陣 $A$ 變形為 $ D^{-\frac{1}{2}}(A+  I)  \mathrm{D}^{-\frac{1}{2}}$ ;
    • $\mathrm{I} \in \mathbb{R}^{n \times n}$ ;

2.2 (SWF)Scale-wise Fusion

  將  multi-scale features $Z_{i}$  拼接在一起。

    $\mathrm{Z}^{\prime}=\left[\mathrm{Z}_{1}\|\cdots\| \mathrm{Z}_{i}\|\cdots\| \mathrm{Z}_{l} \| \mathrm{Z}_{l+1}\right]$

  其中:

    • $\mathrm{Z}_{l+1}=\mathrm{H}_{l} \in   \mathbb{R}^{n \times d_{l}}$  表示  $\mathrm{Z}_{l+1}$  的資訊只來自自編碼器。

  將上述生成的 $\mathrm{Z}^{\prime}$ 放入全連線網路,並使用  $\text { softmax- } \ell_{2}$  標準化:

    $\mathbf{U}=\Upsilon_{A}\left(\Xi_{j=1}^{l+1} \mathbf{Z}_{j} \mathbf{W}^{s}\right)  \quad \quad\quad(7)$

  即:

    $\mathrm{U}=\ell_{2}\left(\operatorname{softmax}\left(\operatorname{LeakyReLU}\left(\left[\mathrm{Z}_{1}\|\cdots\| \mathrm{Z}_{i}\|\cdots\| \mathrm{Z}_{l} \| \mathrm{Z}_{l+1}\right] \mathrm{W}^{s}\right)\right)\right)  $

  其中:

    • $\mathrm{U}=\left[\mathrm{u}_{1}\|\cdots\| \mathrm{u}_{i}\|\cdots\| \mathrm{u}_{l} \| \mathrm{u}_{l+1}\right] \in \mathbb{R}^{n \times(l+1)}$  且每個數大於 $0$ ;
    • $u_{i}$  代表了  $\mathrm{Z}_{i}$  的  parallel attention coefficient ;

  為了進一步探究多尺度特徵,考慮在 attention 係數上施加一個相應的權重:

    $\mathbf{Z}^{\prime}=\Xi_{j=1}^{l+1}\left(\left(\mathbf{u}_{j} \mathbf{1}_{j}\right) \odot \mathbf{Z}_{j}\right)    \quad \quad\quad(8)$

  即:

    $\mathrm{Z}^{\prime}= {\left[\left(\mathrm{u}_{1} 1_{1}\right) \odot \mathrm{Z}_{1}\|\cdots\|\left(\mathrm{u}_{i} 1_{i}\right) \odot \mathrm{Z}_{i}\|\cdots\|\left(\mathrm{u}_{l} 1_{l}\right) \odot \mathrm{Z}_{l} \|\right.} \left.\left(\mathrm{u}_{l+1} 1_{l+1}\right) \odot \mathrm{Z}_{l+1}\right]  $

  $ Z^{\prime}$ 將作為最終預測的輸入,預測輸出為 $Z \in \mathbb{R}^{n \times k} $ ,其中  $k$ 代表聚類數。 

    $\begin{array}{l}\mathrm{Z}=\operatorname{softmax}\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}^{\prime} \mathrm{W}\right) \\\text { s.t. } \quad \sum_{j=1}^{k} z_{i, j}=1, z_{i, j}>0\end{array}  \quad \quad\quad (9)$

2.3 (DWF)Distribution-wise Fusion

  

  分佈 $Z$ 和 $Q$ 分別由 $\text{Eq.9}$ 和 $\text{Eq.1}$ 得到,它們在表示資料的內在結構和聚類分配方面存在其優缺點。因此,同時考慮這兩種分佈能夠更好地利用潛在的鑑別資訊來提高效能。所以,我們提出了一種新的分佈級融合(DWF)模組來自適應地利用 $Z$ 和 $Q$ 來生成最終的聚類結果。Figure 3 顯示了整個體系結構。

    $\mathbf{V}=\left[\mathbf{v}_{1} \| \mathbf{v}_{2}\right]=\Upsilon_{A}([\mathbf{Z} \| \mathbf{Q}] \hat{\mathbf{W}}) \quad \quad\quad (10)$

  其中 $\mathbf{V} \in \mathbb{R}^{n \times 2}$ 為注意係數矩陣,$ \hat{\mathbf{W}}$ 是通過全連線層學習的權矩陣。

  然後,我們自適應地利用 $Z$ 和 $Q$ :

    $\mathbf{F}=\left(\mathbf{v}_{1} \mathbf{1}\right) \odot \mathbf{Z}+\left(\mathbf{v}_{2} \mathbf{1}\right) \odot \mathbf{Q} \quad \quad\quad (11)$

  其中,$1 \in \mathbb{R}^{1 \times k}$ 表示全 $1$ 向量。最後,我們應用 softmax 函式將 $F$ 歸一化

    $\mathbf{F}=\operatorname{softmax}(\mathbf{F}) \quad s.t. \quad \sum\limits _{j=1}^{k} f_{i, j}=1, \quad f_{i, j}>0  \quad \quad\quad (12)$

  當網路經過良好的訓練時,我們可以通過 $F$ 直接推斷出預測的聚類標籤,即:

    $y_{i}=\underset{j}{\arg \max } f_{i, j} \quad \text { s.t. } \quad j=1, \cdots, k   \quad \quad\quad (13)$

  其中,$y_{i} $ 是 $\mathbf{x}_{i}$ 的預測標籤。這樣,叢集結構就可以顯式地用 $F$ 來表示。

2.4 Dual Self-supervision

2.4.1 Soft Self-supervision 

  由於我們利用高置信度分配,利用軟賦值(即概率分佈 $Q$ 和 $Z$ )迭代地細化聚類,因此我們將這種監督策略稱為軟自監督(SSS)策略。具體地說,由於 $Z$ 通過 $HWF$ 和 $SWF$ 模組涉及豐富的資訊。

  我們首先通過平方 $z_{i, j}$,推匯出一個輔助分佈 $P$,即:

    ${\large p_{i, j}=\frac{z_{i, j}^{2} / \sum\limits _{i^{\prime}=1}^{n} z_{i^{\prime}, j}}{\sum\limits _{j^{\prime}=1}^{k} z_{i, j}^{2} / \sum\limits _{i^{\prime}=1}^{n} \sum\limits _{j^{\prime}=1}^{k} z_{i^{\prime}, j^{\prime}}}}   \quad \quad\quad (14)$

  然後,我們使用一個高度一致的分佈對齊來訓練我們的模型:

    $\begin{aligned}\mathcal{L}_{S} &=\lambda_{1} *(K L(\mathbf{P}, \mathbf{Z})+K L(\mathbf{P}, \mathbf{Q}))+\lambda_{2} * K L(\mathbf{Z}, \mathbf{Q}) \\&=\lambda_{1} \sum\limits _{i}^{n} \sum\limits _{j}^{k} p_{i, j} \log \frac{p_{i, j}^{2}}{z_{i, j} q_{i, j}}+\lambda_{2} \sum\limits _{i}^{n} \sum\limits _{j}^{k} z_{i, j} \log \frac{z_{i, j}}{q_{i, j}},\end{aligned} \quad \quad\quad (15)$

2.4.2 Hard Self-supervision

  為了進一步利用聚類分配中可用的鑑別資訊,我們引入了偽監督技術[45],並將偽標籤 $\hat{y}_{i}$ 設定為 $\hat{y}_{i}=y_{i}$。考慮到偽標籤可能包含許多不正確的標籤,我們通過一個較大的閾值 $r$ 來選擇高可信度的標籤作為監督資訊,即:

    $g_{i, j}=\left\{\begin{array}{ll}1 & \text { if } f_{i, j} \geq r \\0 & \text { otherwise }\end{array}\right.  \quad \quad\quad (16)$

  在實驗中,我們設定 $r=0.8$。然後,我們利用高置信度的偽標籤來監督網路訓練,即:

    $\mathcal{L}_{H}=\lambda_{3} \sum\limits _{i} \sum\limits _{j} g_{i, j} * \Upsilon_{C E}\left(f_{i, j}, \Upsilon_{O H}\left(\hat{y}_{i}\right)\right)   \quad \quad\quad (17)$

  其中,$\lambda_{3}>0$ 為權衡引數,$\Upsilon_{C E}$ 為交叉熵損失,$\Upsilon_{O H}$ 將 $ \hat{y}_{i}$ 轉換為 one-hot 形式。如 Figure 4 所示,偽標籤將叢集分配轉移到硬單熱編碼中,因此我們將其命名為硬自我監督(HSS)策略。

  組合 $\text{Eq.3}$,$\text{Eq.15}$ 和 $\text{Eq.17}$,我們的整體損失函式可以寫成

    $\mathcal{L}=\min _{\mathbf{F}}\left(\mathcal{L}_{R}+\mathcal{L}_{S}+\mathcal{L}_{H}\right)   \quad \quad\quad (18)$

  整個訓練過程如 Algorithm 1 所示:

   

3 Experiments

資料集

  

實驗補充

  對於非圖資料集(即 USPS、Reuters 和 HHAR)缺乏拓撲圖,使用了一種典型的圖構造方法來生成它們的圖資料。具體來說,我們首先利用餘弦距離來計算相似度矩陣 $S$,即:

    $\mathbf{S}=\frac{\mathbf{X} \mathbf{X}^{\top}}{\|\mathbf{X}\|_{F}\left\|\mathbf{X}^{\top}\right\|_{F}}    \quad \quad\quad (19)$ 

  式中,$\|\mathbf{X}\|_{F}=\sqrt{\sum_{i=1}^{n} \sum_{j=1}^{d}\left|x_{i, j}\right|^{2}}$ 和 $ \mathbf{X}^{\top}$ 分別表示 $F$ 範數和 $\mathbf{X}$ 的轉置運算。然後,我們保留每個樣本的 $top- \hat{k}$ 近鄰,以構造一個無向的 $\hat{k}$-近鄰(KNN)圖。所構造的 KNN 圖可以描述資料集的拓撲結構,因此被用作GCN輸入。

聚類結果

  

消融實驗

  

引數分析

  

4 Conclusion

  我們提出了一種新的深度嵌入聚類方法,同時增強了嵌入學習和聚類分配。具體來說,我們首先設計了異質性和尺度上的融合模組來自適應地學習判別表示。然後,我們利用分佈融合模組,通過基於注意力的機制實現聚類增強。最後,我們提出了一種具有庫回-萊布勒散度損失的軟自我監督策略和一種具有偽監督損失的硬自我監督策略來利用聚類分配中現有的鑑別資訊。定量和定性的實驗和分析表明,我們的方法始終優於最先進的方法。我們還提供了全面的消融研究來驗證我們的網路的有效性和優勢。今後,我們將研究先進的圖構造方法。

相關文章