Paper Information

Title：《Attention-driven Graph Clustering Network》
Authors：Zhihao Peng, Hui Liu, Yuheng Jia, Junhui Hou
Source：2021, ACM Multimedia
Other：1 Citations, 46 References
Paper：Download
Code：Download
Task： Deep Clustering、Graph Clustering、Graph Convolutional Network

Abstract

　　研究現狀：使用自動編碼器提取節點屬性特徵，利用圖卷積網路捕獲拓撲圖特徵。

　　缺點如下：

- 沒有一種靈活的機制融合 AE 和 GCN 產生的特徵表示。[ 說白了就是實驗效果不好 ]
- 忽略不同層 embedding 的多尺度資訊，進行後續的聚類分配導致聚類結果較差。[ 本文的一個優勢 ]

　　本文提出的方法：AGCN (無監督)

1 Introduction

　　AGCN 包括了兩個融合模組

- AGCN heterogeneity-wise fusion module (AGCN-H)：AGCN-H 自適應地合併了來自同一層的 GCN 特徵和 AE 特徵。
- AGCN scale-wise fusion module (AGCN-S)：AGCN-S 動態地連線了來自不同層的多尺度特徵。

　　上述兩個模組都是基於 attention-based 機制，動態度量相應特徵對後續特徵融合的重要性。

　　Basic definition：如 Table 1 所示：

2 Related work

　　圍繞著 AE 和 GCN 提出的聚類演算法。此類方法存在的缺點如下：

將拓撲圖特徵和節點屬性特徵的重要性同等看待。[一個是從 GCN 抽取，一個是從 AE 中抽取 ]
忽略了不同嵌入層的多尺度資訊。此外，圖結構特徵與節點屬性特徵之間的互動在一定程度上不夠。[ 融合機制不好 ]

3 Proposed method

　　本章節，先介紹 AGCN-H 和 AGCN-S ，然後介紹訓練過程。

　　AGCN 架構如下：

　　具體的兩個模組：

3.1 AGCN-H

　　AGCN-H 自適應地合併了來自同一層的 GCN 特徵和 AE 特徵。通過注意力係數學習，隨後進行加權特徵融合。

　　AGCN-H 的對應說明如 Figure 2(a) 所示，實現細節如下：

　　Step1：利用自編碼器提取潛在表示，重構損失如下：

　　　　$\begin{array}{l}\mathcal{L}_{R}=\|\mathrm{X}-\hat{\mathrm{X}}\|_{F}^{2} \\\text { s.t. } \quad\left\{\mathrm{H}_{i}=\phi\left(\mathrm{W}_{i}^{\mathrm{e}} \mathrm{H}_{i-1}+\mathrm{b}_{i}^{\mathrm{e}}\right)\right. \\\left.\hat{\mathrm{H}}_{i}=\phi\left(\mathrm{W}_{i}^{d} \hat{\mathrm{H}}_{i-1}+\mathrm{b}_{i}^{d}\right), i=1, \cdots, l\right\}\end{array}\quad \quad \quad (1)$

　　其中：

- $\mathrm{X} \in \mathbb{R}^{n \times d}$ 代表了原始資料（raw data）；
- $\hat{\mathrm{X}} \in \mathbb{R}^{n \times d}$ 代表了重構資料（ reconstructed data）；
- $\mathrm{H}_{i} \in \mathbb{R}^{n \times d_{i}}$ 代表了 Encoder 第 $i$ 層的輸出；
- $\hat{\mathrm{H}}_{i} \in \mathbb{R}^{n \times \hat{d}_{i}}$ 代表了 Decoder 第 $i$ 層的輸出；
- $\phi(\cdot)$ 代表了啟用函式，如 Tanh, ReLU ；
- $W _{i}^{e}$ 和 $b _{i}^{e} $ 代表了 Encoder 第 $i$ 層的權重引數和偏置項；
- $ \mathrm{W}_{i}^{d}$ 和 $\mathrm{b}_{i}^{d}$ 代表了 Dncoder 第 $i$ 層的權重引數和偏置項；
- $ \hat{\mathrm{H}}_{l}$ 代表了重構後的 $\hat{\mathrm{X}}$ ；
- $Z_{i} \in \mathbb{R}^{n \times d_{i}}$ 代表了 GCN 從第 $i$ 層學到的特徵；
- $\mathrm{Z}_{0}$ 和 $\mathrm{H}_{0} $ 代表原始資料 $\mathrm{X} $ ；

　　Step2：學習相應的注意力係數

1. 將 $\mathrm{Z}_{i}$ 和 $\mathrm{H}_{i}$ 先進行拼接，
2. 將上述拼接的 $ \left[\mathrm{Z}_{i} \| \mathrm{H}_{i}\right] \in \mathbb{R}^{n \times 2 d_{i}}$ ，進行全連線操作；
3. 將上述結果使用啟用函式 LeakyReLU ；
4. 最後再使用 softmax function 和 $\ell_{2}$ normalization；

　　Step2 可以公式化為：

　　　　$\mathrm{M}_{i}=\ell_{2}\left(\operatorname{softmax}\left(\left(\text { LeakyReLU }\left(\left[\mathrm{Z}_{i} \| \mathrm{H}_{i}\right] \mathrm{W}_{i}^{a}\right)\right)\right)\right)\quad \quad\quad(2)$

　　其中：

- $\mathrm{M}_{i}=\left[\mathrm{m}_{i, 1} \| \mathrm{m}_{i, 2}\right] \in \mathbb{R}^{n \times 2}$ 是 attention coefficient matrix ，且每項大於 0；
- $\mathrm{m}_{i, 1}$，$ \mathrm{~m}_{i, 2}$ 是衡量 $\mathrm{Z}_{i}$、$\mathrm{H}_{i}$ 重要性的權重向量；

　　Step 3：融合第 $i$ 層的 GCN 的特徵 $Z_{i}$ 和 AE 的特徵 $ \mathrm{H}_{i} $ ：

　　　　$\mathrm{Z}_{i}^{\prime}=\left(\mathrm{m}_{i, 1} 1_{i}\right) \odot \mathrm{Z}_{i}+\left(\mathrm{m}_{i, 2} 1_{i}\right) \odot \mathrm{H}_{i}\quad \quad \quad (3)$　

　　其中：

- $1_{i} \in \mathbb{R}^{1 \times d_{i}}$ 代表著全 $1$ 向量；
- $ '\odot'$ 代表著 Hadamard product ；

　　Step 4：將上述生成的 $Z_{i}^{\prime} \in \mathbb{R}^{n \times d_{i}}$ 當作第 $i+1$ 層 GCN 的輸入，獲得 $\mathrm{Z}_{i+1}$ ：

　　　　$\mathrm{Z}_{i+1}=\text { LeakyReLU }\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}_{i}^{\prime} \mathrm{W}_{i}\right)\quad \quad (4)$

　　其中

- GCN 原始模型中的鄰接矩陣 $A$ 變形為 $ D^{-\frac{1}{2}}(A+ I) \mathrm{D}^{-\frac{1}{2}}$ ；
- $\mathrm{I} \in \mathbb{R}^{n \times n}$ ；

3.2 AGCN-S

　　Step1：將 multi-scale features $Z_{i}$ 拼接在一起。

　　　　$\mathrm{Z}^{\prime}=\left[\mathrm{Z}_{1}\|\cdots\| \mathrm{Z}_{i}\|\cdots\| \mathrm{Z}_{l} \| \mathrm{Z}_{l+1}\right]\quad\quad \quad (5)$

　　其中：

- $\mathrm{Z}_{l+1}=\mathrm{H}_{l} \in \mathbb{R}^{n \times d_{l}}$ 表示 $\mathrm{Z}_{l+1}$ 的資訊只來自自編碼器。

　　Step2：將上述生成的 $\mathrm{Z}^{\prime}$ 放入全連線網路，並使用 $\text { softmax- } \ell_{2}$ 標準化：

　　　　$\mathrm{U}=\ell_{2}\left(\operatorname{softmax}\left(\operatorname{LeakyReLU}\left(\left[\mathrm{Z}_{1}\|\cdots\| \mathrm{Z}_{i}\|\cdots\| \mathrm{Z}_{l} \| \mathrm{Z}_{l+1}\right] \mathrm{W}^{s}\right)\right)\right)\quad \quad\quad(6)$

　　其中：

- $\mathrm{U}=\left[\mathrm{u}_{1}\|\cdots\| \mathrm{u}_{i}\|\cdots\| \mathrm{u}_{l} \| \mathrm{u}_{l+1}\right] \in \mathbb{R}^{n \times(l+1)}$ 且每個數大於 $0$ ；
- $u_{i}$ 代表了 $\mathrm{Z}_{i}$ 的 parallel attention coefficient ；

　　Step3：為了進一步探究多尺度特徵，考慮在 attention 係數上施加一個相應的權重：

　　　　$\mathrm{Z}^{\prime}= {\left[\left(\mathrm{u}_{1} 1_{1}\right) \odot \mathrm{Z}_{1}\|\cdots\|\left(\mathrm{u}_{i} 1_{i}\right) \odot \mathrm{Z}_{i}\|\cdots\|\left(\mathrm{u}_{l} 1_{l}\right) \odot \mathrm{Z}_{l} \|\right.} \left.\left(\mathrm{u}_{l+1} 1_{l+1}\right) \odot \mathrm{Z}_{l+1}\right]\quad \quad \quad (7)$

　　Step4 ：$ Z^{\prime}$ 將作為最終預測的輸入，預測輸出為 $Z \in \mathbb{R}^{n \times k} $ ，其中 $k$ 代表聚類數。

　　　　$\begin{array}{l}\mathrm{Z}=\operatorname{softmax}\left(\mathrm{D}^{-\frac{1}{2}}(\mathrm{~A}+\mathrm{I}) \mathrm{D}^{-\frac{1}{2}} \mathrm{Z}^{\prime} \mathrm{W}\right) \\\text { s.t. } \quad \sum_{j=1}^{k} z_{i, j}=1, z_{i, j}>0\end{array}\quad \quad\quad (8)$

　　預測輸出計算：

　　　　$\begin{array}{l} y_{i}=\underset{j}{\arg \max }\;\;\; \mathrm{z}_{i, j} \\ \text { s.t. } \quad j=1, \cdots, k \end{array}\quad\quad\quad (9)$

3.3 Training process

　　訓練過程包括兩個步驟：

　　Step 1：

　　使用 Student's t-distribution 作為核來度量 embedded point 和質心之間的相似度：

　　　　${\large q_{i, j}=\frac{\left(1+\left\|\mathrm{h}_{i}-\mu_{j}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}}{\sum_{j}\left(1+\left\|\mathrm{h}_{i}-\mu_{j}\right\|^{2} / \alpha\right)^{-\frac{\alpha+1}{2}}}}\quad\quad\quad(10) $

　　輔助目標分佈 $P$：

　　　　${\large p_{i, j}=\frac{q_{i, j}^{2} / \sum_{i} q_{i, j}}{\sum_{j}^{\prime} q_{i, j}^{2} / \sum_{i} q_{i, j}}} \quad\quad\quad(11)$

　　Step 2 ：

　　通過輔助目標分佈 $P$ 最小化組合特徵分佈 $Z$ 和自編碼器特徵分佈 $H$ 的 KL 散度。

　　　　$\begin{aligned}\mathcal{L}_{K L} &=\lambda_{1} * K L(\mathrm{P}, \mathrm{Z})+\lambda_{2} * K L(\mathrm{P}, \mathrm{H}) \\&=\lambda_{1} \sum\limits _{i} \sum\limits_{j} p_{i, j} \log \frac{p_{i, j}}{z_{i, j}}+\lambda_{2} \sum\limits_{i} \sum\limits_{j} p_{i, j} \log \frac{p_{i, j}}{q_{i, j}}\end{aligned}\quad\quad\quad(12)$

　　其中：

- $\lambda_{1}>0$ 和 $\lambda_{2}>0$ 是 trade-off parameters ；

　　聯合 Eq.1 和 Eq.12 得到總損失為：

　　　　$\mathcal{L}=\mathcal{L}_{R}+\mathcal{L}_{K L}\quad\quad\quad(13)$

　　AGCN 的訓練過程如 Algorithm 1 所示：

4 Experiments

4.1 Datasets

4.2 Results

4.3 Ablation Study

　　進行消融研究，以評估 AGCN-H 模組和 AGCN-S 模組的效率和有效性。此外，我們還分析了不同尺度特徵對聚類效能的影響。結果如 Table 4 所示：

Analysis of AGCN-H module

　　我們可以觀察到，AGCN-H 模組在一定程度上提高了效能【相較於沒有使用】。

Analysis of AGCN-S module

　　從兩個方面評價 AGCN-S module：

1. the multi-scale feature fusion (marked as AGCN-S[S]) ；
2. the attention-based scale-wise strategy (marked as AGCN-S[A]) ；

　　在第一個方面，通過比較表4中每個資料集的第二行和第三行的實驗結果，我們可以發現，在大多數情況下，多尺度特徵融合可以幫助獲得更好的聚類效能。唯一的例外是HHAR，其中間層的一些特徵受到過度平滑的問題，導致負傳播。

　　對於第二個方面，通過比較表4中第三行和第四行的每個資料集的結果，我們可以發現，考慮基於注意力的規模級策略能夠獲得最好的聚類效能。特別是在HHAR資料集中，考慮基於注意力的規模級策略可以充分應對上述效能下降的問題。這一現象被認為是由於基於注意力的尺度策略可以分配一些權值較小的負特徵，避免了負傳播。這曾經驗證了基於注意力的機制的有效性。

Analysis of different scale features.

　　為了評估不同尺度特徵對聚類效能的貢獻，我們在HHAR資料集上使用所提模型的不同層進行聚類。從 Figure 3 中，我們可以看出，與僅使用來自一層的特徵相比，動態融合來自不同層的特徵可以顯著提高聚類效能。

Analysis of different ?′.

　　由於鄰域 ?‘ 的數量顯著影響鄰接矩陣的質量，我們對非圖資料集，即USPS、HHAR和路透社進行了 ?’ 的引數分析。從 Figure 4 中，我們可以觀察到我們的模型對 ?‘ 不敏感。

4.4 Visualization

　　為了直觀地驗證我們的方法的有效性，我們繪製了我們方法的學習表示的二維t分佈隨機鄰域嵌入(t-SNE) 視覺化，以及圖5中HHAR資料集上比較最好的[24]視覺化。我們可以發現，通過我們的方法獲得的特徵表示對不同的簇具有最好的可分性，其中來自同一類的樣本自然地聚集在一起，不同組之間的差距是最明顯的一個。這一現象證實了，與最先進的方法相比，我們的方法產生了最有區別的表示。

5 Conclusion

　　在本文中，我們提出了一種新的深度聚類方法，即注意驅動圖聚類網路(AGCN)，它同時考慮了動態融合策略和多尺度特徵融合。通過利用兩個新的基於注意力的融合模組，AGCN能夠自適應地學習權重的異質性，以實現這些特徵融合。此外，在常用的基準資料集上進行的大量實驗，驗證了所提出的網路優於最先進的方法，特別是對於低質量的圖。

論文解讀（AGCN）《 Attention-driven Graph Clustering Network》