論文資訊
論文標題:Deep Graph Clustering via Dual Correlation Reduction
論文作者:Yue Liu, Wenxuan Tu, Sihang Zhou, Xinwang Liu, Linxuan Song, Xihong Yang, En Zhu
論文來源:2022, AAAI
論文地址:download
論文程式碼:download
1 介紹
表示崩塌問題:傾向於將所有資料對映到相同表示。
創新點:提出使用表示相關性來解決表示坍塌的問題。
2 方法
2.1 整體框架
該框架包括兩個模組:
-
- a graph distortion module;
- a dual information correlation reduction (DICR) module;
2.2 相關定義
$\widetilde{\mathbf{A}}=\mathbf{D}^{-1}(\mathbf{A}+\mathbf{I})\quad\quad \text{and} \quad\quad \widetilde{\mathbf{A}} \in \mathbb{R}^{N \times N} $
2.3 Graph Distortion Module
Feature Corruption:
首先從高斯分佈矩陣 $ \mathcal{N}(1,0.1)$ 取樣一個隨機噪聲矩陣 $\mathbf{N} \in \mathbb{R}^{N \times D} $,然後得到破壞後的屬性矩陣 $\widetilde{\mathbf{X}} \in \mathbb{R}^{N \times D}$ :
$\widetilde{\mathbf{X}}=\mathbf{X} \odot \mathbf{N} \quad\quad\quad(1)$
Edge Perturbation:
- similarity-based edge removing
根據表示的餘弦相似性先計算一個相似性矩陣,然後根據相似性矩陣種的值小於 $0.1$ 將其置 $0$ 來構造掩碼矩陣(masked matrix)$\mathbf{M} \in \mathbb{R}^{N \times N}$。對採用掩碼矩陣處理的鄰接矩陣做標準化:
$\mathbf{A}^{m}=\mathbf{D}^{-\frac{1}{2}}((\mathbf{A} \odot \mathbf{M})+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}\quad\quad\quad(2)$
- graph diffusion
$\mathbf{A}^{d}=\alpha\left(\mathbf{I}-(1-\alpha)\left(\mathbf{D}^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}\right)\right)^{-1}\quad\quad\quad(3)$
2.4 Dual Information Correlation Reduction
框架如下:
Sample-level Correlation Reduction
對於由 siamese graph encoder 學習到的雙檢視節點嵌入 $ \mathbf{Z}^{v_{1}} $ 和 $\mathbf{Z}^{v_{2}} $,我們首先通過以下方法計算交叉檢視樣本相關性矩陣$\mathbf{S}^{\mathcal{N}} \in \mathbb{R}^{N \times N}$ :
${\large \mathbf{S}_{i j}^{\mathcal{N}}=\frac{\left(\mathbf{Z}_{i}^{v_{1}}\right)\left(\mathbf{Z}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\mathbf{Z}_{i}^{v_{1}}\right\|\left\|\mathbf{Z}_{j}^{v_{2}}\right\|}} , \forall i, j \in[1, N]\quad\quad\quad(4)$
其中:$\mathbf{S}_{i j}^{\mathcal{N}} \in[-1,1] $ 表示第一個檢視中第 $i$ 個節點嵌入與第二個檢視中第 $j$ 個節點嵌入的餘弦相似度。
然後利用 $\mathbf{S}^{\mathcal{N}}$ 計算:
$\begin{aligned}\mathcal{L}_{N} &=\frac{1}{N^{2}} \sum\limits^{N}\left(\mathbf{S}^{\mathcal{N}}-\mathbf{I}\right)^{2} \\&=\frac{1}{N} \sum\limits_{i=1}^{N}\left(\mathbf{S}_{i i}^{\mathcal{N}}-1\right)^{2}+\frac{1}{N^{2}-N} \sum\limits_{i=1}^{N} \sum\limits_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{N}}\right)^{2}\end{aligned}\quad\quad\quad(5)$
$\mathcal{L}_{N}$ 的第一項鼓勵 $\mathbf{S}^{\mathcal{N}}$ 中的對角線元素等於 $1$,這表明希望兩個檢視的節點表示一致性高。第二項使 $\mathbf{S}^{\mathcal{N}}$ 中的非對角線元素等於 $0$,以最小化在兩個檢視中不同節點的嵌入之間的一致性。
Feature-level Correlation Reduction
首先,我們使用讀出函式 $\mathcal{R}(\cdot): \mathbb{R}^{d \times N} \rightarrow \mathbb{R}^{d \times K}$ 將雙檢視節點嵌入 $\mathbf{Z}^{v_{1}}$ 和 $\mathbf{Z}^{v_{2}} $ 分別投影到 $\widetilde{\mathbf{Z}}^{v_{1}} $ 和 $\widetilde{\mathbf{Z}}^{v_{2}} \in \mathbb{R}^{d \times K}$ 中,該過程公式化為:
$\widetilde{\mathbf{Z}}^{v_{k}}=\mathcal{R}\left(\left(\mathbf{Z}^{v_{k}}\right)^{\mathrm{T}}\right)\quad\quad\quad(6)$
同樣此時計算 $\widetilde{\mathbf{Z}}^{v_{1}} $ 和 $\widetilde{\mathbf{Z}}^{v_{2}}$ 之間的相似性:
${\large \mathbf{S}_{i j}^{\mathcal{F}}=\frac{\left(\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right)\left(\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right\|\left\|\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right\|}} , \forall i, j \in[1, d]\quad\quad\quad(7)$
然後利用 $\mathbf{S}^{\mathcal{F}}$ 計算:
$\begin{aligned}\mathcal{L}_{F} &=\frac{1}{d^{2}} \sum\limits^{\mathcal{S}}\left(\mathbf{S}^{\mathcal{F}}-\widetilde{\mathbf{I}}\right)^{2} \\&=\frac{1}{d^{2}} \sum\limits_{i=1}^{d}\left(\mathbf{S}_{i i}^{\mathcal{F}}-1\right)^{2}+\frac{1}{d^{2}-d} \sum\limits_{i=1}^{d} \sum\limits_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{F}}\right)^{2}\end{aligned}\quad\quad\quad(8)$
下一步將兩個檢視的表示合併得:
$\mathbf{Z}=\frac{1}{2}\left(\mathbf{Z}^{v_{1}}+\mathbf{Z}^{v_{2}}\right)\quad\quad\quad(9)$
上述所提出的 DICR 機制從樣本視角和特徵水平的角度都考慮了相關性的降低。這樣,可以過濾冗餘特徵,在潛在空間中保留更明顯的特徵,從而學習有意義的表示,避免崩潰,提高聚類效能。
為了緩解網路訓練過程中出現的過平滑現象,我們引入了一種傳播正則化方法,即:
$\mathcal{L}_{R}=J S D(\mathbf{Z}, \tilde{\mathbf{A}} \mathbf{Z})\quad\quad\quad(10)$
綜上 DICR ,模組的目標函式為:
$\mathcal{L}_{D I C R}=\mathcal{L}_{N}+\mathcal{L}_{F}+\gamma \mathcal{L}_{R}\quad\quad\quad(11)$
2.5 目標函式
總損失函式如下:
$\mathcal{L}=\mathcal{L}_{D I C R}+\mathcal{L}_{R E C}+\lambda \mathcal{L}_{K L}\quad\quad\quad(12)$
分別代表著 DICR的損失$\mathcal{L}_{D I C R}$、重建損失$\mathcal{L}_{R E C}$ 和聚類損失 $ \mathcal{L}_{K L}$。
後面兩個損失參考 DFCN。
【我本文認為它這個相關性的方法存在不合理之處,沒考慮鄰居節點,本文之所以有效,也許可能正是它後面加了一個自表達模型】
3 實驗
資料集:
基線實驗:
4 結論
在這項工作中,我們提出了一種新的自監督深度圖聚類網路,稱為雙相關減少網路(DCRN)。在我們的模型中,引入了一種精心設計的雙資訊相關減少機制來降低樣本和特徵水平上的資訊相關性。利用這種機制,可以過濾掉兩個檢視中潛在變數的冗餘資訊,可以很好地保留兩個檢視的更鑑別特徵。它在避免表示崩潰以實現更好的聚類方面起著重要的作用。在6個基準測試上的實驗結果證明了DCRN的優越性。