QGRL: Quaternion Graph Representation Learning for Heterogeneous Feature Data Clustering翻譯

silvan_happy發表於2024-12-08

QGRL: Quaternion Graph Representation Learning for Heterogeneous Feature Data Clustering

四元數圖表示學習在異構特徵資料聚類中的應用

Junyang Chen KDD 2024 廣東工業大學 通訊作者 張逸群

在譜聚類方法中引入四元數,四元數是一種擴充套件的複數系統,可以表示為 \(a+bi+cj+dk\),其中 \(a,b,c,d\) 是實數,而 \(i,j,k\)是四元數單位。高維表示能力:四元數提供了比實數或複數更多的維度,這允許模型在表示節點特徵時有更高的靈活性和表達能力;捕獲複雜關係:四元數的四個分量可以捕獲節點間的複雜關係,這在處理具有多重關係或多模態特性的網路時特別有用;魯棒性:四元數的額外維度可能使模型對於噪聲和異常值更加魯棒。但是,計算複雜度:四元數的運算比實數或複數更復雜,這可能導致更高的計算成本和更長的訓練時間;引數數量增加:由於四元數的四個分量,模型的引數數量可能會顯著增加,這可能導致過擬合的風險增加,並且需要更多的資料來訓練。

摘要

聚類是無監督資料分析中最常用的技術之一。由於真實的資料集通常由性質異構的數值和分類特徵組成,距離度量和特徵耦合的異構性阻礙了深度表示學習在聚類準確性上達到令人滿意的效果。目前,有監督的四元數表示學習(QRL:Quaternion Representation Learning)在高效學習原始資料內在派生的多檢視耦合特徵的資訊表示方面取得了顯著的成功。為了繼承QRL在無監督異構特徵表示學習的優勢,提出了一個以編碼器-解碼器方式工作的深度QRL模型。為確保異構特徵資料的隱式耦合能夠很好地透過表示學習進行表徵,設計了一種層次耦合編碼策略,將資料集轉換為屬性圖,作為QRL的輸入。還將聚類目標整合到模型訓練中,以促進表示和聚類的聯合最佳化。廣泛的實驗評估表明,所提出的四元數圖表示學習(QGRL)方法在聚類準確性和對各種由數值和分類特徵任意組合構成的資料集的魯棒性方面具有優越性。原始碼在 https://github.com/Juny-Chen/QGRL.git 上開放。

1引言

聚類是知識發現和資料探勘任務中最基礎的技術之一。它以無監督的方式探索資料物件的潛在分佈,這些分佈透過特徵值反映出來。隨著各種資料的爆炸性增長,包含數值和分類特徵的資料集非常常見,可以在醫療資料分析系統[24]、引用關聯式資料庫[6]中輕易找到。由於特徵的異構性,探索由數值和分類特徵共同反映的資料物件分佈是困難的。也就是說,異構的數值和分類特徵分別帶有定量和定性值,它們以完全不同的方式描述物件分佈[2, 39]。在異構特徵之間丟失關鍵的表示資訊肯定會降低表示學習的效率和下游聚類的準確性。

最近針對異構特徵資料聚類的方法試圖開發出更多考慮資料統計量和先驗知識的相似度度量,包括特徵值的出現頻率和語義序關係,特徵之間的相互依賴性等。與簡單的one-hot編碼[3]和Hamming距離[4]相比,這些方法僅僅考慮兩個值之間的匹配以進行相似性表示,更先進的度量[8, 20]透過考慮特徵內值的出現頻率來定義特徵的距離結構。大多數最近的工作[39, 41, 42, 47]進一步利用特徵間耦合的統計先驗來實現更有資訊量的分類資料表示。然而,這些方法基於特徵級相似度的量化,沒有考慮資料物件之間的關係,因此忽略了物件級相似度對聚類的影響。

由於深度圖卷積網路在揭示圖節點間關係方面的的強大能力,基於深度圖表示學習的聚類受到了廣泛關注,並取得了有競爭力的聚類效能[21, 35]。在圖表示學習領域,主流的圖卷積網路(GCN)[16]及其變體同時嵌入圖結構和特徵值,以獲得更全面的資料表示。後來,圖自編碼器(GAE)及其變體[15, 26, 35, 37]也專門為圖資料的無監督表示學習而開發。透過採用圖卷積層作為編碼器,它們顯著提高了圖資料聚類的效能。從理論上講,透過堆疊更多的圖卷積層可以進一步提高表示能力。然而,由於圖卷積層堆疊的常見過平滑效應,嵌入趨於同質化。因此,大多數圖表示學習模型被限制在淺層圖卷積網路中,阻礙了它們聚合節點關係超出區域性分佈。結果,它們未能產生抗噪聲的嵌入,並將在某種程度上影響聚類效能。

因此,在這項工作中,提出了一種新的圖表示學習方法,名為四元數圖表示學習(QGRL),用於異構特徵資料聚類。QGRL首先在異構特徵資料上構建圖,以捕獲隱式的值級、特徵級和物件級耦合,然後引入強大的四元數表示學習機制[29]來規避圖表示學習的過平滑效應。更具體地說,從資料中派生出一個鄰接矩陣來形成圖結構,稱為異構資料圖(HDG)。為確保資訊豐富的圖構建,透過設計的層次耦合編碼(HCE)策略對資料的不同統計資訊進行編碼,以計算鄰接矩陣。HDG起到了連線異構特徵資料與後續表示學習之間的資訊路徑的橋樑。透過從構建的圖中生成四檢視編碼,四元數表示學習(QRL)的哈密頓積可以促進全域性特徵的有效旋轉,為表示學習帶來更高程度的自由度。這補償了淺層圖卷積網路結構,並因此減輕了學習到的節點嵌入的過平滑。透過整合圖重建和譜聚類損失,模型被促使在生成的四元數潛在空間中學習聚類友好的表示。在各種異構特徵資料集上的廣泛實驗驗證了所提方法在表示學習和聚類方面的優勢。主要貢獻可以總結為三個方面:

● 提出了一種新的QRL框架,用於準確和魯棒的異構特徵資料聚類。它使用構建的圖橋接異構特徵與表示學習之間的資訊路徑,並透過聯合學習方案橋接表示學習和聚類任務。

● 為了為表示學習提供高資訊保真度基礎,精心設計了一種編碼策略,結合了資料的統計先驗,包括特徵內機率、特徵間依賴性和透過在異構特徵上統一的度量計算的物體間距離。

● 這是第一次嘗試將四元數引入無監督表示學習。透過的模型設計,形成了對異構特徵資料表示的有效解耦,這也對將四元數應用於其他無監督學習任務具有很大的參考價值。

2相關工作

本節概述了異構特徵資料聚類、圖表示學習和四元數表示學習領域的相關現有工作。

2.1異構特徵資料聚類

現有的異構特徵資料聚類方法大致可以分為兩類:1)為分類特徵定義用於聚類的距離度量,以及2)將資料編碼為數值資料進行聚類。

對於前一種型別,一個發展趨勢是利用資料的統計資訊進行更合理的距離計算。一些研究[1, 14, 18]從機率的角度理解兩個值之間的相似性。也就是說,如果隨機挑選兩個不同值的機率更高,則認為它們更相似。一些其他方法[20, 40, 41]根據機率計算資訊熵,並從資訊理論的角度判斷不相似性。為了透過考慮特徵之間的相互依賴性來擴充套件上述思想,現有的方法[13,23, 43]廣泛採用來自另一個特徵的兩個可能值的條件機率分佈(CPDs),以反映值級別的距離。透過進一步利用分類特徵值的語義順序[44],方法[39]定義了對數值、名義和序數特徵統一的距離度量,以實現更通用的聚類。

後一種型別的方法將分類值轉換為數值以進行聚類。由於傳統的one-hot編碼忽略了資料內的耦合,因此提出了一種更先進的編碼策略,該策略利用資料物件的鄰接矩陣作為編碼[31]。為了使編碼策略適應聚類,一些最近的進展[38, 42, 47]也提出了使編碼過程相對於聚類目標可學習的方法。然而,上述所有編碼策略很大程度上依賴於先驗領域知識,從而限制了它們的有效性。對於編碼後的資料,可以直接應用傳統的K-Means型別演算法[12]或譜聚類演算法[22]來獲得聚類結果。

2.2聚類的深度圖表示學習

受到卷積神經網路強大特徵提取能力的啟發[17],圖卷積網路(GCNs)[16]被提出將卷積操作推廣到圖資料,從而整合圖結構和特徵資訊進行表示學習。繼承了自動編碼器(AE)[34]和變分自動編碼器(VAE)[7]強大的編碼器-解碼器表示學習主幹,Kipf等人[15]提出了圖自編碼器(GAE)和變分圖自編碼器(VGAE),它們將輸入投影到低維空間,並以可學習的方式重建圖結構,以捕捉關鍵的資料特徵。

基於GAE的方法變體[26, 28, 35, 37]進一步引入了不同的編碼增強機制來提高嵌入學習的能力。DAEGC[35]引入了注意力機制,整合屬性資訊和圖結構,以進行更全面的表示學習。為了進一步實現聯合聚類和表示學習,工作[37]放寬了聚類目標,並將其結合到GAE的訓練過程中。後來,為了實現更穩健的資料表示學習,R-GAE[26]被提出,以從數學角度減輕噪聲特徵、特徵漂移和特徵隨機性帶來的影響。儘管上述基於GCN的方法在聚類方面取得了可觀的改進,但它們仍然受到圖卷積操作固有的過平滑效應的影響,並且沒有考慮到特徵異構性的常見問題。

2.3四元數表示學習

四元數是一種由四部分組成的超複數,兩個四元數的漢密爾頓積可以被視為它們在由正交虛軸張成的空間中的有效旋轉。為了在表示學習中利用高效的四元數積,一些最近的研究[9, 27, 29, 45, 48]將特徵編碼從實數域擴充套件到四元數域,以進行更充分的特徵耦合學習。四元數神經網路(QNNs)[48]在各種監督任務中展示了出色的特徵提取能力,例如,少樣本分割[45]、影像分類[11]和語音識別[30]。QCLNet[45]引入了四元數表示學習,以減輕由高維相關張量帶來的計算負擔,同時也探索了查詢和支援影像之間的潛在互動。工作[11]將每個RGB影像視為一個四元數,並透過漢密爾頓積與一個可學習的權重四元數嵌入,以實現更強大的表示學習。得益於正交虛軸和四元數代數的旋轉特性,四元數有助於高效的特徵耦合學習,因此在增強複雜關係特徵的表示學習方面具有潛力。

3初步定義

本節介紹了異構特徵資料的定義及其聚類問題設定。然後介紹了基本的四元數代數。表1列出了本文中常用的符號和記號。

image

本節介紹了異構特徵資料的定義及其聚類問題設定。然後介紹了基本的四元數代數。表1整理了本文中常用的符號和標誌。

一個異構特徵資料集 \({\mathcal{S}}\) 表示為三元組 \({\mathcal{S}}=<{\mathcal{X}},{\mathcal{A}},{\mathcal{O}}>\)。資料物件集合 \(\mathcal X=\{x_{l}|l=1,2,\ldots,n\}\) 包含 \(n\) 個物件,每個物件 \(x_{l}=[x_{l}^{1},x_{l}^{2},\ldots,x_{l}^{d}]^{\top}\) 由來自 \(d\) 個特徵的 \({\mathcal A}=\{A^{r}|r=1,2,\ldots,d\}\) 的值表示。對於一個異構特徵資料集,假設有 \(d^{\{c\}}\) 個分類特徵和 \(d^{\{u\}}\) 個數值特徵,有 \({\mathcal A}={\mathcal A}^{\{c\}}\cup{\mathcal A}^{\{u\}}\)\(d = d^{\{c\}} + d^{\{u\}}\),其中 \(\mathcal{A}^{\{c\}}\)\(\mathcal{A}^{\{u\}}\) 分別是分類和數值特徵集。每個特徵可以寫為一個 \(n\) 值向量 \(A^r = [a_{1}^{r},a_{2}^{r},\cdots,a_{n}^{r}]\),對於分類特徵 \(A^{r}\in{\mathcal A}^{\{c\}}\),其 \(n\) 個值分佈在有限數量(即 \(A^{r}\)\(v^{r}\))的可能值上,這可以寫為一個獨特的值集 \({\mathcal O}^{r}=\{o_{1}^{r},o_{2}^{r},\ldots,o_{v^r}^{r}\}\)\(O^{r}\in O\)。本文的研究目標是對上述異構特徵資料集進行四元數表示學習(QRL),以獲得滿意的聚類效能。在這項工作中,關注常見的清晰分割槽聚類任務,即將整個資料集劃分為一定數量的緊湊子集,包含緊密分佈的資料物件。

以下介紹 QRL 中的四元數操作規則。四元數 \(Q\) 是域 \(\mathbb H\) 中的一種超複數,可以表示為:

\[Q=r+x\mathbf{i}+y\mathbf{j}+z\mathbf{k},\tag{1} \]

其中 \(r\) 是實部,\(xi+yj+zk\) 代表虛部。在 \(\mathbb H\) 中,虛部之間存在正交關係,即 \(\mathbf{i}^{2}=\mathbf{j}^{2}=\mathbf{k}^{2}=\mathbf{i}\mathbf{j}\mathbf{k}=-1\)。然後介紹本文涉及的四元數代數:i) 加法,ii) 標量乘法,iii) Hamilton 乘積。

i) 加法:給定兩個四元數 \(Q_{1}\)\(Q_{2}\),加法操作將它們的對應部分相加:

\[\begin{aligned} Q_{1}+Q_{2}& =(r_{1}+r_{2})+(x_{1}+x_{2})\mathbf{i} \\ &+(y_{1}+y_{2})\mathbf{j}+(z_{1}+z_{2})\mathbf{k}. \end{aligned}\tag{2} \]

ii) 標量乘法:四元數 \(Q\) 可以透過標量 \(\lambda i\) 縮放:

\[\lambda Q=\lambda r+\lambda x\mathbf{i}+\lambda y\mathbf{j}+\lambda z\mathbf{k}.\tag{3} \]

iii) Hamilton 乘積:兩個四元數 \(Q_{1}\)\(Q_{2}\) 之間的相互作用由 Hamilton 乘積指定,稱為四元數變換。更具體地說,\(Q_{1}\) 可以基於四元數 \(Q_{2}\) 透過旋轉進行變換:

\[\begin{aligned} Q_{1}\otimes Q_{2}& =(r_{1}r_{2}-x_{1}x_{2}-y_{1}y_{2}-z_{1}z_{2}) \\ &+(r_{1}x_{2}+x_{1}r_{2}+y_{1}z_{2}-z_{1}y_{2})\mathbf{i} \\ &+(r_{1}y_{2}-x_{1}z_{2}+y_{1}r_{2}+z_{1}x_{2})\mathbf{j} \\ &+(r_{1}z_{2}+x_{1}y_{2}-y_{1}x_{2}+z_{1}r_{2})\mathbf{k}. \end{aligned}\tag{4} \]

這樣的操作可以在四元數場中形成特徵元件之間的有效互動,並因此可用於促進學習模型在表示複雜資料耦合時的自由度。

4方法

在本節中,首先介紹了層次耦合編碼(HCE)策略,對異構特徵資料的複雜關係進行全面編碼,然後提出了四元數圖表示學習(QGRL)聚類方法。QGRL的整體流水線如圖1所示。

image

圖1:所提出的QGRL概述。異構資料首先透過所提出的層次耦合編碼(HCE)策略編碼成更具資訊量的屬性圖 \(\mathcal G=\{\mathbf{A},\hat{\mathcal X}\}\),稱為異構資料圖(HDG)。然後執行多檢視投影,將HDG的屬性轉換到四元數空間進行四元數表示學習。將獲得的嵌入\(\Xi\)的四元數進行重構以形成鄰接矩陣 \(\bar{A}\)作為解碼操作。最後,訓練好的QGRL模型的\(\Xi\)輸出用於譜聚類。

4.1HCE:層次耦合編碼

異構特徵資料有四種型別的耦合:1)值級耦合,即分類特徵內可能值之間的耦合;2)特徵級耦合,即相互依賴特徵之間的耦合;3)異構耦合,即不同型別特徵之間的耦合;4)物件級耦合,即透過其相似性反映的資料物件之間的耦合。透過正確編碼這些耦合,可以在深度表示框架中促進耦合學習。在本小節中,介紹了上述層次結構中提出的耦合編碼策略。

4.1.1 值級耦合。分類特徵 \(A^{r}\) 的可能值 \({\mathcal O}^{r} = \{o_{1}^{r}, o_{2}^{r}, \ldots, o_{v^{r}}^{r}\}\) 的發生機率可以視為一系列機率:

\[I^{r} = \{P_{i}^{r} | i = 1, \ldots, v^{r}\}\tag{5} \]

其中 \(P_{i}^{r}\) 是可能值 \(o_{i}^{r}\) 在特徵\(A^{r}\) 中的發生機率:

\[P_{i}^{r} = \frac{\delta(\{A^{r}\}_{1}^{n} = o_{i}^{r})}{\delta(\{A^{r}\}_{1}^{n} \neq \text{Null})}.\tag{6} \]

這裡,\(\delta(\{A^{r}\}_{1}^{n} = o_{i}^{r})\)這是一個指示函式,用於計算 \(o_{i}^{r}\) 在特徵值集合 \(\{A^r\}_1^n\) 中的出現頻率,而 \(\delta(\{A^{r}\}_{1}^{n} \neq \text{Null})\) 計算 \(\{A^{r}\}_{1}^{n}\) 中非空值的數量,通常等於 \(n\),因為每個樣本至少有一個非空特徵值。注意,在這裡使用大寫字母 \(P_{i}^{r}\) 來區分值的發生機率與稍後將介紹的條件機率。由於機率滿足:

\[\sum_{i=1}^{v^r} P_i^r = 1, \]

透過對應可能值的發生機率對特徵值進行編碼,可以確保捕獲每個特徵內的值級耦合。

4.1.2 特徵級耦合。實際資料集的原始特徵通常在某種程度上是相互依賴的。為了表示這種特徵間關係,還定義了一個特徵 \(A^m\) 在給定另一個特徵 \(A^r\) 的可能值 \(o_i^r\)的條件下的條件機率分佈(CPD),作為一個 \(v^m\)維向量:

\[P_{i}^{m|r} = [p(o_{1}^{m} | o_{i}^{r}), p(o_{2}^{m} | o_{i}^{r}), \ldots, p(o_{v^{m}}^{m} | o_{i}^{r})]^{\top},\tag{7} \]

其中條件機率 \(p(o_{j}^{m} | o_{i}^{r})\) 透過以下方式計算:

\[p(o_j^m | o_i^r) = \frac{\sigma(\mathcal X_j^m \cap \mathcal X_i^r)}{\sigma(\mathcal X_i^r)}.\tag{8} \]

這裡,\(\mathcal X_{i}^{r} = \{x_{l} | x_{l}^{r} = o_{i}^{r}, l = 1, 2, \cdots, n\}\)\(\mathcal X\) 的一個子集,包含所有第 \(r\) 個值等於 \(o_{i}^{r}\) 的資料物件。函式 \(\sigma(\cdot)\) 計算一個集合的基數。透過 \(P_i^{m|r}\),可以根據不同的特徵 \(A^{m} \in \mathcal{A}^{\{c\}}\) 編碼值 \(o_{i}^{r}\),以保留特徵間的依賴關係。

4.1.3 異構耦合。上述特徵級耦合編碼根據CPDs統一處理分類特徵。然而,對於異構特徵資料,數值和分類特徵的距離結構的異質性尚未被表示。為了在保留其內在距離結構的同時有效地連線異構特徵,提出將分類特徵值投影到一系列一維空間上,然後根據投影后的位置對分類值進行編碼。

備註1:異構特徵的連線。將分類值投影到一維空間上的原因是透過讓它們以相同的方式反映距離來統一分類和數值特徵。透過這種方式,形成了適當表示異構特徵耦合的基礎。

投影是根據4.1.2節中定義的基於CPDs的常用分類特徵距離度量進行的,其中特徵\(A^r\)的兩個可能值\(o_{i}^{r}\)\(o_{j}^{r}\)之間的距離可以根據每個分類特徵\(\mathcal{A}^{\{c\}}\)計算如下:

\[d(o_{i}^{r},o_{j}^{r})=\sum_{A^{m}\in\mathcal{A}(c)}\left\|P_{i}^{m|r}-P_{j}^{m|r}\right\|.\tag{9} \]

使用這個距離定義,可以將所有\(v^r\)個可能值的特徵\(A^r\)投影到由對應可能值對所張成的\(v^{r}(v^{r}-1)/2\)個一維空間中的每個空間。也就是說,給定一個由兩個可能值\(o_{i}^{r}\)\(o_{j}^{r}\)張成的一維空間\({\mathcal{R}}_{ij}^{r}\),可以透過計算值\(o_t^r\)\(o_{i}^{r}\)(或到\(o_{j}^{r}\))在空間\({\mathcal{R}}_{ij}^{r}\)中的距離來確定投影點:

\[\phi(o_t^r,o_i^r;\mathcal{R}_{ij}^r)=\frac{|d(o_t^r,o_i^r)^2-d(o_t^r,o_j^r)^2+d(o_i^r,o_j^r)^2|}{2\cdot d(o_i^r,o_j^r)}\tag{10} \]

根據畢達哥拉斯定理。關於更多的投影細節,讀者可以參考[42]。投影所有\(v^r\)個可能值後,在\({\mathcal{R}}_{ij}^{r}\)中獲得每對可能值之間的距離,並將這些距離組織成一個對稱矩陣\(\mathbf{D}_{ij}^{r}\in\mathbb{R}^{\boldsymbol{\upsilon^r}\times\boldsymbol{\upsilon^r}}\),其\((t,l)\)\(\mathbf{D}_{ij}^{r}(t,l)\)表示在投影空間\({\mathcal{R}}_{ij}^{r}\)\(o_{t}^{r}\)\(o_{l}^{r}\)之間的距離。

備註2:投影的全面性。每個分類特徵\(A^r\)被表示為來自不同內生視角的不同可能值對形成的\(v^{r}(v^{r}-1)/2\)個一維距離結構系列。結合備註1,知道投影資訊性地保留了可能值之間的內在關係,而一維嵌入的形式確保了與數值特徵的同質連線。

4.1.4 耦合的編碼。透過上述三種型別的耦合編碼,所有分類特徵 \(\mathcal{A}^{\{c\}}\) 都被表示到更高的維度。具體來說,給定滿足 \(a_{l}^{r} = o_{i}^{r}\) 的分類特徵 \(A^r\) 的第 \(i\) 個值,\(a_{l}^{r}\) 將透過連線其三種型別的耦合編碼來編碼為一個向量:

\[\hat{a}_{l}^{r} = [P_{i}^{r},\underbrace{P_{i}^{1|r},P_{i}^{2|r},\ldots}_{d^{\{c\}}\text{特徵級耦合}},\underbrace{D_{11}^{r}(i,\cdot),D_{12}^{r}(i,\cdot),\ldots}_{\frac{v^{r}(v^{r}-1)}{2}\text{異構耦合}}]\tag{11} \]

其中 \(P_{i}^{r}\) 表示值級耦合,\(P_{i}^{1|r}, P_{i}^{2|r},\ldots\) 是特徵級耦合,\(\mathbf{D}_{11}^{r}(i,\cdot), \mathbf{D}_{12}^{r}(i,\cdot),\ldots\) 代表異構耦合。符號 \(\mathbf{D}_{ij}^{r}(t,\cdot)\) 表示在4.1.3節中定義的矩陣 \(\mathbf{D}_{ij}^{r}\) 的第 \(t\) 行。透過對 \(\mathcal{A}^{\{c\}}\) 中的每個特徵值進行編碼,編碼後的分類特徵集可以表示為 \(\hat{\mathcal{A}}^{\{c\}}\),整個特徵集更新為 \(\hat{\mathcal{A}} = \hat{\mathcal{A}}^{\{c\}}\cup\mathcal{A}^{\{u\}}\)。相應地,將與 \(\hat{\mathcal{A}}\) 對應的物件集表示為 \(\tilde{X}\)

到目前為止,已經介紹了三種型別的耦合編碼,即值級、特徵級和異構耦合。最後的物件級耦合編碼是透過在資料物件上構建一個完全連線圖來執行的,這將在下一小節中單獨討論。

4.2HDG:異構資料圖構建

為了在資料物件上構建一個高維圖 (HDG),首先定義兩個物件 \(x_a\)\(x_b\) 之間的物件級距離,使用 L2 範數表示為:

\[\Psi(x_a, x_b) = \left\|[\Phi^1(x_a^1, x_b^1), \Phi^2(x_a^2, x_b^2), \ldots, \Phi^d(x_a^d, x_b^d)]^\top\right\|_2,\tag{12} \]

其中 \(\Phi^r(x_a^r, x_b^r)\) 是由第 \(r\) 個特徵反映的距離。為了在異構特徵資料上實現更合理的距離測量,採用 [39] 中提出的基於圖的統一不相似性來計算 \(\Phi^r(x_a^r, x_b^r)\)。假設對於 \(A^r \in \mathcal{A}^{\{c\}}\),有 \(x_a^r = o_i^r\)\(x_b^r = o_j^r\),則距離 \(\Phi^r(x_a^r, x_b^r)\) 可以寫為:

\[\Phi^r(x_a^r, x_b^r) = \begin{cases} \sum_{m=1}^{d} \phi^{r|m}(o_i^r, o_j^r) \cdot \omega^{r|m}, & \text{if } A^r \in \mathcal{A}^{\{c\}} \\[2ex] |x_a^r - x_b^r|, & \text{if } A^r \in \mathcal{A}^{\{u\}} \end{cases}\tag{13} \]

其中

\[\phi^{r|m}(o_i^r, o_j^r) = \frac{\||P_i^{m|r} - P_j^{m|r}|\|_1}{2}\tag{14} \]

是由 \(A^m\) 反映的 \(o_i^r\)\(o_j^r\) 之間的不相似性,\(\omega^{r|m}\) 是使用者指定的權重,也可以根據 \(A^m\)\(A^r\) 之間的相互依賴性計算得出。按照 [39],將每個數值特徵離散化為五個等長區間,然後將離散化的特徵視為分類特徵以完成式 (14) 的計算,因為 \(A^m\) 可能是一個數值特徵。儘管在兩種情況下值級距離的格式不同(見式 (13)),但它們從轉換成本的角度(透過 Earth Mover’s Distance (EMD) 計算)來看是統一的。由於篇幅限制,關於統一性和權重計算的更多細節,請參閱 [39]。

備註 3. HDG 構建的合理性。在第 4.1.4 節中,已經獲得了一個資訊豐富的耦合編碼 \(\hat{\mathcal X}\),它可以用於基於歐幾里得距離計算物件級距離。之所以選擇在原始 \(\mathcal X\) 上採用基於圖的統一不相似性來進行 HDG 構建,原因有二:1) 它以統一的方式處理異構的數值和分類特徵,以避免資訊丟失;2) 分類特徵在 \(\hat{\mathcal X}\) 中被大幅擴充套件,直接在其上計算距離將導致對分類特徵的過度強調。

透過式 (12) 計算每對物件之間的距離後,得到一個鄰接矩陣 \(\mathbf{A} \in \mathbb{R}^{n \times n}\),其 \((i, j)\)-th 項等於 \(\Psi(x_i, x_j)\)。到目前為止,已經完成了所有四種型別耦合的編碼,它們可以透過所構建的 HDG \(\mathcal G = \{\mathbf{A}, \hat{\mathcal X}\}\) 緊湊地表示。然後,\(\mathcal G\) 被視為所提出的表示學習模型的輸入,該模型將在以下小節中詳細說明。

4.3QGRL:四元數圖表示學習

為了將構造的屬性圖 \(\mathcal G\) 的屬性 \(\hat{\mathcal X}\) 轉換為四元數空間,設計了一個可學習的四元數投影模組,透過以下方式將 \(\hat{\mathcal X}\)投影到四元數值空間:

\[\mathcal{F}_{i}(\hat{\mathcal X}; \mathbf{W}_{i}^{\mathbb{P}}, \mathbf{B}_{i}^{\mathbb{P}}) = \mathbf{W}_{i}^{\mathbb{P}} \hat{\mathcal X} + \mathbf{B}_{i}^{\mathbb{P}}\tag{15} \]

其中 \({\mathcal{F}}_{i}(\cdot)\) 是針對不同四元數分量的線性投影函式,即 \(i \in \{r, x, y, z\}\)。這裡使用上標 \(\mathbb P\)來區分投影階段的可學習引數與隨後的四元數編碼階段引數(用\(\mathbb H\)表示)。四元數投影的目標是將特徵資訊性地轉換為四檢視的四元數值空間\(\mathbb H\),以便於具有更高自由度的表示學習。投影后,編碼的四元數特徵可以表示為:

\[\mathbf{M} = \mathbf{M}_{r} + \mathbf{M}_{x} \mathbf{i} + \mathbf{M}_{y} \mathbf{j} + \mathbf{M}_{z} \mathbf{k},\tag{16} \]

其中 \(\mathbf{M} \in \mathbb{H}^{n \times (4 \times \hat d)}\) 表示四元數特徵矩陣。

為了學習不同四元數分量之間的相互依賴關係,提出使用四元數圖表示編碼器來捕獲四元數嵌入之間的關係:

\[\mathcal{H}_{h}(\hat{\mathrm{A}}, \mathbf{M}_{h}; \mathbf{W}_{h}^{\mathbb{H}}) = \varphi(\hat{\mathrm{A}} \cdot \mathbf{M}_{h} \otimes \mathbf{W}_{h}^{\mathbb{H}}),\tag{17} \]

其中 \(\varphi(\cdot)\) 是 ReLU 函式,\(\hat{\mathbf{A}}\) 表示 \(A\) 的歸一化拉普拉斯矩陣,\(h\) 索引到編碼器的層數,符號 \(\otimes\) 表示 Hamilton 積,可以定義為:

\[\mathbf{M} \otimes \mathbf{W}^{\mathbb{H}} = \begin{bmatrix}\mathbf{M}_r\\\mathbf{M}_x\\\mathbf{M}_y\\\mathbf{M}_z\end{bmatrix}^\top \begin{bmatrix}\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_x^\mathbb{H}&-\mathbf{W}_y^\mathbb{H}&-\mathbf{W}_z^\mathbb{H}\\\mathbf{W}_x^\mathbb{H}&\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_z^\mathbb{H}&\mathbf{W}_y^\mathbb{H}\\\mathbf{W}_y^\mathbb{H}&\mathbf{W}_z^\mathbb{H}&\mathbf{W}_r^\mathbb{H}&-\mathbf{W}_x^\mathbb{H}\\\mathbf{W}_z^\mathbb{H}&-\mathbf{W}_y^\mathbb{H}&\mathbf{W}_x^\mathbb{H}&\mathbf{W}_r^\mathbb{H}\end{bmatrix}^\top \tag{18} \]

其中 \(W^{\mathbb{H}}\) 表示可學習的引數。為了簡化,在式 (18) 中省略了 \(M\)\(W^{\mathbb{H}}\) 的下標 \(h\)

在傳播了四元數分量之間的關係後,四元數特徵嵌入進一步聚合為單個特徵矩陣,用於計算下一階段的圖重構和聚類的損失。實際上,四元數特徵嵌入聚合過程可以表示為:

\[\boldsymbol{\Xi}=\operatorname{Re}\left(\mathbf{M}_{L}\right) \circledast \operatorname{Im}\left(\mathbf{M}_{L}\right)\tag{19} \]

其中 \(\operatorname{Re}(\cdot)\)\(\operatorname{Im}(\cdot)\) 分別表示 \(M_L\) 的實部和虛部。\(M_L\) 是最後一個編碼層 \({\mathcal{H}}_{\mathcal{L}}(\cdot)\) 的輸出,符號 \(\circledast\) 表示四元數融合操作,它取四個四元數嵌入分量的平均值,形成下游圖構建和聚類的緊湊嵌入。然後,透過以下方式重構鄰接矩陣:

\[\bar{\mathbf{A}} = \Xi \cdot \Xi^\top\tag{20} \]

其中 \(\bar{\mathbf{A}}\) 表示重構後的矩陣,將直接用於計算訓練損失。

4.4圖重構與聚類的聯合最佳化

受到[19]的啟發,提出透過將Kullback-Leibler (KL)散度和放寬的譜聚類目標整合為損失函式,來共同最佳化無監督異構特徵表示學習和譜聚類。直觀上,KL損失鼓勵模型透過恢復原始圖的連通性來學習特徵嵌入。聚類損失旨在透過保留嵌入空間中接近物件之間的相似性來學習區分性嵌入,並促進聚類分析。具體來說,整體損失函式定義如下:

\[\mathcal{L}=\mathcal{L}_{kl}+\alpha\mathcal{L}_{reg}+\beta\mathcal{L}_{e},\tag{21} \]

其中 \(\alpha\)\(\beta\) 是表示損失權重的超引數。\(\mathcal L_{reg}\) 是正則化項。在的實現中,採用L1正則化來懲罰模型的複雜性。KL損失 \(\mathcal L_{kl}\) 表達為:

\[\mathcal{L}_{kl}=\frac{1}{n^{2}}\sum_{i=1}^{n}\sum_{j=1}^{n}\hat{\mathbf{A}}_{ij}\log\frac{1}{\bar{\mathbf{A}}_{ij}},\tag{22} \]

其中 \(\hat{A}\)\(\bar{\mathbf{A}}\)分別表示歸一化的拉普拉斯鄰接矩陣和重建的鄰接矩陣。

類似於圖拉普拉斯特徵對映[5],引入損失項 \(\mathcal L_{e}\)到損失函式中,以保留圖屬性,並懲罰在圖中具有更高相似性但連通性較低的四元數嵌入。形式上,\(\mathcal L_{e}\)定義為:

\[\mathcal{L}_{e}=\mathrm{tr}(\Xi^{\top}\:(\mathbf{D}-\mathbf{\bar A})\:\Xi),\tag{23} \]

其中 D 表示度矩陣,\(\bar{A}\)是重建的鄰接矩陣,\(\Xi\)包含學習的四元數嵌入,而 tr(·) 計算矩陣的跡。

KL損失 \(\mathcal{L}_{kl}\)鼓勵在重建過程中目前學習的嵌入和原始圖結構資訊的共識融合,而特徵對映損失 \(\mathcal L_{e}\)使模型更傾向於具有更高特徵相似性的連線節點的稀疏圖結構,這與譜聚類目標一致,因此可以被視為放寬的譜聚類目標。總之,它們在資訊豐富性和學習到的嵌入的聚類友好性方面相互補充。最後,訓練好的QGRL模型的最終嵌入\(\Xi\)輸出被視為譜聚類的輸入,以獲得一定數量的聚類[22]。

相關文章