論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

華為雲開發者社群 發表於 2021-05-07
神經網路
摘要:本文提出一種基於區域性特徵保留的圖卷積網路架構,與最新的對比演算法相比,該方法在多個資料集上的圖分類效能得到大幅度提升,泛化效能也得到了改善。

本文分享自華為雲社群《論文解讀:基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)》,原文作者:PG13 。

近些年,很多研究者開發了許多基於圖卷積網路的方法用於圖級表示學習和分類應用。但是,當前的圖卷積網路方法無法有效地保留圖的區域性資訊,這對於圖分類任務尤其嚴重,因為圖分類目標是根據其學習的圖級表示來區分不同的圖結構。為了解決該問題,這篇文章提出了一種基於區域性特徵保留的圖卷積網路架構[1]。與最新的對比演算法相比,該方法在多個資料集上的圖分類效能得到大幅度提升,泛化效能也得到了改善。

1、引言

圖(網路)結構資料可以通過圖中的節點和連線節點之間的邊進行建模來捕獲實體和實體之間的豐富資訊。圖結構資料已經在諸多研究領域得到了廣泛的應用,包括生物學(蛋白質與蛋白質的相互作用網路)、化學(分子結構/化合物結構)、社會科學(社交網路/文獻引用網路)和許多其他的研究領域。圖結構資料不僅能夠對結構化資訊進行高效儲存,而且在現代機器學習任務中也扮演著極其重要的角色。在諸多的機器學習任務中,圖分類是近幾年來廣泛研究的一項重要任務。圖分類的目的是將給定的圖劃分到特定的類別。例如,為了區分化學中有機分子的各種圖結構,需要對其推斷並聚合整個圖拓撲結構(在分子網路中拓撲結構由單個原子及其直接鍵組成)以及節點特徵(例如原子屬性),並使用推斷和聚合的資訊來預測圖的類別。

近年來,國際上發表了很多旨在解決圖分類問題的技術。一種傳統且流行的技術是設計一個圖核函式來計算圖與圖之間的相似度,然後輸入到基於核函式的分類器(如SVM)來進行圖分類任務。儘管基於圖核的方法是有效的,但存在計算瓶頸,而且其特徵選擇的過程與後續分類過程是分開的。為了解決上述挑戰,端到端的圖神經網路方法受到了越來越多的研究關注。而其中,圖卷積神經網路(GCNs)又是解決圖分類問題的最熱門的一類圖神經網路方法。

目前的圖卷積神經網路大致遵循訊息傳遞(Message Passing Neural Network,MPNN)框架[2]。該框架由訊息傳遞階段和讀出階段兩部分組成,其中訊息傳遞階段是通過聚集節點的鄰域特徵來更新每個節點的特徵向量,而讀出階段是通過全域性的池化模組來生成整個圖級的特徵。圖卷積神經網路使用訊息傳遞功能來迭代地執行圖卷積操作,使得特徵資訊能夠傳播很長的距離,從而可以學習不同範圍的鄰域特徵。在經過k次的圖卷積操作後,可以提取有用的節點或者邊的特徵來解決許多基於節點和邊的分析任務(例如,節點分類,鏈路預測等)。為了解決圖級的任務(例如圖分類),讀出模組需要聚合全體的節點或區域性結構的資訊來生成圖級表示。下圖給出了用於圖分類任務的圖卷積神經網路的通用框架。在現有的訊息傳遞框架基礎下,很多的研究者已經開發出了具有各種訊息傳遞函式,節點更新函式和讀出模組的許多圖卷積神經網路的變體。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

但是,現有的基於圖卷積神經網路方法的主要侷限性在於,用於圖級表示學習的圖卷積神經網路方法缺乏對區域性特徵資訊的有效利用。換句話說,它們過分強調區分不同圖結構的能力,而忽略了節點的區域性表達能力,從而容易導致過度平滑的問題(每個節點的特徵表示趨於一致),特別是當加深神經網路的層數時,過平滑問題會愈趨嚴重。這是因為在區域性鄰域聚合過程中沒有對鄰域的特徵資訊進行有效地區分和辨別,使得學到的節點特徵的區域性表達能力不強,再加上過平滑的影響,從而大大限制了全域性的圖級特徵的表示能力。

眾所周知,圖級表示是通過聚集節點的區域性特徵而得到的,因此如何在優化的過程中保持區域性表達能力是提高圖表示能力的關鍵前提。針對圖級表示學習目標,現有的用於保持特徵區域性表達能力的研究方法可以大致分為三個派系:(1)設計不同的圖卷積操作和讀出操作,(2)設計分層聚類方法,(3)探索新的模型架構。在第一個派系中,Xu等人發現基於現有訊息傳遞框架下的方法學習到的圖級別表示並不能有效地區分不同的圖結構,並且他們提出了一個圖同構網路模型(GIN)[3]。圖同構網路採用了一種單射聚合更新方法將不同的節點鄰居對映到不同的特徵向量。這樣就能保留圖的區域性結構和節點特徵,使得圖神經網路和Weisfeiler-Lehman測試一樣有效。Fan等人提出了一種類似於圖注意力網路(GATs)[4]的結構化自注意力架構,用於圖級表示學習,其中以節點為中心的注意力機制將具有可學習權重的不同鄰居節點特徵聚合在一起,並將層級注意力機制和圖級注意力機制作為模型的讀出模組,可將來自不同節點、不同深度的重要特徵聚合到模型的輸出中。在第二個派系中,也就是在層次聚類方法中,許多研究工作證明圖除了節點或圖級結構之間的二分法外,還顯示出其它豐富的層次結構。比如最近的一項前沿工作提出了DIFFPOOL[5],這是一種能夠與圖卷積聯合訓練的可微分層次化池化方法,可以用於提煉區域性特徵資訊。

總而言之,上述兩類用於圖分類任務的方法能夠很好地擬合大多數訓練資料集,但是其泛化能力非常有限,在測試集上的效果表現平平,難以突破現有方法的瓶頸。而在第三類派系中,也就是研究新的模型架構,一些研究人員試圖解決在訓練圖卷積神經網路的存在的實際困難或者過度平滑問題。例如,Xu等人[6]提出了一種跳躍知識網路(JK-Net)架構,以將網路的最後的圖卷積層與所有先前的隱藏層連線起來,也就是類似於殘差網路的結構。通過這樣的設計,使得模型最後的層可以有選擇性地利用來自前面不同層的鄰域資訊,從而可以在固定數量的圖卷積操作中很好地捕獲節點級表示。尤其是隨著網路深度的增加,殘差連線對模型的效果提升更加凸顯。這種跳躍結構已經被證明可以顯著提高模型在以節點相關任務上的效能,但是很少有研究人員探索它們在圖級任務上(如圖分類)的有效性。在GIN 中,Xu等人進一步提出了一種類似於JK-Net的模型架構用於學習圖級表示。該架構針對每個卷積層後面都連線了一個讀出層來學習不同深度的圖級表示,然後將不同深度的圖級表示形式連線在一起形成最終的表示。這種讀出架構考慮了所有深度的全域性資訊,可以有效地改善模型的泛化能力。

2、圖卷積神經網路(GCN)

(1)問題定義

給定一個無向圖G = { V, E},V表示節點集合,E 表示邊的集合。此外,使用Xv來表示每個節點的初始特徵。圖卷積神經網路的目標是學習任意圖例項的連續表示,來對節點特徵以及拓撲結構進行編碼。假設給定了一組帶有M個標籤的圖G = {G1, G2, ... ,GM}以及每一個圖對應的標籤Y = {y1, y2, ... ,yM},圖分類的目標是使用它們作為訓練資料來構建分類器gθ,該分類器可以將任何新的圖輸入G分配給某個特定的類別yG,即yG = gθ(hG)。

(2)圖卷積神經網路

GCNs同時考慮圖的結構資訊和圖中每個節點的特徵資訊,以學習可以最好地幫助完成最終任務的節點級和/或圖級特徵表示。通常來說,現有的GCN變體首先會聚
合鄰域資訊,然後將生成的鄰域表示與上一次迭代的中心節點表示進行組合。從公式上來說,GCN根據以下公式迭代地更新節點的表示形式:

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

其中

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

表示的是節點v在第k次迭代時的特徵表示。AGGREGATE()和COMBINE()都是第k 個圖卷積層的可學習資訊傳遞函式。N(v)表示節點v的相鄰節點的集合。通常,在K次迭代步驟之後,可以將最終的節點表示

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

應用於節點標籤預測,或者前進到執行圖分類的讀出階段。讀出階段通過聚合節點特徵,使用某些特定的讀出函式READOUT()為整個圖計算特徵向量hG:

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

READOUT()函式可以是簡單的置換不變性函式,例如求和函式;也可以是圖級的池化操作,如DIFFPOOL、SORTPOOL。

3、方法介紹

為了解決現有方法的區域性資訊保留能力和泛化能力不足的問題,這篇文章從損失函式和模型架構兩個方面進行了改進,提出了模型LPD-GCN。眾所周知,GCNs通過利用圖的拓撲結構和節點特徵來學習整個圖的圖級表示。從損失的角度來看,為了充分利用和學習節點的特徵資訊,LPD-GCN構造了額外的區域性節點特徵重構任務,以提高隱藏節點表示的區域性表示能力並增強最終圖級表示的判別能力。也就是額外增加了一個輔助約束來保留圖的區域性資訊。這個節點特徵重構任務是通過設計一種簡單但有效的編碼-解碼機制來實現的,其中將堆疊的多個圖卷積層當作編碼器,然後新增一個多層感知器(MLP)用於後續的解碼。這樣的話,就可以將輸入的節點特徵通過編碼器嵌入到隱藏表示中,然後將這些向量表示再輸入到解碼器中以重構初始節點特徵。從模型架構的角度來看,首先探索並設計了一個稠密連線的圖卷積架構來建立不同層之間的連線關係,以靈活充分地利用來自不同位置的鄰域的資訊。具體地說,將每個卷積層及其對應的讀出模組與所有先前的卷積層相連。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

(1)基於編碼-解碼機制的節點特徵重構

傳統GCN的圖級表示能力和判別能力受限於過度精煉和全域性化,忽視了對區域性特徵的儲存,這會導致過平滑問題。LPD-GCN包含一個用於實現區域性特徵重構的簡單的編碼-解碼機制,其中編碼器由堆疊的多圖卷積層構成,而解碼器採用多層感知器來重構區域性節點特徵。同時,構造了一個輔助的區域性特徵重構損失來輔助圖分類的目標。這樣的話,節點特徵可以有效地保留在不同層上的隱藏表示中。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

(2)基於DenseNet的鄰域聚合

此外,為了可以靈活地利用來自不同層的鄰域的資訊,模型從每個隱藏的卷積層到所有更高層的卷積層和讀出模組都新增了直接的連線。這樣的架構大致是DenseNets的對應結構。眾所周知,DenseNets是針對計算機視覺問題提出的。該架構允許在不同層選擇性地聚合鄰域資訊,並進一步改善層與層之間的資訊流動。在DenseNets中應用的是分層串聯的特徵聚合方式。LPD-GCN採用分層累加的特徵聚合方式。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

(3)基於全域性資訊感知的區域性節點表示

引入輔助的區域性特徵重構模組後,使得每個卷積層都可以接受額外的監督,以保持區域性性。但是,此類監督資訊無法通過反向傳播來訓練這些全域性讀出模組。在本章模型的架構中,在每個卷積層後面都有一個對應全域性讀出模組,來將整個圖的節點嵌入摺疊為圖級別的表示。那麼,如何才能更好地利用來自區域性特徵重構的監督資訊呢?為了解決這個問題,新增了從每個讀出模組到下一層卷積模組的直接連線,並使用串聯的方式將節點級特徵與全域性圖級特徵進行對齊。也就是說,使用逐點串聯,將每個節點表示和圖級表示連線到單個張量中。此外,又引入了一個可學習的引數ε(> 0),以自適應地在區域性節點級表示和全域性圖級表示之間進行權衡。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

其中

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

通過設計這樣的架構,除了因失去主圖級任務而產生的梯度資訊之外,還可因區域性特徵重構損失而使其他梯度資訊反向傳播以更新讀出的引數,從而降低了喪失區域性表示能力的風險並提高了模型的泛化能力。同時,節點表示與附加的全域性上下文相結合以形成全域性上下文感知的區域性表示,這也可以增強節點的表示性。

(4)基於自注意力機制的全域性分層聚合

現有的大部分方法是將多個圖卷積層學習的節點表示饋送到全域性讀出模組以生成圖級表示,讀出模組通過池化或求和的方式生成全域性的圖級特徵。但是,隨著網路深度的增加,節點表示可能會顯得過於平滑,從而導致圖級輸出的綜合效能較差。為了有效地提取和利用所有深度的全域性資訊,本章的模型進一步採用了一種自注意力機制,以類似於GIN的方式來讀出的逐層圖級特徵。這裡引入以層為中心的自注意力機制的直覺是,在生成特定任務的圖級輸出時,分配給每一層不同的注意力權重可以適應於特定的任務。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

(5)損失函式

在訓練階段,本章的模型LPD-GCN從圖分類主任務和輔助的區域性特徵重構約束接收梯度資訊。從公式上來說,通過如下公式中定義的總損失(由圖分類損
失和區域性特徵重構損失加權得到)來訓練LPD-GCN。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

其中表示

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

圖分類損失,

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

表示區域性特徵重構損失,權衡引數被自適應地引入在兩個損失項之間尋求平衡。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

4、圖分類實驗結果

(1)測試資料集

這篇文章使用了圖神經網路領域8個常用的圖資料集,通過執行10倍交叉驗證來評估效能,並報告測試準確度的均值和標準差。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

(2)在測試集上的效果

在多個資料集上的分類效能上有了明顯的提升,且泛化能力得到了改善。

論文解讀丨基於區域性特徵保留的圖卷積神經網路架構(LPD-GCN)

5、參考文獻

[1] WENFENG LIU, MAOGUO GONG, ZEDONG TANG A. K. QIN. Locality Preserving Dense Graph Convolutional Networks with Graph Context-Aware Node Representations. 

[2] GILMER J, SCHOENHOLZ S S, RILEY P F, et al. Neural message passing for quantum chemistry[C] // Proceedings of the 34th International Conference on Machine Learning : Vol 70. 2017 : 1263 – 1272.

[3] XU K, HU W, LESKOVEC J, et al. How powerful are graph neural networks?[C] // Proceedings of the 7th International Conference on Learning Representations. 2019.

[4] VELI ˇ CKOVI´C P, CUCURULL G, CASANOVA A, et al. Graph attention networks[C] // Proceedings of the 6th International Conference on Learning Representations. 2018.

[5] YING Z, YOU J, MORRIS C, et al. Hierarchical graph representation learning with differentiable pooling[C] // Advances in Neural Information Processing Systems. 2018 : 4800 – 4810.

[6] XU K, LI C, TIAN Y, et al. Representation learning on graphs with jumping knowledge networks[C] // Proceeding of the 35th International Conference on Machine Learning. 2018 : 5449 – 5458.

 

點選關注,第一時間瞭解華為雲新鮮技術~