10 Exploring Temporal Information for Dynamic Network Embedding 5

link:https://scholar.google.com.sg/scholar_url?url=https://ieeexplore.ieee.org/abstract/document/9242309/&hl=zh-TW&sa=X&ei=ZiiOYp6gEpT0yASct56wBQ&scisig=AAGBfm3bQgwV0icZGtwlo2zrgBOEUH4z9A&oi=scholarr

Abstract

本文提出了一種名為DTINE的無監督深度學習模型，該模型探索了時間資訊，以進一步增強動態網路中節點表示的魯棒性。為了保持網路的拓撲結構，設計了一種時間權值和取樣策略來從鄰居中提取特徵。將注意力機制應用於RNN，以衡量歷史資訊的貢獻，捕捉網路的演化。

Conclusion

本文討論了在網路嵌入中引入時間資訊的影響。提出了一種新的無監督模型DTINE，該模型通過提取鄰域特徵來保持動態拓撲結構，並通過LSTM層學習網路演化。未來工作：引入更多的資訊，如節點標籤和節點屬性，以豐富節點表示，並在更大的網路上執行。此外，將圖卷積應用到模型中，以便在聚合資訊時學習更多的潛在特徵。

Figure and table

圖1 動態圖舉例，(a)表示為連續時間動態圖，（b）表示為一個從（a）分割出來的快照集，即離散時間動態圖

圖2:DTINE框架。我們首先從鄰居中提取特徵，然後通過多個LSTM層來探索動態網路的時間資訊。通過節點互動優化學習引數。

表1 資料集引數

表2 在\(t\)時刻的圖重構對比

表3 在\(t\)時刻的連結預測對比

表4 在\(t+1\)時刻的連結預測對比

圖三資料集Email的節點視覺化，每個節點代表一個使用者，顏色代表使用者分類。

表5 時序資訊對於模型的的影響

圖4 不同嵌入維度對於各模型和各資料集的影響

圖5 不同快照數量對於各模型和各資料集的影響

圖5 \(\beta_0\)在不同資料集上對於本文模型的影響

Introduction

在現實世界中，網路本質上是動態的，其結構是隨著時間的推移而演變的。描述動態網路的方法有兩種，如圖1(a)和圖1(b)所示。第一種方法將所有連結合併成一個大型網路，在Continuous-time dynamic network embeddings中稱為連續時間網路，其中每條邊都擁有一個時間戳。第二種方法是分割動態圖對的幾個快照出來。每個快照包含連結的一小部分。正如CTDNE中所討論的那樣，由於聚合粒度較粗和邊緣流的中斷，後一種方法可能會導致資訊丟失。離散時間間隔也需要謹慎選擇。而將動態網路分解為快照是一種有效的表達網路結構性質變化的方法。該方法可以方便地捕捉網路的演化過程。如圖1(b)所示，在t時刻，\(v_1\)與其他一些使用者進行通訊。假設\(v_2、v_3、v_4\)喜歡運動，而\(v_5、v_6、v_7\)喜歡看電影。他們可以根據自己的興趣分成不同的群體。在\(t + 1\)時刻，\(v_1\)喜歡和\(v_2\)一起運動，\(v_2\)隨後給他介紹了一些新朋友。隨著時間的推移，他被一些電影所吸引，並把精力轉移到電影社群的其他人身上，比如\(v_5, v_6, v_7\)。使用者的變化模式可以反映網路隨著時間的推移是如何發展的。探索這些時間資訊使我們能夠有效地發現使用者的社交策略，並更準確地預測連結。

以往的工作只考慮結構資訊，將靜態方法在每個快照上使用，然後跨時間步對齊嵌入結果。但是在網路獨立執行時可能會產生不穩定的後果。即使網路是相似的，嵌入的結果可能完全不同，這使得很難捕捉到變化過程。此外，這些工作不能擴充套件到大型網路，因為在每個快照上執行node2vec[28]和GCN[9]等方法需要大量的引數學習，時間消耗較大。其他方法生成時間隨機遊動來捕捉網路演化。然而，這也會導致上面提到的空間不連續的問題，如果網路中變化的部分很大，行走就會非常複雜。

本文貢獻如下

提出了一種名為DTINE的無監督方法，利用動態拓撲來學習網路表示。

提出了兩種特殊的注意力機制分別用於特徵提取和網路訓練，可以進一步探索歷史資訊。

大量的實驗結果表明，DTINE實現了幾個最先進的基線的顯著改善。

Method

3 PROBLEM DEFINITION

Definition 1 (Dynamic network)：給定一個時序網路\(\mathcal{G}=<\mathcal{V,E,T}>\) ，其中V是所有的節點集，E是所有的邊集，T是一個將每條邊對映到時間戳的函式。G可以是有向圖或者無向圖。基於時間戳，動態網路將被分割為一系列等間隔快照\({G_1, G_2，…， G_T}\)。\(T\)為時間步，\(G^t=<V^t, E^t, A^t>\)表示為一個在時間t的圖的一個快照。\(E^t\)包含固定時間區間\([t, t + τ]\)內的邊。注意，在\(E^t\)中，節點\(v_i\)和\(v_j\)之間可能存在多條邊。將在\(E^t\)中相同節點存在多條邊表示為\(A_{i j}^{t}=L^{t}(i, j)\)，其中\(L^{t}(i, j)\)是節點\(v_i\)和\(v_j\)在時間\(t\)的連結頻率。本文假定所有快照的節點數量保持不變。不可見或刪除的節點\(i\)將被視為一個孤立的節點，並使\(A^t[i，:] = 0\)。

Definition 2 (Temporal network embedding):假設最後一個快照\(G^t\)是一個靜態網路，模型旨在學習一個對映函式\(f:v_i→ \mathbb{R}^d , d << N\)使得經過\(\{ G^1, G^2, ..., G^{t−1} \}\)的快照訓練後，節點\(v\)有合適的嵌入表示，其中\(d\)為每個節點表示的維數，\(N\)為節點個數。本文目標是儲存結構資訊(最近的節點有類似的表示)和時間資訊(節點能夠在未來探索潛在的關係)。

4 PROPOSED METHOD

模型由兩個部分組成

第一個元件是基於圖卷積網路，它通過聚集來自鄰居的特徵來學習節點表示。不同的是，在本文的工作中，會用歷史資訊來更新邊的權值。

第二個元件通過快照探索時間屬性。我們通過向LSTM層新增註意機制來對每個快照的貢獻進行建模。

DTINE的框架如圖2所示。在每個快照中提取從上一個時間步獲得的特徵，這些特徵將被串聯起來並輸入到LSTM層。最後的節點表示是根據特定的規則從LSTM的隱藏狀態聚合而來的。

4.1 Feature Initialization

在大多數網路中，節點之間的連線非常稀疏。導致鄰接矩陣中存在大量的零元素。在沒有任何額外特徵的情況下直接對稀疏矩陣進行操作，可能會增加時間和空間的複雜度，並造成模型中的資訊冗餘。所以作者在初始化特徵時應用靜態演算法來提取結構特徵，比如node2vec。

4.2 Feature Extraction

對於時序圖建模，作者認為就是在對不同時間下的圖快照\(\{ G^1, G^2, ..., G^{t} \}\)中的鏈路變化建模。假設網路的演化可以看作是每個節點的鄰域的變化(增加或刪除的連結)，這最終反映在資訊聚合的變化上。

然而，同一個節點可能會在快照中關注不同的點。例如在圖1(b)中，在\(t + 1\)時刻，\(v1\)與\(v_2\)、\(v_3\)、\(v_4\)在運動中有相同的興趣，它們之間的連線強度高於其他。然後在\(t + 2\)的時候，\(v_1\)更喜歡看電影，並且和\(v_5\)、\(v_6\)、\(v_7\)分享他的感受，導致他們之間的權重變大。注意，在\(v2\)和它的鄰居之間沒有新增或刪除連結，但是它們的權值發生了變化。因此，如果我們想要對網路演化建模並捕獲時間資訊，就不應該對每個鄰居一視同仁。換句話說，應該評估每個鄰居的貢獻，而不是訓練平均聚集器來收集資訊。

在本文中，提出了一種新的權值策略，該策略可以隨著網路的發展估計節點之間的鏈路權值。其中，特定快照t中兩個連通節點\(i\)和\(j\)的強度函式可以表示為:

\[W(i, j)=\frac{D_{\text {common }}(i, j)}{D(i)} \cdot \frac{D_{\text {common }}(i, j)}{D(j)}+\lambda_{i, j} \lambda_{j, i} （1） \]

其中

\[\begin{aligned} \lambda_{i, j} &=\left(\frac{L(i, j)}{\sum_{x} L(i, x)}+\frac{C(i, j)}{\sum_{x} C(i, x)}\right) \\ \lambda_{j, i} &=\left(\frac{L(i, j)}{\sum_{x} L(j, x)}+\frac{C(i, j)}{\sum_{x} C(j, x)}\right) \end{aligned} \]

在等式（1）中，同時考慮結構和時間的影響。

第一項可以看作是源節點\(i\)和目標節點\(j\)之間的結構連線強度。\(D(i)\)是節點\(i\)的度，\(D_\text{common}(i, j)\)表示快照中\(i\)和\(j\)的共同鄰居的數量。注意，如果兩個節點有很多共同的鄰居，那麼它們彼此相似。如果一個節點度較大，則會將注意力轉移到其他節點上，導致權值小。

第二項考慮了當前和之前的時間步長，可以看作是節點\(i\)和\(j\)的時間連線強度。\(λ_{i,j}\)表示節點\(i\)對節點\(j\)的影響程度。\(L(i, j)\)是\([t−τ， t]\)中兩個節點之間的連結數，因為它們可能在一個時間間隔內相互接觸多次。\(C(i, j)\)表示節點\(i\)和節點\(j\)有連結的之前快照的數量。\(C(i, j)\)的值應該在\(0\)到\(t\)之間。時間連線強度表明，節點\(i\)和\(j\)在時間t之前的連線越多，權值越大。具體來說，如果一個節點與其他節點保持連線，它們的關係應該非常穩定，導致它們之間更大的親和力。

為了保證權重係數的可比性，建議使用softmax函式對權重係數進行歸一化處理:

\[\alpha_{i, j}=\frac{\exp \left(W_{i, j}\right)}{\sum_{k \in \mathcal{N}(i)} \exp \left(W_{i, k}\right)} \]

其中\(\mathcal{N}(i)\)表示\(i\)的鄰居。採用與其他模型相似的注意機制，利用\(\alpha_{i, j}\)和1跳鄰居提取資訊。因此，節點\(i\)的鄰居影響可以表示為:

\[Z_{1 s t}^{t}(i)=\sum_{k \in \mathcal{N}(i)} \alpha_{i, k} U^{t-1}(k) \]

其中

\(U^{t-1}(i)\)為\(i\)在前一個快照中的表示

\(N (i)\)表示\(i\)的鄰居。

二階相似是一個非常重要的度量，它可以模擬節點間的相似性，並保持全域性結構。所以引入了二跳鄰居的資訊聚合，這裡沒有用注意力權重，而是用的均值聚合

\[Z_{2 s t}^{t}(i)=\frac{1}{\left|\mathcal{N}^{2}(i)\right|} \sum_{k \in \mathcal{N}^{2}(i)} U^{t}(k) \]

其中\(N^2(i)\) 為\(i\)的2跳鄰居，\(|N^2(i)|\)為2跳鄰居的數量。

下面是時間平滑假定：作者認為，在真實的世界裡，邊的變化都是平滑的，換句話說，只會有少量邊在兩個連續時間快照裡增加或者刪除。

因此，嵌入應該隨著時間平滑地變化，這意味著如果一個節點及其鄰域在兩個快照中相似，那麼它的表示應該保持相似。

假設我們沒有對平滑變化進行建模，由於失去節點表示之間的規律性，可能很難捕捉網路的演化。為了實現這個目標，我們將第t個快照中的節點i表示為:

\[U^{t}(i)=\beta_{0} \cdot Z_{1 s t}^{t}(i)+\beta_{1} \cdot Z_{2 s t}^{t}(i)+U^{t-1}(i) \]

其中\(β_0 + β_1 = 1\)，且\(β_0 > β_1\)，這兩個係數被用來衡量一階和二階鄰近的貢獻。上式確保節點表示平滑地變化，因為隨著時間的推移，它們在嵌入空間中的變換是線性的（增量加減）。

4.3 Sampling Strategy

隨著網路的擴大，鄰居的數量也會增加，導致聚合資訊時消耗更多的記憶體和計算量。於是提出了一種有效地抽取鄰居資訊並去除冗餘資訊的方法。其中，節點\(i\)的鄰居\(j\)被取樣的概率表示為

\[p(j)=\left\{\begin{array}{ll} \frac{1}{|\mathcal{N}(i)|}+\varphi_{0} & \text { if }(i, j) \text { is a newly updated edge. } \\ \frac{1}{|\mathcal{N}(i)|}-\varphi_{1} & \text { elsewise. } \end{array}\right. \]

其中\(\varphi_{0} \in\left[0,1-\frac{1}{[\mathcal{N}(i)}\right], \varphi_{1} \in\left[0, \frac{1}{\mid \mathcal{N}(i)}\right]\)，這種抽樣策略加強了由新更新的邊連線的節點應該得到更多的權重

在第4.2節中，該策略將對鄰居集進行抽樣，並在聚合資訊時用\(\mathcal{N}_\text{sample}(i)\)替換\(\mathcal{N} (i)\)。對於2跳鄰居\(\mathcal{N}^2(i)\)，我們只使用隨機抽樣。

4.4 Temporal Node Embedding

作者解釋為為什麼可以使用LSTM：

假設我們聚合了所有快照中每個節點的資訊。關鍵的一點是如何結合這些離散表示並獲得最終的嵌入結果，因為節點互動在快照之間是獨立的。受機器翻譯、文字分類等的啟發，在自然語言處理中，時間軸中的每個節點都可以看作是句子中的一個單詞。

因此，可以使用LSTM[42]學習隱含層節點表示。將LSTM層定義為如下表示

\[h_{t}(i)=\operatorname{LSTM}\left(\left[U^{0}(i), U^{1}(i), \ldots, U^{t}(i)\right]\right) \]

\(h_t(i)\)包含所有的時間步下的資訊，然而，每個快照對最後一個節點表示的貢獻是不同的，即，前一個時間步驟中的事件可以在不同程度上影響當前表示。

例如圖1(b)中，\(v_1\)一開始傾向於與喜歡運動的人交流。隨著時間的推移，他被其他事情所吸引，比如看電影和畫畫。但是當他回到運動的興趣下時，時間為\(n + t\)，我們可以發現許多朋友在時間\(t\)重新出現在他的交流列表。因此，第\(t\)個快照的鄰域資訊對當前節點表示的影響最為顯著。其數學表示式為

\[h^{s}(i)=\gamma_{0} h_{0}(i)+\gamma_{1} h_{1}(i)+\cdots+\gamma_{t} h_{t}(i)=\sum_{n=0}^{t} \gamma_{n} h_{n}(i) \]

為了有效地模擬歷史資訊的貢獻，我們在LSTM網路中加入了注意機制。設\(H(i)\)是\([h_0(i)， h_1(i)，…，h_T (i)]\)，\(H(i) ∈ R^{T ×d}\),式中\(T\)為快照個數，\(d\)為LSTM層的隱藏維數。則有下式

\[\begin{array}{c} Q(i)=\tanh (H(i)), V(i)=\tanh \left(h_{T}(i)\right) \\ \gamma=\operatorname{softmax}\left(Q(i) \cdot w_{1}^{T}+w_{2} \cdot V^{T}(i)\right) \\ h^{s}(i)=\tanh \left(\gamma^{T} \cdot Q(i)\right) \end{array} \]

其中

\(w_{1} \in \mathbb{R}^{1 \times d}, w_{2} \in \mathbb{R}^{T \times d}\)為學習引數，分別對\(H(i)\)和\(h_T (i)\)進行轉換。

\(h^s(i) \in \mathbb{R}^{1 \times d}\)為節點\(i\)在最終快照\(G^t\)中的表示，它可以儲存時間資訊。

損失的目標為約束相似性最高的節點嵌入最接近的潛在空間。同時，離散或相距較遠的節點將受到懲罰。損失如下：

\[\begin{aligned} L_{i}=& \sum_{j \in N_{\text {walk }}(i)}\left[-\log \left(\sigma\left(h^{s}(i) h^{s}(j)\right)\right)\right.\\ &\left.-Q \cdot \mathbb{E}_{k \sim p_{n}(k)} \log \left(-\sigma\left(h^{s}(i) h^{s}(k)\right)\right)\right]+\nu\|W\|_{F} \end{aligned} \]

其中

\(N_{walk}(i)\)是隨機遊走中節點\(i\)附近出現的節點的集合。

\(p_n\)是負抽樣分佈，\(Q\)是取樣的負節點數

\(\nu\)是衰減係數，\(W\)是模型的學習引數。權重衰減項可以防止訓練階段的過擬合。

\(h^s (i),h^s (j)\)為計算節點間接近度的內積。採用隨機梯度下降法對損失函式進行優化。

該模型的計算過程見演算法1。

第2-9行為從鄰域中提取特徵，並確保節點嵌入在時間步中平滑變化。

第10-14行迭代\(G^T\)節點訓練LSTM，捕捉網路演化。

Experiment

5 EXPERIMENTS

5.1 Data Sets

資料集及其引數見表1

5.2 Baselines

Node2Vec

SDNE

Dyngraph2vecAE ，Dyngraph2vecAERNN

EvolveGCN

CTGCN

tNodeEmbed

5.3 Experimental Setup

採用AUC作為指標，

嵌入維數設為128

權重衰減係數\(\nu\)為0.001

對於Facebookand Digg, 學習率是 0.001，而在Email中學習率將是0.0003。設定快照數量為12個。

5.4 Experimental Results

5.4.1 Link Prediction

Link reconstruction 見表2

Changed link prediction 見表3表4

Removing temporal part見表5

5.5 Parameter Sensitivity

Embedding dimension 見圖4

Number of snapshots 見圖5

Summary

在這篇文章裡學到了用node2vec來做圖嵌入的初始化，整篇文章讀下來總結一下就是DTDG用時間平滑來儘可能的模擬CTDG，然後用了類GCN的資訊聚合，用了隨機取樣減少計算量，用了注意力權重來控制鄰居的影響，用LSTM儲存時序資訊，整體上沒看出來有啥新意，又是一篇搭積木

論文閱讀 Exploring Temporal Information for Dynamic Network Embedding