使用基於時間的關係加權標準來改善社交網路中的連結預測

solution發表於2021-09-09

使用基於時間的關係加權標準來改善社交網路中的連結預測

關鍵詞:連結預測,社交網路,加權圖。

 

摘要:近年來,對複雜網路中鏈路預測(LP)問題的研究引起了相當多的關注。此問題試圖預測網路中兩個未互連節點之間出現未來關聯的可能性。已經開發了各種方法來解決這個問題。其中一些計算連線節點之間的相容性程度(連結強度),並應用非連線節點之間的相似性度量以識別潛在連結。然而,儘管時間資料對LP問題的重要性得到公認,但很少有舉措研究使用這種資訊來表示連結強度。在本文中,我們提出了一個權重標準,它將互動頻率和關於它們的時間資訊結合起來,以便定義連線節點對之間的連結強度。我們在10個共同作者網路中使用傳統加權相似性度量的實驗結果證實了我們的假設,即基於時間資訊的加權連結事實上可以改進連結預測。擬議的標準制定,實驗程式和所進行的實驗結果進行了詳細討論。

1. 引言

近年來,社會網路分析受到了科學界和工業界的高度關注(Wang et al。,2015)。 它試圖瞭解大規模社交網路的結構如何演變。 例如,預測未來一對節點是否會連線是一個重要的網路分析任務,稱為鏈路預測(LP)問題(Liben-Nowell和Kleinberg,2007)。 已經開發了各種方法來預測社會網路中的連結(Adamic和Adar,2003)(Barabasi等,2001)(Choudhary等,2013),(Liben-Nowell和Kleinberg,2007)(Munasinghe和Ichise,2012年 ),(Valverde-Rebaza等,2015),(Lu¨和Zhou,2010),(Murata和Moriyasu,2007),(Soares和Prudencio,2011),(Zhu and Xia,2016)。 根據(王等人,2015),這些方法分為兩種方法:

(1)監督 - 這種方法將原始圖轉換為二元分類問題,並使用決策樹和神經網路等學習演算法來構建分類模型(Hasan等,2006)。

(2)無監督 - 來自這種方法的方法基於相似性度量,該度量計算分數以表達在非連線節點對之間的某種相容性程度(例如,同源性,關係,分離程度等)。然後獲得一個按照得分降序排列的列表,並且來自列表頂部的對的節點更可能連線(Liben-Nowell和Kleinberg,2007)。公共的鄰居(CN)和Adamic-Adar索引(AA)的數量是在計分計算中經常使用的基於拓撲的相似性度量的典型示例(Wang et al。,2015)。

節點連線時也可以考慮相容程度。在這種情況下,它被稱為節點之間的連結強度,並由分配給表示相應連線的邊的數字權重組成。鏈路強度值越高(低或越低),表示節點強烈(或弱)連結。從無監督方法到LP問題的大多數舉措都沒有考慮到連結強度。然而,這些資訊可能被用來為連結預測提供有用的見解。例如,與其共同鄰居強聯絡的兩個非聯結節點比聯結其共同鄰居的聯結更可能連線。

很少有關於LP問題的無監督方法的研究評估了連線節點之間連結強度的使用(Murata and Moriyasu,2007),(Lu¨和Zhou,2010)(Soares和Prudencio,2011)(Zhao et al。, (Taha,2007),(Zhu and Xia,2016),(Dunlavy et al。,2011)。他們採用了一些加權標準來計算連結強度3。在幾乎所有這些標準中,所採用的權重標準是節點(Fi)(村田和Moriyasu,2007),(Lu和Zhou,2010),(Soares和Prudencio,2011),夏,2016)。基於Fi,頻繁互動的節點之間的連結強度高於偶爾連線的連結強度。雖然有趣,但這個標準並沒有考慮到互動發生的時間。因此,新舊互動在體重定義上具有相同的影響力。這一特徵並不能滿足弱關係的社會理論(Granovetter,1973)。根據這種理論,最近的相互作用傾向於刺激網路中新的相互作用的發生。因此,最近的連線應該在鏈路強度計算中有更高的影響,並因此在鏈路預測中有更大的影響。

我們的假設是基於互動頻率和時間資訊的組合加權連結可以改善連結預測。 為了說明這一點,在本文中,我們提出了一個權重標準(稱為FTi),它將互動頻率和關於它們的時間資訊相結合,以提高連結強度的質量,從而提高社交網路中LP的效能。 在實驗中,我們執行FTi和Fi來分析每個網路的權重。 此後,我們比較了WCN和WAA應用於所有加權網路的效能。 兩種指標在應用於FTi標準加權的網路時表現出更好的效能,證實了我們的假設。

該文字包含其他五個部分。 第2節介紹一些關於連結預測的背景知識。 在第3節中,我們描述了建議的加權標準。 關於實驗結果的細節在第4節中給出。結論和未來的工作在第5節中提出。

2. 背景

給定在時間ti和相似性度量d(d:VxVR)上的齊次歸屬多圖G(V,E)的快照,透過以下步驟描述無監督方法對LP的一般過程(Liben-Nowell 和Kleinberg,2007年):

(1)Graph分割槽 - 這個步驟將G(V,E)分成兩個子圖:GTraining(V,EOld)和GTest(V,ENew)。 GTraining包含直到ti為止建立的所有邊(即,e.t≤ti且e∈EOld)。 類似地,GTest包含在ti之後建立的所有邊e(即,e.t> ti和e∈∈ew)

(2)Graph加權 - 首先,它在GTraining中連線的節點之間建立人工邊界。 然後它計算每個邊的權重。 權重計算遵循特定標準(例如,相應節點之間的原始邊緣的數量)。 圖1說明了這個過程。

 圖片描述

圖1:人工加權圖的例子。 原始圖形中存在由連續線表示的邊線。 用虛線表示的那些是為了LP目的而人為建立的。 加權標準定義了虛線的權重。

 

(3)核心標識 - 該步驟負責過濾活動節點vi,即在GTraining中至少有k個原始邊緣和至少k個GTest中的原始邊緣的節點。引數k由使用者定義,通常取決於 網路中發生互動的平均頻率。 活動節點比很少與其他節點互動的節點更可能連線。 Core,G中所有活動節點的集合就是這一步的輸出。

(4)4分值計算 - 它使用d來為每對屬於核心的節點vi和v j分配一個分數d(vi,v j),並且在GTraining中沒有連線。

(5)效能評估 - 此步驟按d(vi,v j)(排名表中第一位較高的分數d(vi,v j))對配對(vi,v j)進行排序。排名列表中的Top-N對(vi,v j)被選為具有最高可能性的節點在t之後進行連線。 N是未在GTraining中連線但在GTest中連線的活動節點對的數量(見公式1)。最後,這一步將d的效能與基線隨機預測器的效能進行比較。隨機預測器只是簡單地預測在GTraining中沒有連線的隨機選擇的節點對。隨機預測正確的機率僅由| ENew |之間的比率表示和可能的正確預測的數量((核心) - | Eold |)。公式2輸出相對於隨機預測器的相似性度量的改進因子,其中Ecorrect是程式正確預測的連結數量。這個因素是傳統上用來比較LP中相似性度量的效能的評估度量(Liben-Nowell和Kleinberg,2007)。

 圖片描述

關於上面介紹的無監督方法有一些重點需要強調:

(6)過去幾年,對LP的非監督方法進行了深入的研究(Liben-Nowell和Kleinberg,2007),(Lu和Zhou,2010),(Li等,2012),(Kuo等,2013)。 基本上,相關工作在構思相似性指標的方式和用於生成分數的資訊種類方面有所不同。

(7)雖然圖形加權步驟不屬於(Liben-Nowell和Kleinberg,2007)提出的原始過程,但它經常被考慮到連線節點的連結強度以預測新的連線。

(8)相似性度量的選擇是無監督方法的一個重要決策。 (Murata和Moriyasu,2007)是第一個提出圖表加權步驟和相似性度量的加權版本(如常見鄰居和Adamic-Adar索引)的工作。 有關這些指標的原始版本和加權版本,請參閱表1。 加權度量不考慮圖的原始邊。 對於這些度量標準,分數計算僅限於圖形加權步驟構建的模擬邊。)

表1:在LP中使用得分計算方法的例子 - 原始版本和加權版本。

 圖片描述

3.提出的權重標準

本節介紹了在LP的無監督方法的圖加權步驟中使用的建議加權標準(FTi)。 受到弱關係社會理論的啟發,FTi標準的構想是將相互作用的頻率與關於它們的時間資訊相結合,以便最近的相互作用在預測新的關聯方面比舊關係具有更高的影響。

等式3定義了FTi標準。 它應用於加權圖的每個人造邊緣幷包含兩個因素:

 圖片描述

(1)第一個函式(NoI(u,v))返回節點u和v之間互動(原始邊)的數量(頻率)。

(2)受(Munasinghe和Ichise,2012)提出的時間分數度量的啟發,第二個(βCT-max(t(u,v)))是一個阻尼因子(即需要考慮時間)。 最近互動的連線節點之間的權重高於最近一次互動發生在過去的那些節點之間的權重。 CT表示當前時間。 函式max(t(u,v))返回u和v之間邊中最近的時間戳。因此,CT_max(t(u,v))返回最近一次u 和v到當前時間。 β是屬於區間[0,1]的引數,分析人員使用它來校準加權過程中最近相互作用年齡的重要性。 β的較高(或較低)值在加權定義中增強(或衰減)時間的影響。

考慮如圖1所示的例子。將權重標準限制為互動的次數(Fi)(Murata和Moriyasu,2007)(Lu¨和Zhou,2010),(Soares和Prudencio,2011),( Zhao等人,2015),(Taha,2007),(Zhu and Xia,2016),(Dunlavy et al。,2011),所有三對節點的權重是相同的(權重(A,D) =權重(B,D)=權重(C,D)= 3)。 因此,他們的聯絡在分數計算中具有同樣的重要性,因此在連結預測中也是如此。 例如,WCN相似性度量將針對三個可能的新連結(WCN(A,B)= WCN(A,C)=WCN(B,C)= 3)呈現相同得分,表明它們在連結預測中沒有偏好。

另一方面,如果按照FTi準則的規定考慮了時間資訊,那麼最近的相互作用會導致更高的權重,並因此在鏈路預測中更多地受到影響(根據弱關係理論)。 在該示例中,使用CT= 2016並且β= 0.8的FTi準則,權重將是:

 圖片描述

雖然,三對節點呈現相同的互動頻率(每個三個連線),但與FTi相比,最近互動的節點獲得了更高的權重。相互作用的頻率隨著每對節點之間最近相互作用的年齡而衰減。 (A,D)對的權重最高。事實上,由於節點在當前時間內互動(2016年),A和D之間的互動頻率沒有受到衰減。另一方面,對(B,D)和(C,D)的節點之間的相互作用的頻率確實遭受了一些衰減。節點C和節點D之間的最後一次互動發生在2014年(年份差= 2歲)。 B和D最後在2015年互動(年份差= 1年)。因此,(C,D)的權重高於(B,D)的權重。

考慮到FTi提出的權重,WCN相似性度量將為三個可能的新連結提供不同的評分 (WCN(A, B) =2.7; WCN(A,C) = 2.5; WCN(B,C) = 2.2)。根據這個度量標準,配對(A,B)比其他配對更可能連線。兩個節點(A和B)最近與其共同鄰居(D)互動,而不是其他對。強調這一結果符合弱關係理論是非常重要的。事實上,根據這個理論,那些最近的互動會刺激網路中出現新的互動,很可能在節點A和B之間。

4.實驗

4.1資料集

我們選擇了兩個版本(Liben-Nowell和Kleinberg,2007)使用相同的五個共工作者網路來執行我們的實驗。 第一版(1994年至1999年的論文)覆蓋了(Liben-Nowell和Kleinberg,2007年)使用的相同時間間隔。 這對幫助我們驗證我們的實施非常重要。 第二版(2000年至2005年的論文)涵蓋了(Munasinghe和Ichise,2012年)使用的同一時期。 所有網路都是從arXiv API9中提取的。

這兩種版本的網路都是同質的多圖,其中節點和邊分別代表作者和論文。 所有網路在邊緣都包含一個屬性:論文的發表年份。

4.2實驗過程

我們的實驗遵循了第2節中描述的相同步驟。關於每一步的具體內容如下:

•圖表分割槽 - 我們將每個網路分為兩個三年的時間段。因此,從1994年到1999年的每篇論文都被劃分為GTraining [1994,1996]和GTest [1997,1999]。同樣,2000年至2005年的論文網路分為GTraining [2000,2002]和GTest [2003,2005]。

•圖加權 - 我們在GTraining中連線的節點之間建立了人造邊。然後我們計算出每個人工邊緣的十個權重值。 Fi是用於計算第一個權重的權重標準。 FTi被用來計算

其他九個權重。我們將阻尼因子β的值從0.1變化到0.9。 β的每個值都導致九個權重之一。

•核心識別 - 為了識別屬於核心組的節點,我們考慮了k = 3。因此,核心組成員包括所有在訓練集至少寫過3篇文章的活躍作者,以及至少3篇文章測試集。有三個原因指導了這種選擇:(a)所有網路的訓練和測試周期的長度為三年; (b)我們認為一年可能是紙張出版的合理頻率間隔; (c)這與(Liben-Nowell和Kleinberg,2007)中定義的相同的值,其中進行了類似的實驗。

•分數計算 - 此步驟執行每個網路中每個模擬邊緣的相似性度量(WCN和WAA)。 為了更好地呈現結果,我們使用首字母縮略詞WCNFi和WAAFi來表示用Fi標準產生的權重計算的相似性度量。 首字母縮略詞WCNFTi(β)和WAAFTi(β)用於表示用所提出的權重標準產生的權重計算的相似性度量。

•效能評估 - 將WCNFi,WAAFi,WCNFTi(β)和WAAFTi(β)的效能與隨機預測器的效能進行比較。 它們代表隨機預測變數相應度量的改進因子。

4.3結果

表2和表3提供了識別核心步驟後的網路的一些統計資料。

 

表2:關於實驗中使用的第一版網路的統計資料 - 1994年至1999年的論文。

 圖片描述

圖2和圖3顯示了每個網路上每個度量在隨機預測器上的改進因子的效能。 整體分析顯示,在所有網路和時段中,沒有任何指標超過所有其他指標。 儘管如此,仔細分析可以看出一些有趣的結果。

 圖片描述

在衡量標準的兩兩比較中,WCNFTi和WAAFTi分別在六個網路(60%)和七個網路(70%)中表現優於WCNFi和WAAFi。 同樣重要的是強調WCNFTi和WAAFTi分別在第二版的五個網路中的四個(80%)和五個(100%)中表現優於WCNFi和WAAFi。 我們認為,這是由於這些網路更近(2000年至2005年),因此比第一版(1994年至1999年)更完整和更新。

 

在加權標準的兩兩比較中,FTi在十個網路中的六個(60%)中表現優於Fi。這六個網路中的五個屬於第二個版本,加強了我們關於該組網路完整性的理論。在兩個網路中,兩個標準都導致了可比的結果。 Fi僅在兩個網路中跑贏了FTi。

所有上述結果證實了弱關係理論和我們的假設,即基於時間資訊的加權連結可以改善連結預測。

 圖片描述

圖4和5顯示了兩個網路版本中相似性度量WCN和WAA中的FTi引數(阻尼因子)獲得的平均效能。對於網路的第一個版本,對於兩個相似性指標,β= 0.4時達到最佳效能。第二版WCN的最佳效能是在β= 0.2時達到的,而WAA是在β= 0.6時達到的。

最後,我們的結果還顯示,WAA在所有網路中幾乎總是跑贏WCN。事實上,FTi和Fi標準並沒有改變這種情況。它表明,無論加權標準如何,次要的和主要的共同鄰居可能會比用主要共同鄰居產生更好的結果有用。

5. 結論

 

預測未來一對節點是否將連線是一項重要的網路分析任務,稱為鏈路預測(LP)問題。已經開發了各種方法來預測社交方法中的聯絡。其中一些計算連線節點之間的相容性程度(連結強度),以獲得LP的有用見解。然而,儘管時間資料對LP問題的重要性,但很少有舉措調查了使用這種資訊來表達連結強度及其在連結預測中的相應結果。

受到弱關係社會理論的啟發,在本文中,我們提出了一個權重標準,它將關於它們的互動頻率和時間資訊(FTi)相結合,以便定義社交網路中連線節點對之間的權重(連結強度)。根據FTi,最近的互動在權重計算方面比舊的互動有更大的影響,在LP中。我們的實驗是由許多有關LP的研究以前使用的十個共工作者網路完成的。我們比較了傳統相似度量加權公共鄰居(WCN)和加權亞當 - 阿達爾(WAA)產生的效能,並結合兩個加權標準:一個是提出的標準(FTi),另一個是最先進的加權標準,僅基於互動頻率(Fi)。結果表明,在大多數網路中,WCN和WAA聯合FTi優於WCN和WAA聯合Fi,證實了我們的假設,即基於時間資訊的加權鏈路可以改善鏈路預測。

作為未來的工作,我們考慮制定一個同時結合時間,拓撲和背景資料的加權標準。評估我們的基於時間的加權標準對LP問題的監督方法的影響也是有趣的。我們的標準與聯合作者背景下的網路實驗也是可取的。對於更多的網路,我們還計劃檢查加權標準獲得的結果之間的統計顯著性差異。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/2459/viewspace-2808660/,如需轉載,請註明出處,否則將追究法律責任。

相關文章