Scale-free networks are rare
強無標度網路在現實網路中的罕見性
論文作者:
Anna D. Broido, Aaron Clauset(科羅拉多大學波德分校)
論文連結:
https://www.nature.com/articles/s41467-019-08746-5
原始碼連結:
https://github.com/adbroido/SFAnalysis
前言
現實世界中的網路通常聲稱是無標度的,這意味著節點度k遵循著冪律分佈k^-α,這對複雜系統的結構和動力學具有非常廣泛的影響。但是,無標度網路的普遍性是存在爭議的。
在本論文中,定義了無標度網路的不同衡量尺度,並將其應用於近1000個社會、生物、技術、交通和資訊等網路中,對其無經驗性進行了嚴格的檢驗。在這些網路中,本文發現,從經驗上講,有著高度無尺度性質的網路結構很少見,而對大多數網路而言,對數正態分佈擬合資料的能力與冪律分佈一樣好,有時甚至更好。而且,實驗表明,社交網路充其量只是弱無標度的,而只有少數技術和生物網路是無標度的。
背景介紹
網路是表示和研究複雜系統結構的有力方法。個人之間的社會互動,生物有機體中蛋白質或基因的互動,數字計算機之間的交流以及各種運輸系統等等都是網路作為研究手段的例子。
在整個科學領域和網路類別中,通常都會遇到這樣的說法:大多數或所有現實世界網路都是無標度的。一般,如果節點度k遵循冪律分佈k^-α,其中α>1則認為這樣的網路是無標度網路。當然,有一些版本中會需要更多的要求,例如需要2<α<3或者節點度的演變符合優先連線機制。無標度網路的研究和應用在網路科學中是很普遍的,許多研究調查了無標度結構的存在是如何影響在網路上的動態執行,無標度網路也被廣泛用作基於網路的數值模擬和實驗的基礎。
然而,無標度網路存在的普遍性仍然存在爭議,已有許多研究表明了對它普遍性存在的支援,但仍存在許多統計或理論方面的挑戰。導致這些衝突觀點存在的原因包括:之前的工作中通常依賴的是較小的、特定領域的資料集;不太嚴格的統計方法;“無標度”結構的不同定義以及不清楚哪些可以作為衡量無標度網路存在的標準等等。此外,也很少有研究對擬合的冪律分佈與可替代的無標度分佈(例如正態分佈或拉伸指數分佈)進行嚴格的比較。
為解決這些衝突,本文進行嚴格測試,通過將最先進的統計方法應用於大量不同的現實網路來解決無標度網路的普遍性。為了明確涵蓋之前研究中無標度網路定義方式的各種變化,本文形式化了一組定量標準,這些標準代表了特定網路中無標度結構的不同強度。對語料庫中的每個網路資料集,我們估計最合適的冪律分佈模型,測試其統計合理性,並將其與其他非無標度分佈進行比較。最後我們分析這些結果,考慮無標度結構的證據如何在各個域之間變化,並在幾種替代標準下定量評估其穩健性。最後,我們給出了對之後研究的討論和對未來網路結構的發展的一些建議。
實驗
準備
本文使用的語料庫由928個網路資料集組成,這些資料集來自ICON,涵蓋生物學、資訊、社會、技術和運輸領域的網路,其範圍從數百個節點到數百萬個節點不等。
下圖展示的是該資料集中平均度和節點數量n之間的函式。為確定哪些度分佈是可用的度分佈,本文首先應用一系列圖形轉換,將給定的網路資料集轉換為一組簡單圖,每個簡單圖都可以明確測試無標度結構。此過程中,在預先指定閾值下過於密集或稀疏的簡單圖將被捨棄。然後,對每個簡單圖應用標準統計方法來定義度右尾分佈的最佳擬合冪律分佈,並用擬合優度檢驗評估其統計合理性,同時使用似然比檢驗將四個可替代的分佈擬合到右尾的相同部分來進行比較。
無標度網路的定義
一個分佈被定義為無標度結構通常有一下兩種情況:
(i)冪律分佈不一定是度分佈的最好模型,但它相對來說比可替代分佈會更好;
(ii)冪律分佈本身就是最好的度分佈的最好的模型。
對於第一種情況,可被歸類為:
超弱:對於至少50%的圖形,沒有其他分佈優於冪律分佈。
對於第二種情況,可被歸類為以下三種:
最弱:對於至少50%的圖,冪律分佈不能被拒絕(p ≧ 0.1);
弱:在最弱的要求上,冪律分佈區域至少包含50個節點;
強:在弱和最弱的要求上,對至少50%的圖滿足2<αˆ<3;
最強:最少90%的圖形滿足“強”的要求,至少95%的圖形滿足“超弱”的要求。
同時還有不屬於上述任何類別的網路:
非無標度:既不是超弱也不是最弱的網路
下圖展示了上面敘述的無標度劃分:
縮放引數
在整個語料庫中,中值估計縮放引數的分佈引數αˆ集中在αˆ=2上,但有長的右尾,因此有32%的資料集αˆ≧3。
從下圖可以看出,α∈(2, 3)的範圍是包括無標度網路特徵最具代表性的範圍。在無標度結構的五類中,中位數αˆ的分佈差異很大,對於屬於“超弱”類別的網路,分佈的廣度與總體分佈相似,右尾長且許多網路αˆ≧3,表明他們並不是特別合理的無標度網路。在“最弱”和“弱”的無標度中,中位數αˆ仍分佈廣泛,但是到“強”和“最強”的類別中,基本集中於αˆ∈(2, 3)。
可替代分佈
本文通過似然比測試對冪律分佈和四種可替換分佈進行了分析,分析結果如下表所示。對指數分佈來說,它具有較弱的尾部和相對較低的方差,相比於冪律分佈33%的支援率,它有41%的支援率,這樣的結果符合縮放引數的廣泛分佈,因為當α≧3時,度分佈必須有相對較細的尾巴。正態對數分佈是一個分佈較寬且重尾的分佈,但仍不是無標度的。表中顯示它自身的支援率(48%)是冪律分佈(12%)的三倍以上,也具有非常大的不確定性(40%)。換句話說,其實正態對數分佈至少與絕大多數度分佈(88%)的冪律擬合的非常好,這表明許多先前確定的無標度網路實際上很可能是正態對數分佈。威布林或者說拉伸指數分佈可以產生重尾或細尾分佈,情況類似於指數分佈。最後一個指數截止的冪律分佈的結果顯示大多數網路(56%)都傾向於使用具有截止模型的冪律,這表明有限尺度的影響是非常常見的。
評估無標度假設
給定擬合、測試和比較網路上冪律分佈的結果,我們現在根據上述六個類別對每個類別進行分類。從下圖可以看出有49%的網路不是無標度網路,有46%屬於超弱的類別,而只有10%和4%的網路資料集可以被歸為強和超強的類別中。這個實驗結果表明真正的無標度結構可能並不如以往工作中所建議的普遍,且無標度結構可能並非實驗中一個通用的模型。
當然,這些資料也會隨著各個不同領域的資料發生變化,具體結果如下圖所示。本文主要分析的重點是生物學、社會和科技三個具體領域的網路上。在生物網路中,有63%不屬於無標度的類別,這一類別中真菌網路佔了非常大的一部分,還包括一些蛋白質相互作用網路和一些食物網路等。在剩下來的網路中,有6%表現出最強,這部分主要是代謝網路。相比之下,社交網路呈現出不同現象,它竟然沒有強和最強的類別,因此,社交網路充其量只能是微弱的無標度。技術網路中有90%展現出超弱的性質,而且有28%屬於強的類別。
穩健性分析
為評估這些結果對評估方案本身的依賴性,我們進行了一系列穩健性測試。這些測試主要包括:(i)僅考慮簡單資料集(無權、無向、無重邊、單鏈);(ii)我們從可替代的分佈中刪除截止的冪律分佈;(iii)我們降低所有類別的百分比閾值,以便任何一個組成簡單圖滿足要求的情況下都能包含在內;(iv)分析度分佈的第一和第二距比率的縮放行為。
其中第三個測試結果如下圖所示:
由圖可知,在考慮了“最鬆散”的引數化之後,降低每個類別的閾值,在此修改下,強和最強都為18%,這些測試結果表明,在主要評估方案的類別定義中使用的百分比要求不是過於嚴格,並且我們的結論對評估所使用的閾值的變化是可靠的。第四個檢測提供了對無標度假設的關鍵預測的模型獨立性評估,由於矩<k^m>在m<α-1上是有限的,且所有高階矩都是逐漸發散的,因此在α∈(2, 3)的範圍上,力矩比<k^2>/<k>^2隨著網路規模n的增加而發散。
第四個測試結果如下圖所示:
從圖中可以看出,跨網路、域和規模的比率之間存在著巨大的差異。例如10^2≦n≦10^3上的比率常常比網路大幾個數量級。
討論
本文對無標度假設的評估中使用了統計和分類思想來提供一種定量且嚴格的劃分方法,從而評估某些網路中顯示無標度結構的程度。
通過評估來自各個領域的近1000個現實世界網路的度分佈,我們發現無標度網路並非無處不在的,只有少於36個網路(大約4%)顯示出無標度結構的超強性質,而在88%的網路中,對數正態擬合度分佈甚至優於冪律分佈。在不同的領域中,無標度結構所佔比例通常是不同的,這些差異為無標度結構真正可能會出現的地方提供了提示資訊。
相比之下,我們發現社交網路充其量是弱無標度的,儘管冪律分佈是這些網路在統計上合理的模型,但卻不是最好的模型。同時,本文的統計評估僅考慮網路的度分佈,而對控制任何特定網路形式的其他結構模型或基礎過程的描述相對較少。
本文揭示的現實網路的結構多樣性既是難題也是機遇,以往工作中對解釋和利用無標度模型的廣泛關注表明對於產生非無標度結構模式的機制的瞭解相對較少,那麼開發和驗證用於在網路中生成更現實的網路結構的新穎機制就成為了未來主要的工作方向。
(本文圖片均來自論文截圖)