Erdos-Renyi隨機圖的生成方式及其特性

orion發表於2022-05-10

原文網址 : https://www.cnblogs.com/orion-orion/p/16254923.html

1 隨機圖生成簡介

1.1 \(G_{np}\)和\(G_{nm}\)

以下是我學習《CS224W：Machine Learning With Graphs》^[1]中隨機圖生成部分的筆記，部分補充內容參考了隨機演算法教材^[2]和wiki^[3]。隨機圖生成演算法應用非常廣泛，在NetworkX網路資料庫中也內建的相關演算法。我覺得做圖機器學習的童鞋很有必要了解下。

Erdos-Renyi隨機圖^[4]以兩位著名的匈牙利數學家P.Erdős和A. Rényi的名字命名的，是生成隨機無向圖最簡單和常用的方法，包括以下兩種緊密相關的變體：

\(G_{np}\): 擁有\(n\)個節點，且邊\((u, v)\)以獨立同分布的概率\(p\)產生的無向圖
\(G_{nm}\): 擁有\(n\)個節點，且其中\(m\)條邊按照均勻分佈取樣生成的無向圖。

(八卦：最常被討論的\(G_{np}\)其實是Gilbert^[5]提出的，不過由於P.Erdős和A. Rényi提出的\(G_{nm}\)更早一些，後來就將兩種都統稱Erdos-Renyi隨機圖了)

1.2 生成方法

\(G_{np}\)：按某個次序考慮\(\tbinom{n}{2}\)條可能邊中的每一條，然後以概率\(p\)獨立地往圖上新增每條邊。
\(G_{nm}\): 均勻選取\(\tbinom{n}{2}\)條可能邊中的一條，並將其新增為圖的邊，然後再獨立且均勻隨機地選取剩餘\(\tbinom{n}{2}-1\)可能邊中的一條，並將其新增到圖中，直到\(m\)邊為止（可以證明，雖然是無放回取樣，但是每次取樣是獨立的，任意一種\(m\)條邊的選擇結果是等概率的）。

值得一提的是，在\(G_{np}\)中，一個有\(n\)個頂點的圖具有\(m\)條邊的概率滿足分佈：

\[\tbinom{\tbinom{n}{2}}{m} p^m(1-p)^{\tbinom{n}{2}-m} \]

該分散式二項分佈，邊的期望數為\(\tbinom{n}{2}p\)，每個頂點度的期望為\((n-1)p\)。

1.3 兩種方法比較

兩者的相同點：節點數量都為\(n\)，且邊數量的期望為\(p\tbinom{n}{2}\)；
兩者的區別：\(G_{np}\)的可能邊數量在\(\tbinom{n}{2}p\)上下波動，而\(G_{nm}\)則恆定有\(m\)條邊。

2 \(G_{np}\)隨機圖

2.1 只用\(n\)和\(p\)夠嗎？

\(n\)和\(p\)並不能完全決定一個圖。我們發現即使給定\(n\)和\(p\)，圖也有許多實現形式。如當\(n=10, p=1/6\)時，就可能產生如下的圖：

2.2 \(G_{np}\)的圖屬性

接下來我們考慮給定\(n\)和\(p\)，圖\(G_{np}\)所可能擁有的不屬性，包括度分佈\(p(k)\)、聚類係數\(C\)、連通分量、平均最短路徑長度\(\bar{h}\)等。

度分佈

\(G_{np}\)的度分佈是滿足二項分佈的，我們設\(p(k)\)為任意節點度數的概率分佈函式。當節點數\(n\)足夠大時，\(p(k)\)可視為對度為\(k\)的節點所佔比例的近似。我們有：

\[p(k)=\left(\begin{array}{c} n-1 \\ k \end{array}\right) p^{k}(1-p)^{n-1-k}\quad (k=0, 1,..., n-1) \]

其中\(\left(\begin{array}{c} n-1 \\ k \end{array}\right)\)表示從\(n-1\)個節點中選\(k\)個節點，\(p\)為邊產生的概率。該分佈是二項分佈，所以我們有以下均值和方差：

\[\begin{aligned} & \bar{k} =(n-1)p \\ & \sigma^2 = (n-1)p(1-p) \end{aligned} \]

二項分佈的離散分佈影像如下圖所示：

當\(n\)足夠大時，二項分佈可以用正態分佈去近似。

聚類係數

我們設

\[C_{i}=\frac{e_{i}}{\tbinom{k_i}{2}} \]

此處\(e_i\)為節點\(i\)鄰居之間的邊數，\(k_i\)為節點\(i\)的度，\(\tbinom{k_i}{2}\)為節點\(i\)的鄰居間可能存在的邊總數。由於\(G_{np}\)中邊都按照概率\(p\)獨立同分布，我們有

\[\mathrm{E}(e_i)= \tbinom{k_i}{2}p \]

其中\(p\)為節點\(i\)的鄰居間兩兩結合的概率，\(\tbinom{k_i}{2}\)為節點\(i\)的鄰居間可能存在的邊總數。

我們進一步可推知聚類係數：

\[C =\mathrm{E}(C_i)= \frac{\mathrm{E}(e_i)}{\tbinom{k_i}{2}}=p=\frac{\bar{k}}{n-1} \approx \frac{\bar{k}}{n} \]

連通分量

圖\(G_{np}\)的圖結構會隨著\(p\)變化，如下圖所示：

觀察可知其中當巨大連通分量（gaint connected component）出現時，\(p = 1/(n-1)\)，此時平均度\(\bar{k} = (n-1)p=1\)。

平均度\(k=1-\varepsilon\)(即小於1)時，所有的連通分量大小為\(\Omega(\log n)\)；

平均度\(k = 1 + \varepsilon\)（即高於1）時，存在一個連通分量大小為\(\Omega(n)\)，其它的大小為\(\Omega(\log n)\)。且每個節點在期望值上至少有一條邊。

如下圖所示為\(G_{np}\)中，\(n=100000\)，\(\bar{k}=(n-1)p=0.5,..., 3\) 時的模擬實驗影像：

根據模擬實驗，在\(G_{np}\)中，平均度大於1時，巨大連通分量恰好出現。

平均最短路徑長度

Erdos-Renyi隨機圖即使擴充套件到很大，仍然可以保證節點之間只有幾跳(hops)的距離，如下所示為圖的平均最短路徑長度\(\bar{h}\)隨節點數量變化的關係圖：

可以看到平均最短路徑長度\(\bar{h}\)隨著節點數量\(n\)增長並滿足\(O(\log n)\)的增長階。

2.3 真實網路和\(G_{np}\)的對比

相似點：存在大的連通分量，平均最短路徑長度

不同點：聚類係數，度分佈

在實際應用中，隨機圖模型可能有以下問題：

度分佈可能和真實網路不同，畢竟真實網路不是隨機的。
真實網路中巨大連通分量的出現可能不具有規律性。
可能不存在區域性的聚類結構，以致聚類係數太小。

3 程式碼庫

NetworkX中內建了Erdos-Renyi隨機圖的生成函式，包括\(G_{np}\)和\(G_{nm}\)。就是需要注意\(G_{np}\)的API^[6]是

erdos_renyi_graph(n, p, seed=None, directed=False)

該API與nx.binomial_graph 、nx.gnp_random_graph作用是相同的。

而\(G_{nm}\)的API^[7]是

nm_random_graph(n, m, seed=seed, directed=False)

故大家在實際使用中要注意區分。

參考

[1] http://web.stanford.edu/class/cs224w/
[2]
Mitzenmacher M, Upfal E. Probability and computing: Randomization and probabilistic techniques in algorithms and data analysis[M]. Cambridge university press, 2017.
[3] https://zh.m.wikipedia.org/zh-hans/隨機圖
[4]
Erdős P, Rényi A. On the evolution of random graphs[J]. Publ. Math. Inst. Hung. Acad. Sci, 1960, 5(1): 17-60.
[5]
Gilbert E N. Random graphs[J]. The Annals of Mathematical Statistics, 1959, 30(4): 1141-1144.
[6] https://networkx.org/documentation/stable/reference/generated/networkx.generators.random_graphs.erdos_renyi_graph.html
[7] https://networkx.org/documentation/stable/auto_examples/graph/plot_erdos_renyi.html?highlight=renyi

python生成隨機數、隨機字串
2018-12-18
Python隨機字串
Python如何隨機生成1到100的隨機數?
2024-02-01
Python隨機
基於隨機定位的地圖資訊獲取方式
2021-06-13
隨機地圖
【Javascript + Vue】實現隨機生成迷宮圖片
2021-06-23
JavaScriptVue隨機
更安全的隨機數生成
2022-01-04
隨機
Linux Shell 生成隨機數和隨機字串
2019-02-08
Linux隨機字串
JavaScript 生成隨機數
2019-04-10
JavaScript隨機
以太坊原始碼分析(54）以太坊隨機數生成方式
2018-05-14
原始碼隨機
Matlab 隨機生成兩個數值之間的隨機數
2018-09-03
Matlab隨機
生成固定大小的隨機檔案
2019-02-16
隨機
計算機儲存器的分類及其特性
2024-09-30
計算機
Linux 生成隨機密碼
2018-12-21
Linux隨機密碼
matlab 生成隨機數序列
2018-06-24
Matlab隨機
C++生成隨機數
2024-04-12
C++隨機
JS生成隨機密碼
2019-09-02
JS隨機密碼
隨機數生成器
2020-07-19
隨機
生成隨機字串並排序
2021-09-09
隨機字串排序
隨機字串生成與排序
2021-09-09
隨機字串排序
java隨機數生成原理
2021-09-11
Java隨機
bash及其特性
2018-06-26
numpy各種生成隨機數的方法
2019-03-23
隨機
Solidity陷阱：以太坊的隨機數生成
2018-12-07
Solid隨機
如何生成指定分佈的隨機數
2018-04-26
隨機
QT生成固定長度的隨機字串
2024-03-12
QT隨機字串
【java】隨機生成6位的數字
2019-02-13
Java隨機
生成指定區間的隨機小數
2019-01-03
隨機
生成某個範圍的隨機數
2020-12-23
隨機
幾種生成隨機數方法
2018-11-07
隨機
JavaScript生成隨機顏色值
2018-06-02
JavaScript隨機
Python中如何生成隨機數?
2024-01-12
Python隨機
使用Math類生成隨機數
2020-11-07
隨機
php生成唯一隨機碼
2020-10-03
PHP隨機
PHP生成卡哇伊隨機頭像
2021-09-18
PHP隨機
Java隨機生成圖片與HTML表單中的驗證碼實現
2018-05-14
Java隨機HTML
Python生成隨機數random模組
2018-10-02
Python隨機random
Golang生成區間隨機整數
2018-09-13
Golang隨機
微信小程式生成隨機數
2019-07-20
微信小程式隨機
巧用物件，生成不重複隨機數
2018-12-30
物件隨機