Network Embedding_LINE

weixin_34236497發表於2018-08-30

輸入:網路圖   輸出: 節點的向量表示 適用範圍:大規模(百萬的頂點和數十億的邊)的任意型別的網路:有向或無向、有權或無權。文章中只提到可以擴充套件到規模很大的網路,小規模網路應該也可以。

First-order Proximity(一階相似度):兩個頂點之間的自身相似(不考慮其他頂點)。 對於由邊(u,v)連線的每一對頂點,邊上的權重w(uv)表示u和v之間的相似度,如果在u和v之間沒有觀察到邊,則它們的一階相似度為0。一階鄰近通常意味著現實世界網路中兩個節點的相似性。例如,在社交網路中相互交友的人往往有著相似的興趣;在全球資訊網上相互連結的頁面傾向於談論類似的話題。

Second-order Proximity(二階相似度):網路中一對頂點(u,v)之間的二階相似度是它們鄰近網路結構之間的相似性。 在數學上,設pu=(wu,1,...,wu,| V |)表示u與所有其他頂點的一階相似度,則u和v之間的二階相似度 由 pu和pu決定。 如果沒有頂點與u和v都連線,則u和v之間的二階相似度為0。

因為有些邊觀察不到等原因,一階相似度不足以儲存網路結構。因此提出共享相似鄰居的頂點傾向於彼此相似,即二階相似度。 例如,在社交網路中,分享相似朋友的人傾向於有相似的興趣,從而成為朋友; 在詞語共現網路中,總是與同一組詞語共同出現的詞往往具有相似的含義。

最優化目標:

1)只保留一階相似度的LINE模型(一階相似度只能用於無向圖,不能用於有向圖。)

頂點 Vi ,Vj 。分別對應向量Ui,Uj。 Wij: 邊的權值。

3725332-01b3d7bbab993aff.png
最小化目標: 兩個概率分佈的KL散度  。兩個概率為:經驗概率(邊的權值得到)和聯合概率(向量計算得到)。已經經過化簡,去掉了常數項。
3725332-17d98c1b28beaf82.png
聯合概率

2)只保留二階相似度的LINE模型(每個節點,兩個向量表示)

每個頂點扮演兩個角色:頂點本身和其他頂點的鄰居。因此,為每個節點引入兩個向量表示ui和ui`:ui是vi被視為頂點時的表示,ui`是當vi被視為特定鄰居時的表示

3725332-75ea962ab76057a7.png
最小化目標: 兩個概率分佈的KL散度  。兩個概率為:經驗概率(邊的權值得到)和聯合概率(向量計算得到)。已經經過化簡,去掉了常數項。
3725332-e842ba98e579669d.png
表示,vj是vi的鄰居的概率  。其中,|V|是網路中頂點的數目。

參考:https://www.jianshu.com/p/82b9c88a23ad

https://www.jianshu.com/p/8bb4cd0df840

https://www.ccir2017.cn/attachments/oral%20report/3_17_%E5%9F%BA%E4%BA%8E%E7%BD%91%E7%BB%9C%E8%A1%A8%E7%A4%BA%E5%AD%A6%E4%B9%A0%E7%9A%84%E4%B8%AA%E6%80%A7%E5%8C%96%E5%95%86%E5%93%81%E6%8E%A8%E8%8D%90_%E6%96%B0%20.pdf

相關文章