從數學的視角看社交網路

abel_cao發表於2016-03-20

版權宣告:本文為半吊子子全棧工匠(wireless_com,同公眾號)原創文章,未經允許不得轉載。 https://blog.csdn.net/wireless_com/article/details/50939099

社交網路是有趣(http://blog.csdn.net/wireless_com/article/details/50737928)而又令人迷惑的(http://blog.csdn.net/wireless_com/article/details/50534612)的,總希望希望從社交網路本身找到一些對移動網際網路產品有啟發的東西,而自己的社交網路有限,只得求助於專家們的著作了,這點文字是《社交網路分析-方法與實踐》一書(地鐵閱讀時光)的筆記。
社交網路分析(SNA)是探索關係背後的科學與技術,從數學的角度看社交網路,用圖論的方法探查社交網路。在技術上,通過python 以及相關包檔案的支援,來完成可計算的社交網路(http://www.github.com/maksim2042/SNABook )。
什麼是關係呢?在人際關係中,除了友誼,影響,情感,信任之外呢?關係可以是二元的,也可以被賦值,可以是對稱的,也可以是非對稱的,現實中更常見的是雙峰關係或者多模關係。
基於獨立性假設,通過泊松過程或樸素貝葉斯可以建立一些模型進行統計分析,進而得到一些巨集觀結果的概率。但如果拋開獨立性假設,認為所有的關係都是潛在的相依關係,著就是圖論的用武之地。節點表示網路內的獨立行動者,邊表示行動者直接的關係,進而通過單模圖,雙模圖,多模圖來描述社交網路。數學上表示社交網路的基本方法是矩陣,但是鄰接矩陣過於疏鬆,可以採用邊列表的形式來儲存社交網路。
用圖來描述社交網路,圖的距離是對圖進行量化分析的一種方法,通過圖的遍歷可以獲得資訊傳播中的最短路徑和距離。我們學過的軟體基礎來了,深度優先和廣度優先的搜尋,在NetworkX 中有現成的演算法dfs_edges 和bfs_edges.  對於非加權圖,距離意味著最短路徑;對於加權圖,距離是最低成本路徑, 而歐幾里得距離是建立在節點相似性上的。
誰是社交網路中重要的人?看一個節點的邊的個數——程度中心性。程度中心性是服從冪律分佈的。
誰是社交網路中的訊息傳播者?看一個節點的平均距離的倒數——親近中心性,值越大黏度越大。
誰是傳播瓶頸?看每對節點的最短距離,然後歸一化處理——居間中心性,值越大越是精英群體。
誰是“灰衣主教”? 相當於對程度中心性遞迴——特徵向量中心性,它是隱形的核心。
google 的pagerank 演算法可以說是將中心性理念發揮的淋漓盡致,面向移動產品的PageRank 很有空間呀?
對於社交網路中可分析的單元,圖論中以子圖和組元來描述。子圖是一個以某一特定節點為核心的子網路,就象linkedin中“我的網路”,分析一個網路半徑大於3的自我中心網路是一個錯誤。
關係來了:
1)不對稱連線,維繫不超過兩週
2)對稱的連線,較穩定
3)三元組隨著時間的推移是最穩定的,然而存在著禁止進入的三元組和結構洞。

有向三元組有16種可能情況,哪些命名誕生於1972年,和我差不多大了。三元組形成了子圖,最大的完全子圖就是派系。建立子圖的方法一般是分層聚類。人們的想法,態度和社會關係是由個體在群體中的身份所決定的,而群體的形成源於成員的態度。

鑑於節點的型別不同,形成了多模網路。從二模網路中可以建立隸屬網路,以及同質性網路。對於多模網路,矩陣乘法可以得出很多有價值的結論。

如果可以對移動社交網路進行模擬模擬,是一件多麼有意思的事呀? 初始化一個空的網路圖,並在其中增加n個資料型別的物件,然後迴圈遍歷每一個可能的節點之間的組合,當概率等於密度的引數的時候,將在兩個節點間新增一個連線,這種生成圖的演算法稱為Erdos-Renyi 演算法,是一種生成隨機圖的最簡單方法,併產生一個正太分佈的度分佈,但實際上多數社交網路符合一個長尾的度分佈即冪律分佈。


相關文章