這僅僅是社交網路影響力最大化問題在現實世界中的廣泛應用的一隅。
任何社會性動物在個體與個體、群體與個體之間都存在著相互影響關係。人類作為具有複雜交流手段的高階社會性動物,人際和社會影響力在我們的社會生活中更是無處不在。小到聽一首歌曲、看一部電影、讀一部新書、選一個餐館,大到買一處房產、選擇職業方向、選擇生活城市、確定我們的政治觀點等,我們的各種選擇和決定常常受我們的家人、同事、朋友以及更廣泛的大眾傾向的影響。
深入認識影響力的產生和傳播模式有助於我們理解人類群體和個體的行為,從而能夠對人們的行為作出預測,為政府、機構、企業等各部門的決策提供可靠的依據和建議。比如企業在做新產品推廣時,可以利用對使用者影響力及其傳播的瞭解選擇有影響力的使用者和傳播渠道幫助產品推廣,公益機構可以透過影響力傳播推動公益事業的發展,比如增強全民健康意識,推動扶助貧困地區等。影響力傳播建模和影響力最大化的研究就是基於這一背景,利用數學、演算法和博弈論等工具對影響力傳播及其最佳化問題進行的研究。
廣義的影響力傳播研究可以涉及社會學、心理學、經濟學、複雜網路、電腦科學等多個方面,而各方面研究的側重點有所不同。在此我們重點介紹由電腦科學出發對影響力傳播的研究,包括影響力傳播建模、影響力傳播最佳化和影響力傳播學習推斷等方面。
回顧文章開頭的社交網路營銷傳播的例子,電腦科學中研究的社交網路影響力最大化問題就是將這些案例抽象整理後得到的一個網路最佳化問題。
它最初由 Kempe、Kleinberg 和 Tardos 在2003年的資料探勘會議 KDD 上給出了完整的最佳化形式刻畫及一系列的研究結果[1]。它的基本形式一般如下表述:首先,我們將一個社交網路建模為一個有向圖 G=(V,E),其中 V 表示結點集合,E 表示有向邊的集合。圖 G 中的每個結點(vertex 或 node)代表社交網路中的一個個體或一個使用者,而 G 中的每一條邊代表它所連結的兩個個體的影響關係。邊是帶方向的,從結點 u 指向結點 v 的有向邊 (u,v) 表示個體 u 可以對個體 v 施加影響。施加影響力的強弱由模型給出的引數決定。比如在最基本也是研究最廣泛的獨立級聯模型(independent cascade model)中,每個有向邊 (u,v) 上帶了一個影響機率引數 p(u,v),表示 u 影響 v 的成功機率。獨立級聯模型的動態傳播發生在離散時刻點 t=0,1,2,…:在0時刻,若干結點被選為種子結點(seed node)並被啟用,這就相當於前面例子中被選中給予免費餐券的顧客;在時刻 t≥1,如果一個結點 u 在時刻 t-1 被啟用,那麼 u 會沿著每一條出邊 (u,v) 嘗試一次啟用 v(如果 v 還沒有被啟用),而其成功啟用 v 的機率就是該有向邊的影響機率 p(u,v)。每條邊最多嘗試一次影響力傳播,且不同嘗試之間相互獨立。如果一個結點被啟用,就一直保持活躍狀態。這個傳播過程直到某一時刻沒有新的結點被啟用為止。
這樣的隨機傳播模型(stochastic diffusion model)中很重要的一個度量引數就是影響力擴充套件度(influence spread),被定義為給定種子集合 S 時傳播最終啟用結點個數的期望值,記為 σ(S)。在餐館的例子中,S 為選定的100個接受免費餐券的“種子”顧客集合,σ(S) 就代表由於這些種子顧客在社交網路中的影響力傳播所帶來的餐館顧客數,即客流的期望值。影響力最大化問題就是在給定的預算條件 k 下,選擇網路中的 k 個結點,使得這 k 個結點的影響力擴充套件度最大。在餐館的例子中,就是要找到100個種子顧客使其帶來的客流量最大。
上面給出了影響力最大化的基本定義以及在社交網路病毒式營銷中的例子。影響力最大化當然還有很多變種,其應用也包括更廣泛的領域。下面我們先簡要介紹一下解決影響力最大化問題涉及的一些主要技術。
首先,影響力最大化是個典型的隨機最佳化問題:輸入包括有向圖 G 及其上決定動態傳播的引數,要求找到一個集合使得傳播的隨機動態過程的影響力擴充套件度最大。對於獨立級聯模型等基本的傳播模型,容易論證影響力最大化屬於最佳化問題中常見的難解問題,被稱為 NP-難(NP-hard)的問題,就是說無法找到有效的演算法得到問題的最優解。那麼解決影響力最大化問題,現在主要依靠尋求近似解的方法,也即設計問題的近似演算法。這就需要用到近似演算法設計中一個十分重要的技術——次模函式最大化(submodular function maximization)及其貪心演算法(greedy algorithm)。
在獨立級聯模型以及很多類似的傳播模型中,我們能夠論證影響力擴充套件度函式 σ(S) 滿足如下的次模性質:對於任何一個種子集合 S 和包含 S 的一個更大的種子集合T(S⊂T),如果在 T 之外再找一個種子 u,則總能滿足 u 在 T 之上的邊際影響力總小於或等於 u 在 S 之上的邊際影響力,即 σ(T∪{u})-σ(T)≤σ(S∪{u})-σ(S)。次模性表達了在經濟學中常會提到的邊際效用遞減的性質:一個個體在更大群體之上的邊際效用或邊際影響力,小於該個體在較小群體之上的邊際效用或邊際影響力。這種邊際效用遞減的特性在網路傳播中也可以直觀理解,雖然並不是所有的傳播模型都滿足次模性。當傳播過程滿足次模性和另外一個簡單的單調性(種子集合越大,影響力擴充套件度越大)時,我們就可以使用經典的貪心演算法:如果要找到 k 個種子結點,那麼我們進行 k 輪,每輪找到一個種子結點,滿足第 i 輪找到的種子結點 u_i 是在前面 i-1 輪找到的種子集合 {u_1,…,u_(i-1)} 之上的邊際影響力最大的結點。這樣的貪心演算法找到的種子集合 {u_1,…,u_k} 可以保證是所能找到的最優解的 1-1/e≈0.63 近似,意思是 {u_1,…,u_k} 的影響力擴充套件度至少是最優解的影響力擴充套件度的63%。
大多數的影響力最大化研究都基於上面的次模函式最大化和貪心演算法。但這只是一個基礎框架,要解決影響力最大化問題,還需要在深度和廣度方面都進行很大的擴充,所以從2003年的第一篇經典論文至今,影響力最大化的研究一直在深度和廣度方面不斷擴充,至今仍很活躍。下面我們介紹幾個主要的研究方向和成果。
首先,將上面的貪心演算法運用到影響力最大化,要面對的第一個問題是計算一個給定集合 S 的影響力擴充套件度 σ(S)。由於影響力傳播是隨機動態過程,要得到影響力擴充套件度的精確解並不容易。事實上,筆者與合作者指出這一計算即使在基本的獨立級聯模型上也屬於一類難解問題[2]。繞過這一難解性的最初方法是直接模擬模型的傳播過程很多次,得到每次的傳播結果後再取平均數作為近似。這一隨機模擬近似過程被稱作蒙特卡洛模擬(Monte Carlo simulation)。但是蒙特卡洛模擬要達到合理的效果需要對貪心演算法中涉及到的每一個種子集合各自做上萬次模擬。這導致整體貪心演算法的效率十分低下,在上萬個結點的圖中也要跑幾天才能完成。針對這一問題,一系列研究提出瞭解決可擴充套件的影響力最大化(scalable influence maximization)的各種方法。到目前為止,基於反向影響力取樣思想[3]的演算法能夠同時滿足理論保證並在實際的大規模網路中高效地實現,其一系列改進和最佳化演算法已經成為實現可擴充套件影響力最大化的主流演算法。
影響力最大化問題的多種形式
社交網路病毒式營銷是一種影響力最大化的基本形式,但針對網路傳播的不同場景,還可以定義不同形式的影響力最大化問題,從而擴充套件它的應用領域。
比如,仍然是餐館推廣的例子,如果同時還有另外一家或多家餐館也在網路上作推廣,那麼這在網路傳播中就形成了競爭性傳播的例子。餐館就需要考慮在其它競爭性實體也在網路中傳播時,如何合理選擇種子顧客以增加自己餐館的影響力。這就是競爭環境下的影響力最大化問題。我們可以給出一個競爭環境下的傳播模型,如競爭性獨立級聯模型,並研究該模型下的競爭性影響力最大化問題,設計對應的高效演算法(參見[4]中的4.2節)。
在競爭性傳播中,競爭的一方追求的並不一定是擴大自己的影響力,也可能是希望限制對方的傳播。比如當有不利於餐館經營的謠言在網上開始傳播,餐館會希望儘快找到一些網路上的種子結點發布和傳播正面的闢謠的資訊,以阻斷謠言的傳播。這就可以用影響力阻斷最大化的模型來研究實現[5]。限制謠言的傳播有很重要的現實意義。比如在新冠肺炎疫情的傳播過程中,社交網路中不斷混雜著各種謠言的傳播,容易造成大眾的過度恐慌情緒等負面的社會影響。網路平臺就需要及時釋出正確資訊,並找到合適的傳播渠道使得正面資訊的傳播能及時阻斷謠言的傳播。
網路中的多實體傳播除了競爭性傳播,也可以是互補互助的影響力傳播。比如餐館店主又開了一個咖啡廳,他可以將咖啡廳和餐館的優惠相結合,使得咖啡廳的顧客也更想光顧他的餐館。那麼關於咖啡廳和餐館的優惠資訊的傳播,就是互補互助的資訊傳播,這也可以用互補互助影響力傳播模型來建模,並研究互補情形下的影響力最大化[6]。
影響力最大化的研究依賴於傳播模型的建模和模型引數的獲取。這需要在實際網路中獲取大規模的傳播資料並加以分析,得出結點間影響力傳播的強弱程度分析,比如說分析出獨立級聯模型中邊上的影響力機率 p(u,v)。這類傳播模型的分析也是網路資料探勘的一個重要方面。對於影響力最大化來說,圍繞傳播資料的分析也會產生不同的研究課題,比如省略建模過程直接從資料到最佳化的基於資料的影響力最大化問題[7],容忍資料分析結果不準確的魯棒影響力最大化問題[8,9]等。另外,我們還可以考慮邊學習邊最佳化的迭代過程,即利用從種子選取、到實施傳播、觀察傳播結果、修正傳播模型引數、再次種子選取的多步迭代過程以達到最好的影響力最大化效果,這被稱為線上影響力最大化(online influence maximization)問題。這屬於組合線上學習(combinatorial online learning)的範疇,其研究也推動了組合線上學習研究的深入和擴充[10]。
影響力最大化的研究還有很多其它方面,比如利潤最大化、種子集合最小化、自適應影響力最大化、基於影響力的網路中心性、非次模模型的影響力最大化等等,在此不再一一介紹。感興趣的讀者可參考筆者合著的專著[4]及其它綜述文章[11,12]等。
另外,筆者詳盡總結這一研究領域的專著《大資料網路傳播模型和演算法》也在近期剛剛出版[13]。
影響力最大化的研究已在多種應用場景中付諸實現。比如 Shakarian 等人將影響力最大化應用於芝加哥警察局挑選暴力團伙成員參加學習勸導班,使其影響其他團伙成員遠離暴力犯罪[14],Yadav、Wilder 等人將影響力最大化應用於在無家可歸人士中有效傳播對愛滋病的認知[15,16]。
但總體來講,影響力最大化的研究和應用還有不少挑戰。比如大規模的影響力傳播資料的獲取和共享,傳播模型和傳播分析的準確性,基於因果關係的影響力傳播與基於相關性的網路同質性(homophily)的區別和聯絡,大規模網路傳播的實驗驗證,影響力最大化對隱私和公平性的影響等等。這些方面還需要研究者進行更廣泛深入的研究以及和業界實踐者進行更密切的交流合作。相信隨著大資料技術的發展和影響力傳播研究的深入,影響力傳播研究會有更廣泛的應用前景。
參考文獻
[1] Kempe D, Kleinberg J M, and Tardos É. Maximizing thespread of influence through a social network. In Proceedings of the 9thACM SIGKDD International Conference on Knowledge Discovery and Data Mining(KDD), Washington D C, USA, Aug 2003:137~146. 完整期刊版發表於 Theory of Computing, 2015(11.4): 105~147
[2] Wang C, Chen W, and Wang Y. Scalable influencemaximization for independent cascade model in large-scale social networks. DataMining and Knowledge Discovery, 2012(25.3):545~576
[3] Borgs C, Brautbar M, Chayes J, and Lucier B. Maximizingsocial influence in nearly optimal time. In Proceedings of the 25thACM-SIAMSymposium on Discrete Algorithms (SODA), Portland, USA, Jan 2014:946~957
[4] Chen W, Lakshmanan L V S, and Castillo C. Information andInfluence Propagation in Social Networks, Morgan & Claypool Publishers,2013
[5] He X, Song G, Chen W, and Jiang Q. Influence blockingmaximization in social networks under the competitive linear threshold Model. InProceedings of SIAM International Conference on Data Mining (SDM), Anaheim,USA, Apr 2012:463~474
[6] Lu W, Chen W, and Lakshmanan L V S. From competition tocomplementarity: Comparative influence diffusion and maximization. InProceedings of the 42nd International Conference on Very Large DataBases (VLDB), New Delhi, India, Sep 2016
[7] Goyal A, Bonchi F, and Lakshmanan L V S.A data-based approach to social influence maximization. PVLDB, 2011(5.1):73~84
[8] Chen W, Lin T, Tan Z, Zhao M, and Zhou X. Robustinfluence maximization. In Proceedings of the 22nd ACM SIGKDDInternational Conference on Knowledge Discovery and Data Mining (KDD), SanFrancisco, USA, Aug 2016
[9] He X and Kempe D. Robust influence maximization. InProceedings of the 22nd ACM SIGKDD International Conference onKnowledge Discovery and Data Mining (KDD), San Francisco, USA, Aug 2016
[10] Chen W, Wang Y, Yuan Y, and Wang Q. Combinatorialmulti-armed bandit and its extension to probabilistically triggered arms.Journal of Machine Learning Research, 2016(17.50):1~33
[11] 陳衛(Chen W). 社交網路影響力傳播研究. 大資料 (Big DataResearch) , Oct 2015(1)
[12] Li Y, Fan J, Wang Y, and Tan K-L.Influence maximization on social graphs:A survey. IEEE Transactions on Knowledge and DataEngineering, 2018(30.10):1852~1872
[13] 陳衛(Chen W). 大資料網路傳播模型和演算法. 中國郵電出版社,2020
[14] Shakarian P, Salmento J, Pulleyblank W and Bertetto J.Reducing gang violence through network influence based targeting of socialprograms. In Proceedings of the 20th ACM SIGKDD InternationalConference on Knowledge Discovery and Data Mining (KDD), New York City, USA, Aug2014:1829~1836
[15] Yadav A, Wilder B, Rice E, Petering R, Craddock J,Yoshioka-Maxwell A, Hemler M, Onasch-Vera L, Tambe M, and Woo D. Influencemaximization in the field: The arduous journey from emerging to deployedapplication. In Proceedings of the 16th Conference on AutonomousAgents and Multiagent Systems (AAMAS), São Paulo, Brazil, May 2017
[16] Wilder B, Onasch-Vera L, Hudson J, Luna J, Wilson N,Petering R, Woo D, Tambe M, and Rice E. End-to-end influence maximization inthe field. In Proceedings of the 17th International Conference onAutonomous Agents and Multiagent Systems (AAMAS), Stockholm, Sweden, Jul 2018