鬥魚大佬分享！基於圖的團伙挖掘演算法實踐

极验發表於2019-08-20

原文網址 : http://www.jiqizhixin.com/articles/2019-08-20-8

演算法

本次分享的主題是《基於圖的團伙挖掘演算法實踐》，主要包括三個方面：

團伙定義和特點
團伙挖掘流程和方法
經驗與總結

團伙的定義和特點

我們這裡所指的團伙是網路中的黑產團伙，這些團伙主要從事網路上的薅羊毛，刷單等非法活動，和金融場景中的團伙定義還是有一些差別。主要特點表現為：

1、團伙賬號規模較大；

2、指令碼或者軟體操控；

3、每個賬號一次惡意行為獲利較少；

4、短時間行為頻次高，賬號之間具有同步性和聚集性。

如上圖所示，橫軸是時間軸，縱軸是賬戶 ID，可以看到，有風險的賬戶在時間上面的聚集性是非常明顯的，而正常賬號的行為是比較分散的。

團伙挖掘流程和方法

建立關聯關係

主要就是需要從業務實際出發，去建立一個有業務含義的圖。這裡的關聯關係，可以是有向圖，也可以是無向圖，根據業務而定。不過，我們期望的圖一般是有權重的，因為沒有權重的圖在後面做社群檢測的時候，可能會不太好用。

如何建立關聯關係呢？

建立關聯關係的方法還是有很多的，這裡我們簡單的介紹幾種。

使用資源的關聯做圖的構建

原理就是賬號之間有一些資源會重複的使用，比如裝置、IP、手機號碼、身份證號碼等。關聯的方法很簡單，比如說在某個時間視窗，某個賬號使用了某一裝置，我們就可以把兩者關聯起來。這時候可以構建一個二部圖，節點就是賬號和裝置，邊就是兩者之間的關係。當然，也可以不構建二部圖，比如兩個賬號使用了同一個裝置，那麼兩個賬號之間就有關聯。

這種構圖方法的缺陷是，黑產會偽造裝置ID 以及使用 IP代理，這時候裝置和 IP 的重用就變得很低了。還有一點是這個關聯可能是有誤的，比如一些網咖、機房等，這種有誤的關聯可能最終反應在誤差上面。

採用行為同步性

黑產的特點是在短時間內有高頻的行為，所以在非常短的時間間隔內，如果兩個賬號的行為非常趨同，那麼可以在兩個賬號之間建立關聯。構建的方法可以參考 Facebook 的論文《Uncovering Large Groups of Active Malicious Accounts in Online Social Networks》[1]

U是指賬號，T是指行為發生的時間戳，C就是限制資源（兩個賬號有相同的行為，使用同一個 IP，或作用物件一致都可以作為限制資源），如果兩個賬號的行為的時間間隔小於 Tsim ，那麼可以認為這兩個行為是一致的。

我們可以通過上述的方式對賬號與賬號之間的相似行為的次數做統計，統計之後可以根據次數或者距離做關聯。

這種方式建立關聯需要注意的就是區分事件和時間段。

採用相似度

原理就是團伙賬號之間他們在屬性和行為上有很高的相似性。構建的方法就是構建賬號之間的相似度，如果兩個賬號之間的相似度高於某閾值，則賬號之間會形成一條邊。這裡最主要的問題就是計算相似度，有兩種方法：

採用自定義的距離公式和權重，自己定義每個維度的計算公式和權重。

距離和權重過於依賴人工，難以確定，只有在計算維度較少時可以這樣做。
另一種就是對賬號進行Embedding，可以基於序列，也可以基於圖結構，採用餘弦距離計算相似度，這種方法更具有通用性。

若干弱的特徵組合

原理就是團伙賬號在一些弱資訊上面具有一定的共性。構建的第一步需要抽取一些具有業務含義的屬性或者指標，如果多個賬號都滿足這個指標，就把這些賬號看成一個團體，然後採取一些社群分析的方法對團隊進行分割成個個子簇，最後將子簇看成一個節點。這個圖的節點就不是一個賬號了，而是一個賬號集合。然後再通過相似度等方法再來生成節點之間的關聯關係。

這種方法需要有一個篩選的過程，特徵的選取最好有一定的業務意義，並且具有一定的區分性。

上述四種就是常見的構圖方法，完成了構圖之後，就要進行團伙發現。

團伙發現

團伙發現我在這裡主要講兩種方法，一是連通子圖或強連通子圖，二是 Graph Partition 。

連通子圖

這種方法的優勢是，在當前連線下可以得到的最大規模團伙。當建立的關係非常可靠（邊相連的兩個頂點是一個團伙的概率非常大）時，使用連通圖查詢就可以到達不錯的效果

主要的問題是：

存在度數很高的節點，使得劃分後某些社群規模很大，沒有起到團伙挖掘的作用；

噪音資料會帶來誤殺，為了保證準確率會犧牲較多的覆蓋。

解決上述問題的一些方法，可以參考論文[2]

Graph Partition

Graph Partition 的主要思想就是怎麼樣把圖上的頂點進行切分。既然要切分就需要一個度量的準則，一般我們是希望切分之後，社群內部的節點之間關係比較緊密，社群內部與社群外部的節點之間聯絡比較稀疏。所以解決這個問題的一般方法就是定義一個優化目標。

兩種處理方式，一種是圖分割：

這兩種是區域性切分的度量準則，圖分割劃分的社群數量是要事先設定的，不太靈活，所以平時用的並不多。

第二種就是基於模組度（pModularity-based）的方法，主要思想就是定義一個全域性的優化目標，採用啟發式演算法尋優。我們在這裡講兩種：

參考論文[3][4]

我們可以根據自己的業務特點去定義合適的全域性優化指標和社群合併條件。

團伙驗證

我們發現團伙之後，需要去驗證一下，看是否是真正的團伙。需要一個評價方法去評價團伙。評判的標準主要分為兩個方面，一是嫌疑度，二是聚集性。

嫌疑度一般就是基於一些已有的經驗，規則，看一下團伙中被識別為黑產的團伙佔比有多少。團伙的規模也是一個很重要的指標，規模很大的化，是黑產的可能性就大。還有就是從圖的基本統計指標入手，比如社群內部的 density，還有特殊形狀的統計（三角形狀，環狀）等。

聚集性分析，一是看團體成員是否在某些屬性或者行為上表現出了一致性，二是看團體整體的Profile 是否與團伙中已知黑賬號的 Profile 類似。

經驗與總結

對團伙要有業務上的認識，不是臆想出來的；通過具體的case分析，瞭解模式並制定相應的演算法。
構建關聯是團伙挖掘最核心的內容，節點和邊的定義非常重要，抽象成圖依賴於業務的理解。
團伙發現演算法出來的結果可能不能直接使用，需要對團伙進行精修（合併、細分和剪枝）。
通過圖演算法挖掘出來的團伙，需要引入業務經驗進行驗證和定性。

互動問答

1. fraudar 和直接用社群發現找社群有什麼區別？

回答：基於模組度的方法都是去直接定義一個最優化的指標，區別有兩點，第一是定義的指標不一樣，第二是尋優演算法有差異，不過大體上的套路是長不多的。

2. 對於Fraudar演算法，演算法大體上採用貪心的演算法序列的刪節點並記錄當前的密度指標，這種演算法對於大資料集下有效嗎？

回答：對於大資料來說，這種尋優的演算法效率肯定是不高的，可以改成一些並行的演算法。

3. 對於存在節點度長尾分佈的場景，這些基於社群發現如何避免自然密集的簇導致的誤判？

回答：這就是講的團伙驗證的內容，通過團伙驗證可以對團伙的屬性做一個評估，主要還是嫌疑性和聚集性兩個方面。也可能會有單個節點的誤判，這個就採取一些方法，把明顯不同模式的節點剔除掉。

Apache Flink 在鬥魚的應用與實踐
2022-03-24
Apache
賦能直播行業精細化運營，鬥魚基於 Apache Doris 的應用實踐
2023-04-06
行業Apache
仿鬥魚聊天：基於CoreText的物件導向圖文排版工具AWRichText
2019-03-01
物件
阿里技術分享：閒魚IM基於Flutter的移動端跨端改造實踐
2021-07-05
阿里Flutter跨端
中小團隊基於Docker的devops實踐
2018-08-02
Dockerdev
鬥魚資料庫混合雲架構實踐
2022-06-14
資料庫架構
鬥魚直播雲原生實踐——註冊中心篇
2021-09-29
從異常挖掘到CC攻擊地下駭客團伙
2020-08-19
鬥魚直播雲原生實踐之註冊中心篇
2021-09-29
【乾貨分享】研效優化實踐：AI演算法助力深層BUG挖掘
2021-12-10
優化AI演算法
【乾貨分享】研效最佳化實踐：AI演算法助力深層BUG挖掘
2021-12-09
AI演算法
智聯招聘基於 Nebula Graph 的推薦實踐分享
2022-06-28
? 鬥魚彈幕php實現
2018-12-12
PHP
美團點評基於 Flink 的實時數倉建設實踐
2019-07-08
美團外賣基於GPU的向量檢索系統實踐
2024-04-12
GPU
微信後團隊分享：微信後臺基於Ray的分散式AI計算技術實踐
2024-11-07
分散式AI
基於github的CICD實踐
2021-07-19
Github
Python實時爬取鬥魚彈幕
2019-01-22
Python
Flutter 實現虎牙/鬥魚彈幕效果
2020-04-13
Flutter
Choerodon豬齒魚團隊敏捷專案管理實踐應用
2019-04-30
敏捷專案管理
基於DevOps的容器安全實踐
2020-12-23
dev
鬥魚 Juno 監控中心的設計與實現
2020-06-21
推薦系統實踐 0x09 基於圖的模型
2020-12-01
模型
基於圖的機器演算法（一）
2019-02-25
演算法
基於容器的金融資料庫雲平臺DBaaS設計實踐分享
2018-09-07
資料庫
團隊分享，Bem規範調研及實踐
2021-12-07
【實踐篇】基於CAS的單點登入實踐之路
2023-04-13
基於CMS的元件複用實踐
2018-11-12
元件
基於DataLakeAnalytics的資料湖實踐
2018-09-03
基於 Spark 的資料分析實踐
2019-06-19
Spark
基於 GraphQL 實踐的一點思考
2019-04-20
基於 DataLakeAnalytics 的資料湖實踐
2019-03-19
基於 PageSpeed 的效能優化實踐
2022-01-03
優化
基於Lucene的全文檢索實踐
2021-11-07
基於 KubeSphere 的分級管理實踐
2022-06-28
使用蜻蜓安全挖掘漏洞實踐（一）
2022-04-30
鬥魚研發面經
2018-09-14
文字輿情挖掘的技術探索和實踐
2019-01-07

鬥魚大佬分享！基於圖的團伙挖掘演算法實踐

相關文章