1 社交欺詐問題日益凸顯
近年來,陌生人社交軟體滿足了城市青年拓寬社交圈和找陌生人傾訴的需求,但由於其天然的婚戀交友屬性,導致成為色情/廣告引流、以及殺豬盤/殺魚盤/殺鳥盤等欺詐類黑產頻繁入侵的重災區。
其中最典型的當屬惡意引流。詐騙者透過引流指令碼、群控、模擬器、多開軟體等軟硬體結合,操縱大量垃圾小號在社交平臺的私信、個籤、評論、發帖等場景進行批次色情/廣告引流(如圖 1 所示)。
在成功吸引使用者關注後,透過分流等方式將使用者拉入私人聊天空間或其他平臺,最終以詐騙等形式變現。因此,引流往往是欺詐的前奏。一方面大量的違規內容會影響平臺的使用者體驗,另一方面一旦脫離平臺的使用者被詐騙成功,也會對平臺的口碑和形象造成極大的影響,導致使用者流失與流量折損。
2 技術如何解題?
大資料與人工智慧技術的出現為反欺詐提供瞭解決方案。
當前工業界與學術界的組織推出了基於文字、影像、語音、影片等內容方面的檢測 API 以及解決方案,然而,僅內容檢測手段極易落入疲於應對的局面。例如,黑灰產透過同音詞、象形詞、拆字、干擾詞等簡單的對抗手段即可成為文字違規檢測的疑難雜症,增加演算法成本。
影像方面,OCR 特徵掩蓋、圖片扭曲、牛皮癬干擾等形式帶來的隱晦有害內容也一直屢禁不止,如附骨之疽一般,難以根治。
如背景部分所述,黑灰產透過操縱多個平臺賬號進行批次的指令碼引流,以此達到提高曝光量、惡意引流的目的。由於使用了自動化工具,因此跨賬號之間難免會表現出節奏和步調一致的規律,並且這種潛在的隱式關聯規律是黑產無法掩飾和偽造的。
圖2為正常使用者群體(上)和引流黑產團伙(下)分別計算行為時序一階差分後的序列對比圖,從中明顯可觀察到,正常使用者的行為是隨機而分散的,而引流黑產的行為卻在時間維度上體現出了高度的同步性。
據此,為了應對黑產欺詐行為的對抗性,我們提出了基於行為時序建模的引流黑產使用者識別方法,結合有監督和無監督模型共同構成風控方案,並在實際業務落地中驗證了其有效性。相對於純內容維度的識別演算法,該方法優勢在於:
賬號行為對抗門檻較高,使用者的行為習慣、黑產行為協同關係很難在短期內作出改變,從而有效避開與黑產的直接對抗;
惡意引流話術可以在不同的內容模態之間,如文字、影像、語音、影片聊天,進行隨意切換和資訊傳播,以繞過平臺限制策略,這給技術段帶來的直接壓力就是語義理解成本非常高。此時黑產行為資訊是更為本質的特徵線索,是“萬變”中相對不變的因素。
3 模型設計
3.1 異常使用者樣本初篩
目前,易盾反垃圾日均過檢使用者量已達到千萬級,其中黑產使用者的佔比不到 1%,全量使用者過檢會造成模型結果產出的滯後性,為了提升模型過檢的效率,需要對異常使用者進行初篩。其次,為了避免長度過短無法表徵使用者整體行為,以及長度不在一個量綱導致資料分佈異常引發的誤判,在對異常使用者初篩前,我們按照行為時序長度對使用者進行分組預處理。
直觀上,正常使用者的行為時間分佈較為隨機而分散,一階差分序列也是存在較大的隨機性,區分度較低;引流黑產團伙的行為大多是指令碼工具生成,所以使用者之間的時序週期、量綱和數理統計值(最大值、最小值、均值、標準差等)均存在高相似性,相較於正常使用者來說有較高的區分度。
透過上述特徵線索,我們採用孤立森林演算法從大規模樣本空間中分離出和大多數使用者行為模式顯著不同的離群使用者樣本,使得後續的演算法流程儘可能只聚焦於異常使用者群體。相較於 LOF、DBSCAN 等異常檢測演算法,孤立森林在風控場景具備較好的普適性,主要優勢體現在:
a)異常樣本的判斷基於整合學習(ensemble)的思想獲得,演算法識別結果較為穩定,不易受到小擾動而造成結果誤判,對抗黑產的魯棒性較強。
b)孤立森林不需要計算有關距離、密度的指標,可大幅度提升速度,減小系統開銷;同時,由於每棵樹都是獨立生成的,因此可部署在大規模分散式系統上來加速運算,滿足風險識別的高時效性要求。
圖 3 展示了在幾款社交頭部產品中的應用效果。經 t-SNE 降維後的時序特徵視覺化效果。由圖可見,透過孤立森林識別的異常/正常使用者類簇區分度明顯,二者不存在交集。同時,不同類簇具有明顯的流形結構,具體每個簇代表什麼含義我們沒有去展開分析,但可以肯定的是簇中的點具有相似的行為模式。由此,我們得到了相較於大盤資料而言,極小比例異常使用者,降低了後續模型檢測的計算壓力,提升線上檢測時效性。
3.2 時序頻譜特徵提取
實際工作中,我們遇到更多的是時序非同步相關的問題,而非同步相關性時序,為使得時序特徵表達在對抗場景下具有較強的魯棒性,我們透過傅立葉變換把時序向量變換到頻域空間,然後刪除在頻域空間不重要的分量,因為這些分量往往代表噪聲,剩下的分量真正代表了時序向量中關鍵的資訊,只需要用這些關鍵的浮點數來表示一個行為時序的特徵向量就可以了。
圖 4 展示了某一黑產團伙釋出內容的時序曲線圖,其原始時序是呈非同步弱相關的,經頻譜轉換後可發現不同黑產使用者之間呈現出高度的行為協同性,因此我們可以在該頻譜空間中更好地計算新序列之間相關係數。
具體來說,如果將使用者最近一段時間內的行為軌跡視為訊號波,其長度為 N 的時序向量就可視為該訊號在連續時域上的等間隔取樣,那麼相當於我們有了一段有限長的離散時間訊號。時序向量中的每個元素就對應離散時間上的訊號取樣值。
更具體而言,一個時序向量 [x0,x1,x2...,xN-1] 表徵了在時刻 0,1,...,N-1 上的訊號值,快速傅立葉變換 (FFT) 透過以下核心計算公式將在時域上的離散訊號 [x0,x1,x2...,xN-1] 轉化為在頻域上的一組離散訊號 [x0,x1,x2...,xN/2-1] ,作為最終的頻譜特徵,定義為:
、
3.3 行為協同團伙挖掘
由於直接對使用者間的頻域特徵計算相似度的時間複雜度較大,所以先採用無監督聚類演算法將特徵分佈相似的使用者劃分在一個類別內。這裡採用 KMeans 聚類演算法對頻域特徵的均值和標準差相似的樣本劃分在一個類別裡,再針對類內樣本兩兩計算頻域特徵的相似度,作為使用者間的關係權重。
由此,我們便構建了以使用者為節點的時序協同關係網,在此之上應用 Fast-Unfolding 、Graph-Cut、Fraudar 等圖聚類演算法進行黑產團伙挖掘是風控業界的共識做法。在使用者風險畫像從0到1構建初期,我們也遵循該路線,取得了不錯的業務效果。圖 5 直觀地展示了某客戶產品線上真實的團伙案例。結合內容本身的有害性可驗證這些子圖均為非法利益驅動下的惡意引流團伙,且從 IP/GPS/裝置等資源屬性上可觀察到顯著的聚集性和複用性。
為降低資源成本,黑產團伙通常會共用硬體裝置。為避開易盾反垃圾系統的內容檢測模型、專家規則等,他們交替使用了同音詞、象形詞、拆字、干擾詞等形式,構成極其隱晦的引流資訊;而透過使用者行為大資料分析手段,這批黑產使用者在活躍初期被識別出團夥協同後,其賬號/IP/裝置 ID 會近實時寫入使用者標籤庫並生效線上檢測,則中後期不管再出現何種變種模式,都能成功攔截,大大降低了攻防壓力。
團伙挖掘成果一方面作為高精度使用者風控模型,獨立應用於惡意引流內容的線上攔截,另一方面是在業務發展初期作為一種無監督學習方式,可以在無標註樣本和無人工介入的前提下自主挖掘並沉澱一批高質量的黑產使用者樣本庫,為後續的模型進階打下樣本基礎。
3.4 使用者行為向量學習
圖聚類能夠反映黑產行為的成團聚集的拓撲結構,但由於需結合人工經驗閾值只能挖掘出其中的冰山一角,即最典型最嚴重的部分,且不具備泛化能力。如何以點帶面牽引出更多的引流黑灰產賬號,在透過以上無監督學習方法積累了儘可能多的壞樣本之後,我們開始嘗試基於有監督學習的擴充套件方案。
為進一步擴大黑產使用者召回,全面推廣風險行為模型的業務應用,我們利用上述黑產團伙挖掘的產出作為種子樣本,結合神經網路演算法學習使用者的行為表徵向量,在少量標籤資訊監督的情況下,預測使用者是否有引流意圖。分類模型的網路結構如圖 6 所示。這裡重點介紹 LSTM 和 CNN 特徵層的設計原理。
首先,考慮到引流刷量行為產生的背後通常是藉助了指令碼、群控、模擬器等自動化工具,從短時序列來看往往具備一定的序列關聯性,從長時序列來看則具備一定的週期性(如圖 7 所示),而正常使用者的時序則相反,無明顯的規律。
鑑於這兩類使用者群體在長短時觀測時間窗內的差異性,我們可透過 LSTM 神經網路的細胞狀態有針對性的記錄相鄰時間點的資訊,並結合輸入門、遺忘門、輸出門提取時序長短時潛在行為向量,用於識別具有相似行為 Embedding 表徵的黑產使用者。
其次,引流刷量使用者的時序資料通常會穿插大量擾動噪聲(如圖 8 所示),會對分類器的效能帶來不利影響。因此透過 LSTM 網路層前置 CNN 卷積神經網路,達到噪聲資料濾波的目的,從而降低噪聲資料對 LSTM 層向量的干擾,生成更有利於網路訓練的特徵表示。
此外,為提升模型非線性擬合能力,我們將時序特徵與 MLP(多層感知器)抽象後的頻譜向量透過 Concatenate 層進行融合。MLP 的網路結構天然就能學習到高階的特徵組合能力,但它是以一種隱式的方式建模特徵之間的互動關係。
4 總結
本文透過分析社交反欺詐中常見的惡意引流行為的方式和特點,提出基於行為時序建模的黑產使用者識別方法,透過時域、頻譜、時序向量等多通道特徵提取,以及無監督和有監督演算法相結合的方式,對時序中潛在的行為模式進行學習和建模,從而深度挖掘惡意引流使用者背後隱藏的“蛛絲馬跡”,提高模型的對抗性和泛化性。
在黑灰產活躍期,圖片/文字變種引流攔截量相比單一的內容檢測手段提升顯著,單模型的查準率和召回率分別達到 95% 和 60%。目前,該方法主要側重於解決機器刷量類的引流問題。
後續,易盾將持續這部分工作,包括擴充套件到更多模態的資料來源、以及針對真人欺詐的資料和業務特點設計更具通用性的模型結構,以適配更復雜的風控場景,進一步助力社交反欺詐場景下的風險畫像技術體系的構建。