基於使用者畫像大資料的電商防刷架構

weixin_33686714發表於2018-01-26

大資料架構

http://blog.csdn.net/tengxy_cloud/article/details/52576675

一、背景介紹

最近1~2年電商行業飛速發展，各種創業公司猶如雨後春筍大量湧現，商家通過各種活動形式的補貼來獲取使用者、培養使用者的消費習慣。

但任何一件事情都具有兩面性，高額的補貼、優惠同時了也催生了“羊毛黨”。

“羊毛黨”的行為距離欺詐只有一步之遙，他們的存在嚴重破環了活動的目的，侵佔了活動的資源，使得正常的使用者享受不到活動的直接好處。

今天主要分享下騰訊自己是如何通過大資料、使用者畫像、建模來防止被刷、惡意撞庫的。

二、黑產現狀介紹

“羊毛黨”一般先利用自動機註冊大量的目標網站的賬號，當目標網站搞促銷、優惠等活動的時候，利用這些賬號參與活動刷取較多的優惠，最後通過淘寶等電商平臺轉賣獲益。

一、羊毛黨分工

他們內部有著明確的分工，形成了幾大團伙，全國在20萬人左右：

軟體製作團伙：專門製作各種自動、半自動的黑產工具，比如註冊自動機、刷單自動機等；他們主要靠出售各種黑產工具、提供升級服務等形式來獲利。
簡訊代接平臺：實現手機簡訊的自動收發，其實一些平臺亦正亦邪，不但提供給正常的商家使用，一些黑產也會購買相關的服務。
賬號出售團伙：他們主要是大量註冊各種賬號，通過轉賣賬號來獲利；該團伙與刷單團伙往往屬於同一團伙。
刷單團伙：到各種電商平臺刷單，獲取優惠，並且通過第三方的電商平臺出售優惠，實現套現。

二、“羊毛黨”從業特點

這些黑產團隊，有三個特點：

專業化：專業團隊、人員、機器來做。

團伙化：黑產已經形成一定規模的團伙，而且分工明確；從刷單軟體製作、簡訊代收發平臺、電商刷單到變賣套現等環節，已經形成完整的刷單團伙。

地域化：黑產刷單團伙基本分佈在沿海的一些經濟發達城市，比如，北京、上海、廣東等城市，這或許跟發達城市更加容易接觸到新事物、新觀念有關。

三、對抗刷單的思路

對抗刷單，一般來講主要從三個環節入手：

註冊環節：識別虛假註冊、減少“羊毛黨”能夠使用的賬號量。在註冊環節識別虛假註冊的賬號，並進行攔截和打擊。

登入場景：提高虛假賬號登入門檻，從而減少能夠到達活動環節的虛假賬號量。比如，登入環節通過驗證碼、簡訊驗證碼等手段來降低自動機的登入效率，從而達到減少虛假賬號登入量、減輕活動現場安全壓力的目的。

活動環節：這個是防刷單對抗的主戰場，也是減少“羊毛黨”獲利的直接戰場；這裡的對抗措施，一般有兩個方面：1)通過驗證碼（簡訊、語音）降低黑產刷單的效率。2)大幅度降低異常賬號的優惠力度。

三、騰訊內部防刷架構
一、騰訊內部防刷的架構圖

二、模組詳細介紹
1、風險學習引擎

風險學習引擎：效率問題。由於主要的工作都是線下進行，所以線上系統不存在學習的效率問題。線上採用的都是C++實現的DBScan等針對大資料的快速聚類演算法，基本不用考慮效能問題。

風險學習引擎：採用了黑/白雙分類器風險判定機制。之所以採用黑/白雙分類器的原因就在於減少對正常使用者的誤傷。

例如，某個IP是惡意的IP，那麼該IP上可能會有一些正常的使用者，比如大閘道器IP。

再比如，黑產通過ADSL撥號上網，那麼就會造成惡意與正常使用者共用一個IP的情況。

黑分類器：根據特徵、機器學習演算法、規則/經驗模型，來判斷本次請求異常的概率。

白分類器：判斷屬於正常請求的概率。

2、矩陣式邏輯框架

我們以黑分類器為例來剖析下分類器的整個邏輯框架。

總的來講我們採用了矩陣式的邏輯框架，最開始的黑分類器我們也是一把抓，隨意的建立一個個針對黑產的檢測規則、模型。

結果發現不是這個邏輯漏過了，而是那個邏輯誤傷量大，要對那一類的賬號加強安全打擊力度，改動起來也非常麻煩。

因此我們就設計了這個一個矩陣式的框架來解決上述問題。

矩陣的橫向採用了Adaboost方法，該方法是一種迭代演算法，其核心思想是針對同一個訓練集訓練不同的弱分類器，然後把這些分類器集合起來，構成一個最終的分類器。而我們這裡每一個弱分類器都只能解決一種帳號型別的安全風險判斷，集中起來才能解決所有賬戶的風險檢測。

那麼在工程實踐上帶來三個好處：

便於實現輕重分離，比如某平臺虛假賬號集中在郵箱賬號，策略就可以加大對郵箱賬號的打擊力度，影響範圍也侷限在郵箱帳號，而不是該平臺所有的賬號。
減少模型訓練的難度，模型訓練最大的難度在於樣本的均衡性問題，拆分成子問題，就不需要考慮不同賬號型別之間的資料配比、均衡性問題，大大降低了模型訓練時正負樣本比率的問題。
邏輯的健壯性，某一個分類器的訓練出現了問題，受影響的範圍不至於擴充套件到全域性。

矩陣縱向採用了Bagging方法，該方法是一種用來提高學習演算法準確度的方法，該方法在同一個訓練集合上構造預測函式系列，然後以一定的方法將他們組合成一個預測函式，從而來提高預測結果的準確性。

上面講的部分東西，理解起來會比較艱澀，這裡大家先理解框架，後續再理解實現細節。

四、騰訊大資料收集緯度

大資料一直在安全對抗領域發揮著重要的作用，從我們的對抗經驗來看，大資料不僅僅是資料規模很大，而且還包括兩個方面：、資料廣度：要有豐富的資料型別。比如，不僅僅要有社交領域的資料、還要有遊戲、支付、自媒體等領域的資料，這樣就提供了一個廣闊的視野讓我們來看待黑產的行為特點。

資料深度：黑產的對抗。我們一直強調縱深防禦，我們不僅僅要有註冊資料，還要有登入，以及賬號的使用的資料，這樣我們才能更好的識別惡意。

所以想要做風控和大資料的團隊，一定要注意在自己的產品上多埋點，拿到足夠多的資料，先沉澱下來。

五、騰訊大資料處理平臺－魔方

我們的團隊研發了一個叫魔方的大資料處理和分析的平臺，底層我們整合了MySQL、MongoDB，Spark、Hadoop等技術，在使用者層面我們只需要寫一些簡單的SQL語句、完成一些配置就可以實現例行分析。

這裡我們收集了社交、電商、支付、遊戲等場景的資料，針對這些資料我們建立一些模型，發現哪些是惡意的資料，並且將資料沉澱下來。

沉澱下來的對安全有意義的資料，一方面就儲存在魔方平臺上，供線下審計做模型使用；另一方面會做成實時的服務，提供給線上的系統查詢使用。

一、騰訊使用者畫像沉澱方法

畫像，本質上就是給賬號、裝置等打標籤。

使用者畫像＝打標籤

我們這裡主要從安全的角度出發來打標籤，比如IP畫像，我們會標註IP是不是代理IP，這些對我們做策略是有幫助的。

以QQ的畫像為例，比如，一個QQ只登入IM、不登入其他騰訊的業務、不聊天、頻繁的加好友、被好友刪除、QQ空間要麼沒開通、要麼開通了QQ空間但是評論多但回覆少，這種號碼我們一般會標註QQ養號（色情、營銷），類似的我們也會給QQ打上其他標籤。

標籤的類別和明細，需要做風控的人自己去設定，比如：地理位置，按省份標記。性別，安男女標記。其他細緻規則以此規律自己去設定。

我們看看騰訊的IP畫像，沉澱的邏輯如下圖：

一般的業務都有針對IP的頻率、次數限制的策略，那麼黑產為了對抗，必然會大量採用代理IP來繞過限制。

既然代理IP的識別如此重要，那我們就以代理IP為例來談下騰訊識別代理IP的過程。

識別一個IP是不是代理IP，技術不外乎就是如下四種：

反向探測技術：掃描IP是不是開通了80,8080等代理伺服器經常開通的埠，顯然一個普通的使用者IP不太可能開通如上的埠。

HTTP頭部的X_Forwarded_For：開通了HTTP代理的IP可以通過此法來識別是不是代理IP；如果帶有XFF資訊，該IP是代理IP無疑。

Keep-alive報文：如果帶有Proxy-Connection的Keep-alive報文，該IP毫無疑問是代理IP。

檢視IP上埠：如果一個IP有的埠大於10000，那麼該IP大多也存在問題，普通的家庭IP開這麼大的埠幾乎是不可能的。

以上代理IP檢測的方法幾乎都是公開的，但是盲目去掃描全網的IP，被攔截不說，效率也是一個很大的問題。
因此，我們的除了利用網路爬蟲爬取代理IP外，還利用如下辦法來加快代理IP的收集：通過業務建模，收集惡意IP（黑產使用代理IP的可能性比較大）然後再通過協議掃描的方式來判斷這些IP是不是代理IP。每天騰訊都能發現千萬級別的惡意IP，其中大部分還是代理IP。

二、騰訊使用者畫像類別概覽

三、防禦邏輯

實時系統使用C/C++開發實現，所有的資料通過共享記憶體的方式進行儲存，相比其他的系統，安全系統更有他自己特殊的情況，因此這裡我們可以使用“有損”的思路來實現，大大降低了開發成本和難度。

資料一致性，多臺機器，使用共享記憶體，如何保障資料一致性？

其實，安全策略不需要做到強資料一致性。從安全本身的角度看，風險本身就是一個概率值，不確定，所以有一點資料不一致，不影響全域性。但是安全系統也有自己的特點，安全系統一般突發流量比較大，我們這裡就需要設定各種應急開關，而且需要微訊號、簡訊等方式方便快速切換，避免將影響擴散到後端系統。

四、接入系統

適應的場景包括：

電商o2o刷單、刷券、刷紅包

防止虛假賬號註冊

防止使用者名稱、密碼被撞庫

防止惡意登入

Q&A

Q：風險學習引擎是自研的，還是使用的開源庫？

風險學習引擎包括兩個部分，線上和線下兩部分：

線上：自己利用c/c++來實現。

線下：涉及利用python開源庫來做的，主要是一些通用演算法的訓練和調優。

Q：請問魔方平臺中用到的MongDB是不是經過改造？因為MongDB一直不被看好，出現問題也比較多。

我們做了部分改造，主要是DB的引擎方面。

Q：請問黑分類器和白分類器有什麼區別？

白分類器主要用來識別正常使用者，黑分類器識別虛假使用者。

Q：風險概率的權重指標是如何考慮的？

先通過正負樣本進行訓練，並且做引數顯著性檢查；然後，人工會抽查一些引數的權重，看看跟經驗是否相符。

Q：安全跟風控職責如何區分呢？

相比安全，風控的外延更豐富，更注重巨集觀全域性；針對一個公司來講，風控是包括安全、法務、公關、媒體、客服等在內一整套應急處理預案。

Q：如果識別錯了，誤傷了正常使用者會造成什麼後果麼？比如影響單次操作還是會一直失敗。

如果識別錯了正常使用者不會被誤傷，但是會導致體驗多加了一個環節，如彈出驗證碼、或者人工客服核對等。

基於MaxCompute構建企業使用者畫像
2018-09-29
基於 Serverless 架構的頭像漫畫風處理小程式
2022-04-08
Server架構
基於MaxCompute構建企業使用者畫像（使用者標籤的製作）
2018-03-15
乾貨：基於使用者畫像的聚類分析
2018-05-17
聚類
基於MRS-ClickHouse構建使用者畫像系統方案介紹
2022-03-28
儀器儀表行業B2B電子商務系統：大資料驅動，精準構造使用者畫像
2022-08-23
行業大資料
QToss：基於.NET架構的跨境電商的工具，助力企業實現智慧資料營銷
2024-10-13
QT架構
大資料智慧：金融行業使用者畫像最佳實踐
2020-04-04
大資料行業
大資料基礎架構Hadoop，終於有人講明白了
2022-12-21
大資料架構Hadoop
大資料基礎架構總結
2021-09-09
大資料架構
基於電商中臺架構-商品系統設計(一)
2018-11-15
架構
消費者權益新挑戰！“大資料殺熟”的商業邏輯是“使用者畫像”？
2022-03-23
大資料
大資料專案實戰之 --- 使用者畫像專案分析
2018-11-16
大資料
如何構建好的使用者畫像平臺？
2023-03-14
基於Hadoop的大資料平臺實施——整體架構設計
2018-05-07
Hadoop大資料架構
按照業務領域畫資料架構圖業務架構資料架構
2024-04-21
架構
基於flink的電商使用者行為資料分析【3】| 實時流量統計
2020-11-27
基於大資料的使用者行為預測
2019-01-02
大資料
阿里架構師，講述基於微服務的軟體架構模式（附資料）
2018-03-11
阿里架構微服務模式
使用者畫像
2018-11-06
大資料架構師
2019-04-05
大資料架構
FunData — 電競大資料系統架構演進
2019-03-01
大資料架構
從情感分析到使用者畫像，CCF大資料與計算智慧大賽作品原始碼資料整理
2018-03-09
大資料原始碼
基於flink的電商使用者行為資料分析【4】| 惡意登入監控
2020-11-28
大資料---（3）金融資料架構
2018-03-22
大資料架構
大資料平臺基礎架構hadoop安全分析
2019-03-04
大資料架構Hadoop
基於TableStore的海量電商訂單後設資料管理
2018-10-10
架構設計 | 基於電商交易流程，圖解TCC事務分段提交
2020-08-31
架構圖解
電商架構淺析
2024-06-05
架構
mysql資料庫的基礎架構
2020-10-01
MySql資料庫架構
MaxCompute幫你五步實現使用者畫像的資料加工
2018-07-16
企業如何利用資料打造精準使用者畫像？
2024-10-07
日處理資料量超10億：友信金服基於Flink構建實時使用者畫像系統的實踐
2019-12-30
基於flink的電商使用者行為資料分析【2】| 實時熱門商品統計
2020-11-24
精準服務並不難！Smartbi資料分析神器助你構建使用者畫像
2021-12-09
基於AI的資料架構：業務在前，協作在後
2024-02-26
AI架構
個推大資料：2019年5G手機首批使用者畫像報告
2019-09-02
大資料
基於電商中臺架構-商品系統設計(二)：類目設計
2018-12-07
架構
基於Go語言構建的萬億級流量大資料平臺架構
2019-03-04
Go大資料架構

基於使用者畫像大資料的電商防刷架構

相關文章