知物由學 | 人工智慧時代，如何反爬蟲？

網易易盾發表於2020-01-16

原文網址 : https://zhuanlan.kanxue.com/article-10257.htm

人工智慧爬蟲

“知物由學”是網易易盾打造的一個品牌欄目，詞語出自漢·王充《論衡·實知》。人，能力有高下之分，學習才知道事物的道理，而後才有智慧，不去求問就不會知道。“知物由學”希望通過一篇篇技術乾貨、趨勢解讀、人物思考和沉澱給你帶來收穫的同時，也希望開啟你的眼界，成就不一樣的你。當然，如果你有不錯的認知或分享，也歡迎在“網易易盾”公眾號後臺投稿。

隨著網際網路開放式、爆發式地增長，資料的價值變得越來越重要，尤其是電商、傳媒、社交等等業務，將資料比作黃金也不為過。因而隨之誕生了網路爬蟲技術，黑客通過呼叫網站開放的免費介面來批量獲取有價值的資料，用以資料探勘和分析行業狀況等。然而大量的非法爬蟲會造成網站伺服器壓力巨大，甚至影響正常使用者的訪問；而且有價值的資料被竊取，也會對網站的商業利益造成負面影響。

因此反爬蟲技術應運而生。反爬蟲技術大體包含“爬蟲識別”和“爬蟲反制”兩個步驟，後者主要是用於對前者識別出的爬蟲出的爬蟲進行懲罰和反制，主要包括限制訪問、驗證碼校驗、資料投毒等等，本文不做深究。而前者目前常用的方式是基於規則判斷。比如以某個使用者或者IP為單位，統計其在一定時間內的訪問記錄，然後用人為設定的一些閾值，這種可以稱為專家規則方法。其優點是規則明確、可靠，可以實時針對發現的爬蟲特徵來設定規則，從而實現與爬蟲對抗。

但是它也有明顯的缺點：

強依賴運營的經驗，規則和閾值難以憑空設定；
與爬蟲對抗依賴人為觀察爬蟲的特徵；
當規則越來越複雜且數量龐大時，規則引擎的效率會越來越低，成本會比較大。

由於上述原因，我們結合了兩項熱門的技術：大資料和機器學習，來探究其在爬蟲識別中的應用。

一、基於Flink的大資料統計

首先我們需要通過一些大資料技術來獲取統計資料。Flink是一個新興的分散式大資料流處理引擎，本文不做詳細介紹，只是利用了其基於事件時間視窗統計資料的功能。
流處理過程主要包含以下步驟：

知物由學 | 人工智慧時代，如何反爬蟲？

Flink流處理過程

資料來源：我們的資料來源是業務網站吐出的Nginx訪問日誌，儲存在kafka佇列中。
預處理：按照資料來源中的資料格式，將訪問日誌中有用的欄位解析出來，主要是Timestamp、IP、URI、Htpp_User_Agent等。
維度聚合：利用Flink的keyby功能，將同一IP的資料彙總起來。
時間視窗：利用Flink的Window功能，把Timestamp處於某一時間視窗內的資料彙總到一起。我們採用的是滑動視窗的方式，統計15分鐘之內的資料，每1分鐘滑動一次。
統計：通過以上兩步，我們每1分鐘結束，都能獲得每個IP在前15分鐘內的所有訪問記錄。我們對這些資料進行進一步統計，得到的資料以Json形式寫入到Kafka，格式如下圖

知物由學 | 人工智慧時代，如何反爬蟲？

Flink輸出資料

欄位含義：

Timestamp：視窗結束時間的時間戳；
IP：該資料所屬的IP；
Sum：該IP在時間區間內的總訪問次數
URI：該IP在時間區間內訪問的URI的具體統計

a）counts: 是一個map，key是所訪問的URI，value是訪問計數
b）count: counts中不同key的數量
c）sum: counts中所有value的和
d）min: counts中所有value的最小值
e）max: counts中所有value的最大值

Http_User_Agent：該IP在時間區間內訪問記錄所使用的User Agent的具體統計。內部的counts、count、sum、min、max與URI中的類似
其他還有一些欄位如http_referer、status、params、http_version等也類似，不再一一列出。

二、資料的特徵提取

要利用機器學習的演算法來實現爬蟲的判斷，首先要將原始資料轉化為向量，向量中的維度資料要儘量包含資料的特徵，這樣才能儘可能地區分爬蟲和正常記錄的差異。

通過觀察發現，爬蟲記錄與正常記錄相比，主要有以下特徵：

訪問總計數sum偏高；
每個URI的訪問計數較高；
訪問的URI比較集中，通常只訪問特定的幾個URI，而且可能呈現一定的比例；
訪問所用的User Agent比較單一；
每個User Agent的計數都很接近；

針對以上特徵，我們用以下維度來組成資料的特徵向量：

普通維度：這些維度是直接採用原始資料中的統計量，比如sum、URI.count、URI.max、URI.min、http_user_agent.count、http_user_agent.max、http_user_agent.min等等
方差維度：考慮到URI、http_user_agent等欄位的不同取值的分佈情況也是重要的特徵，把counts中value的方差也作為特徵維度
訂製維度：業務方對其URI分佈有一定的瞭解，可以對URI.counts中的資料做一個二次統計，產生一些訂製維度。比如把key匹配正規表示式“^/api/v\\d+/products/.*”的記錄的value相加，來作為一個新的特徵維度。同樣的也可用http_user_agent.counts中的資料產生訂製維度

三、線下分析

我們採用神經網路演算法，該演算法的優點是：技術成熟、適應性強、工程化容易、可移植性強等等。但是它是一種有監督學習，需要有一批訓練資料才能工作。

3.1 訓練資料獲取階段：

獲取訓練資料的思路有兩種：

3.1.1 藉助規則引擎法：我們已經擁有一個規則引擎，可以用它配置一些簡單的規則，然後把規則引擎判斷出的結果作為標記，和原始資料一起作為訓練集資料。這種方法的優點是簡單、直觀；且規則越複雜，則相應訓練出來的模型也越優秀，區分爬蟲的能力越強。但是缺點也是很明顯的，因為依賴了規則引擎，所以也繼承了規則引擎的弊端，要建立合適的規則比較困難，而且學習後的模型也只是能起到和規則引擎一樣的效果，無法識別更多特殊的異常。所以該方法必須要搭配資料反饋和模型進化，才能使模型更加智慧。

3.1.2 人工標記法：這也是一種常見的獲取訓練集的方式，訓練集越完備，資料代表性越好則訓練出來的模型越優秀。但是該種方法最大的缺點是工作量巨大，面對海量的大資料，我們不可能做到一一標記，因此這種方法的難點就在於如何高效地獲取有效資料。

我們採用的方法是基於PCA+Kmeans的無監督學習演算法，大概步驟如下：

先取樣一批提取完特徵的資料作為輸入
對原始的特徵資料做PCA主成分分析，通過線性變換獲得方差最大的幾個主成分維度，作為新的、降維後的特徵向量，這一步是為了提取特徵向量中的有效成分，去除無用資訊
對降維後的資料採用Kmeans演算法進行聚類，得到若干個類別，並且對每條資料標記類別號
對於每類資料，抽取最有代表性的若干條資料，人為分析對應的原始資料，判斷是否為爬蟲，然後計算抽取資料中爬蟲的比例。如果比例超過一定閾值，則將該類標記為爬蟲；如果比例小於一定閾值，則將該類標記為正常；比例在上下閾值之間的做對類內資料做進一步聚類，再做類似的判斷
用類別的標記來標記類內的每條資料，得到了帶標記的訓練資料集
這種方式需要在效果和工作量之間做取捨。當然也可以搭配資料反饋和模型進化，使模型表現更好。

3.2 模型構建和訓練階段

使用Pytorch搭建神經網路模型。可以分批、多組地用同一批資料反覆訓練模型。當達到一定的迭代次數，或者損失函式小於一定閾值，則表示模型訓練完畢。可以將模型引數檔案匯出，供線上部署。

知物由學 | 人工智慧時代，如何反爬蟲？

一個簡單的單層神經網路例子

知物由學 | 人工智慧時代，如何反爬蟲？

知物由學 | 人工智慧時代，如何反爬蟲？

訓練過程

知物由學 | 人工智慧時代，如何反爬蟲？

在測試集上的測試結果

四、線上部署

模型引擎的線上部署如下圖所示。Training模組負責資料的線下處理和訓練，訓練完的模型檔案上傳至Nos，然後將模型的配置資訊以及模型檔案的地址寫入Etcd。Model Engine模組是線上的模型引擎，實時監聽Etcd中額配置，當配置更新時，會立即拉取模型檔案，並載入。

Model Engine會消費Flink統計完寫入Kafka的資料，並用模型做爬蟲判別，並將判別的結果寫入資料庫，供其他系統查詢使用。

知物由學 | 人工智慧時代，如何反爬蟲？

線上部署架構

五、模型進化

到此我們已經搭建了包含資料採集、線下訓練、線上部署的模型引擎架構，但是正如前面所說，目前的模型只能達到與規則引擎相近的效果，要想讓模型進化得更為智慧，必須加入反饋機制，使得模型能夠進化。

反饋的思路是從模型引擎的輸出資料入手。神經網路分類演算法的輸出資料，除了包含記錄是否屬於爬蟲的判斷，還包含是否屬於爬蟲的概率。可以根據概率分為三段：非爬蟲：0~33%、疑似爬蟲：33%~66%，爬蟲：66%~100%。

對三段抽樣進行人工分析：

非爬蟲、爬蟲段：抽取少量資料，檢查是否有誤殺和漏殺；
嫌疑段：抽取大量資料來重點分析，判斷是否為爬蟲；

將分析完的資料作為新的訓練集，對原來訓練好的模型進行增量訓練，使模型在保留部分歷史經驗的情況下獲取新的特性。這一步當然也可以結合一些別的增量學習、遷移學習以及強化學習的演算法來實現。

點選免費體驗網易易盾安全解決方案。

相關閱讀：

知物由學第五十期 | 網易易盾深度學習模型工程化實踐

知物由學第四十九期 | 網易安全部總經理周森：內容安全遠比想象中的要複雜

知物由學第四十八期 | 對虛假視訊的思考：當眼見也為虛，我們該怎麼辦？

知物由學 | 人工智慧時代，如何反爬蟲？

相關文章

知物由學 | AI時代，那些黑客正在如何打磨他們的“利器”？（一）
2018-03-06
AI黑客
知物由學 | AI時代，那些黑客正在如何打磨他們的“利器”？（二）
2018-03-07
AI黑客
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
知物由學 | 如何利用人工智慧來對抗DDoS攻擊？
2018-06-26
人工智慧
知物由學 | Windows反外掛的資料對抗
2021-11-26
Windows
代理IP如何突破反爬蟲？
2021-09-11
爬蟲
如何應對反爬蟲措施？
2022-06-16
爬蟲
知物由學 | 虛假色情氾濫，人工智慧可以做些啥？
2018-04-18
人工智慧
逆向爬蟲知識學習
2022-03-21
爬蟲
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
知物由學 | 人工智慧、機器學習和深度學習如何在網路安全領域中應用？
2018-05-04
人工智慧機器學習深度學習
python爬蟲如何爬知乎的話題？
2019-02-16
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
知物由學 | 基於DNN的人臉識別中的反欺騙機制
2018-04-05
DNN
反爬蟲應對策略
2023-12-01
爬蟲
知物由學 | iOS AssetBundle資源保護
2020-12-18
iOS
我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
知物由學 | 增量學習助力內容風控
2022-02-15
知物由學 | 從0到1搭建實時反外掛機制，多維度補充手遊“攻防力”
2021-09-27
知物由學 | 如何應對日益強大的零日攻擊
2018-05-09
知物由學 | 如何對il2cpp進行加固保護？
2021-01-05
知物由學 | APP大瘦身，新一代AAB框架下的安全加固之道
2021-03-11
APP框架
反爬蟲的應對措施
2022-05-16
爬蟲
爬蟲在大資料時代的應用
2023-04-27
爬蟲大資料
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
知物由學 | SO加固如何提升Android應用的安全性？
2021-04-25
Android
對於反爬蟲偽裝瀏覽器進行爬蟲
2018-04-12
爬蟲瀏覽器
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
學習爬蟲必須學的基礎知識
2020-01-13
爬蟲
Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
知物由學 | Lua指令碼保護的前世今生
2020-10-13
指令碼
知物由學 | iOS裝置指紋的前世今生
2020-11-27
iOS
天天聊爬蟲，今天我們來聊聊反爬
2018-12-19
爬蟲
防止爬蟲被反爬的幾個主要策略
2021-12-15
爬蟲