限制IP到全流程防控,講解網路爬蟲與技術反爬的動態攻防

頂象技術發表於2022-11-16

頂象最新一期業務安全情報顯示,某社交媒體平臺遭遇持續性的惡意爬蟲攻擊,使用者資訊和原創內容被批次盜走,經分類梳理和初步加工後,被黑灰產轉售給競爭對手或直接用於惡意營銷。由此不僅給使用者造成隱私和資訊洩露,更給社交媒體平臺的數字資產帶來直接損失,破壞了內容產業的健康發展。

什麼是網路爬蟲?

網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是按照一定的規則,自動地抓取網路資訊和資料的程式或者指令碼。通俗點講,網路爬蟲模擬人的行為,用程式代替了人的操作,從一個連結跳轉到下一個連結,就像是在網路上爬行一樣遍歷網頁。爬蟲跳轉、開啟、瀏覽等動作比人的速度快,瀏覽的網站的層次也更深,所以被稱為網路爬蟲。

1993年,麻省理工學院的學生馬休·格雷寫了一個名為“網際網路漫遊者”的程式,用來統計網際網路上的伺服器數量,並檢索網站的域名。由此,世界上第一個網路爬蟲誕生。隨著網際網路的迅速發展,網頁以爆發式增長,快速、精準的檢索越來越困難。開發者在“網際網路漫遊者”程式的基礎上進行了很多改進最佳化,用來檢索整個網際網路。同時,搜尋引擎的普及,推動網路爬蟲向多策略、負載均衡及大規模增量抓取等方向發展。

按照系統結構和實現技術,網路爬蟲可以分為四類:應用於搜尋引擎和大型資料採集的通用網路爬蟲,面向指定主題和目標頁面採集的聚焦網路網路爬蟲,只採集有更新有變化網頁的增量式網路爬蟲,以及能夠採集靜態連結後面、隱藏在搜尋表單後資訊不斷變化的深層網路爬蟲。

頂象與中國信通院聯合釋出的《數字業務安全白皮書》認為,惡意網路爬取會帶來數字資產損失、使用者隱私洩露和擾亂業務正常執行等三大危害,並將其列為十大業務欺詐手段之一。

惡意爬取與技術反爬的三個階段

惡意爬取與反爬隨著技術發展不斷演進,是一個動態的攻防過程。基於網路爬蟲的發展以及惡意爬取行為的變化,大體來看是三個階段。

第一階段,限制IP和賬號、驗證碼攔截

起初網站的反爬措施,是對於非源於瀏覽器的訪問直接拒絕。當惡意網路爬蟲訪問時,就會出現403錯誤響應碼,或者收到“抱歉,無法訪問“的提示。

為了繞過反爬機制,網路爬蟲設定Headers資訊,模擬成瀏覽器,多執行緒的對靜態頁面進行大規模惡意抓取。

Headers是Http請求和相應的核心,承載了使用者訪問網頁的主要資訊,包含Cookie(使用者名稱、密碼)、host(請求的伺服器主機)、User Agent(瀏覽器、瀏覽器核心、廠商等)、Referer(瀏覽軌跡,比如上一個頁面)等。

針對惡意爬取行為,網站和平臺對頻繁變化UserAgent(模擬瀏覽器)、頻繁使用代理IP的賬號、裝置進行限制和攔截:當同一IP、同一裝置在一定時間內訪問網站的次數,系統自動限制其訪問瀏覽;當某一訪問者訪問次數過多後,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼之後才能繼續訪問。

第二階段,動態網頁技術保護資訊

面對反爬技術的升級,網路爬蟲也隨之升級。網路爬蟲能夠自動識別並填寫驗證碼,繞過二次核驗的攔截;同時使用多個賬號,配置IP代理工具,繞過平臺對賬號和IP地址的限制。

針對網路爬蟲的變化,很多網站和平臺採用動態網頁開技術。基於動態網頁技術,網頁的URL地址不固定,後臺實時與前端使用者互動,完成使用者查詢、提交等動作。而且不同時間、不同使用者、訪問同一URL地址時會產生不同的頁面。相比與傳統的靜態網頁,動態網頁有效保護重要的資料資訊,有效遏制了網路爬蟲的惡意爬取行為。

第三階段,全流程防控惡意盜取

道高一尺魔高一丈。為了繞過新的反爬措施,網路爬蟲使用Selenium和Phantomjs技術,完全模擬人的操作。

Selenium是一個用於Web應用程式測試的工具,能夠直接執行在瀏覽器中。它支援所有主流的瀏覽器,能夠根據開發者的指令,讓瀏覽器自動載入頁面,獲取需要的資訊資料,甚至頁面截圖,或者判斷網站上某些動作是否發生。由於Selenium 需要與第三方瀏覽器結合在一起才能使用,因此開發者使用Phantomjs工具(或稱之為"虛擬瀏覽器")代替真實的瀏覽器。

隨著網路爬蟲的不斷迭代,單一的防控措施已不能奏效,平臺和企業需要立體的防禦措施,才能有效應對惡意爬取行為。

頂象的全流程反爬方案

攻擊的是一個點,防護卻需要一個面。頂象的全流程的立體防控措施,有效防範惡意爬取行為。

首先,定期對平臺、App的執行環境進行檢測,對App、客戶端進行安全加固,對通訊鏈路的加密,保障端到端全鏈路的安全。其次,部署基於頂象防禦雲、風控引擎和智慧模型平臺,構建多維度防禦體系。

頂象智慧驗證碼。作為防禦雲的一部分,頂象智慧驗證碼能夠阻擋惡意爬蟲盜用、盜取資料行為。並能夠在註冊、登入、查詢時,對惡意賬號、惡意爬取行為進行實時的核驗、判定和攔截。

頂象裝置指紋。作為防禦雲的一部分,頂象裝置指紋能夠對程式碼注入、hook、模擬器、雲手機、root、越獄等風險做到有效監控和攔截。

頂象風控引擎。根據業務查詢場景的請求、客戶端採集的裝置指紋資訊、使用者行為資料行為(滑鼠的滑動軌跡、鍵盤的敲擊速率、滑動驗證碼的滑動軌跡、速率、按鈕點選等行為軌跡等),實現對惡意“爬蟲”行為的有效識別,基於安全防控策略,有效地惡意爬取行為進行識別和攔截。

頂象智慧模型平臺。基於業務、爬取風險與反爬策略變化,構建專屬風控模型,實現安全策略的實時更迭,從而有效攔截各種惡意爬取風險。

——————

業務安全產品:免費試用


相關文章