第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

頂象技術發表於2022-11-08

原文網址 : https://zhuanlan.kanxue.com/article-19759.htm

頂象防禦雲業務安全情報中心監測到，某社交媒體平臺遭遇持續性的惡意爬蟲盜取。被批次盜取使用者資訊和原創內容，經分類梳理和初步加工後，被黑灰產轉售給競爭對手或直接用於惡意營銷。由此不僅給社交媒體平臺的數字資產帶來直接損失，影響使用者對社交媒體平臺的信任，更破壞了內容產業的健康發展。

社交媒體是重要的內容平臺

中國網際網路絡資訊中心（CNNIC）第46次《中國網際網路絡發展狀況統計報告》顯示，截至2020年6月，微信朋友圈使用率為85.0%，QQ空間、微博使用率分別為41.6%、40.4%，較2020年3月分別下降6個百分點、2.1個百分點。

微信朋友圈、微博等主流社交平臺長期佔據大部分流量，並透過不斷豐富的短影片、電商、本地生活等服務，構建完善的流量閉環和服務生態。透過社交平臺，網民和企事業組織積極分享圖文影片資訊，進行各類宣傳推廣，展示個體形象。例如，2022年北京冬奧會是迄今收視率最高的一屆冬奧會，在全球社交媒體上吸引超20億人關注。

頂象防禦雲業務安全情報中心第BSI-2022-dpda號情報顯示，有黑灰產團伙開發出專門的惡意網路爬蟲軟體，破解某社交媒體平臺的通訊介面和演算法，透過篡改IP地址等方式，繞過平臺設定的安全防護措施，對該社交媒體進行高頻的資料盜取。被盜取的資料包含社交媒體使用者資訊，以及使用者原創的文章、圖片、影片等內容。

社交媒體平臺的資料是企業的重要數字資產。作為新型的生產要素，不僅是企業核心的競爭力，更是新產品、服務、流程和管理的重要組成部分。惡意爬蟲的爬取、盜用行為，不僅造成企業數字資產損失，帶來直接的經濟損失，消耗了平臺服務和頻寬資源，嚴重破壞內容產業的生態秩序。

惡意爬蟲肆意盜取社交媒體原創內容

機械工業出版社出版的《攻守道—企業數字業務安全風險與防範》一書中，認為惡意網路爬蟲會帶來數字資產損失、使用者隱私洩露和擾亂業務正常執行等三大危害，並將“惡意網路爬蟲”列為十大業務欺詐手段之一。

網路爬蟲，又被稱為網頁蜘蛛，網路機器人，是按照一定的規則，自動地抓取網路資訊和資料的程式或者指令碼。網路爬蟲分為兩類，一類是搜尋引擎爬蟲，為搜尋引擎從廣域網下載網頁，便於搜尋檢索，後者則是在指定目標下載資訊，用於儲存或其他用途。另一類是惡意爬蟲，是從公開或半公開網路平臺抓取商品、服務、文字、圖片、使用者資訊、評價、價格資訊以及賬戶密碼、聯絡方式、身份等隱私資訊。

頂象防禦雲業務安全情報中心分析發現，盜取某社交媒體的惡意爬蟲共有兩種：第一種惡意爬蟲由開發程式設計能力的人員自主編寫，能夠根據需要和目的，對規則、邏輯進行自定義；第二種惡意爬蟲是直接購買標準化的爬蟲工具，簡單易用上手快，同時搭售反爬工具。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

爬蟲開發製作門檻比較低。很多技術論壇社群有關於爬蟲開發、研究、使用介紹，市面上也有很多專業的爬蟲書籍。只要掌握Python程式語言，按照論壇、社群和書籍上提供的爬蟲教程和實操案例，同時根據爬蟲技術愛好者分享出來的平臺、網站、App的API介面資訊，就能夠快速搭建出一套專門的爬蟲工具。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

同時，市面也有很多標準化的爬蟲工具。這類工具提供了視覺化的操作，不懂程式設計、沒有開發能力也能夠使用。只需要簡單的配置，就能夠對目標進行爬取。不僅爬取的進度和結果是視覺化，結果匯出也相當便利。並且，這類工具還會提供付費購買的工具，幫助使用者繞過常規的反爬措施。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

黑灰產盜取社交媒體資料的目的

黑灰產盜取資料是為了牟利。盜取社交平臺的使用者資訊和原創內容後，黑灰產對資料進行儲存、加工，然後行商業化售賣，甚至進行詐騙。頂象防禦雲業務安全情報中心分析發現，黑灰產盜取社交媒體資料主要是以下三個目的。

第一類，為其他平臺導流。有非常多針對社交媒體的資料分析平臺。透過對社交平臺d使用者賬號資訊、內容、瀏覽、點贊等資料分類處理後，就可以進行內容分析、榜單排行、資料監控等提供服務，輸出為三方輿情服務。或者，提取出使用者的關注聚焦點，製作類似聚焦的內容，為其他平臺做導流。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

第二類，搬運內容為其他賬號吸引粉絲。粉絲是社交媒體賬號影響力的重要體現之一。由於大多數賬號自身創作能力有限，很多賬號透過爬蟲爬取他人的優質文章、影片，再將內容簡單加工後重新發布到自己的賬號，由此達到快速吸粉的目的。說白了，就是剽竊他人原創版權。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

第三類，製作仿冒賬號進行詐騙。透過爬蟲爬取社交平臺他人的資訊、分享的文章、影片等內容，在同個平臺或在另一個社交平臺建立高仿的虛假賬號，騙取粉絲的關注，然後進行各類欺詐。

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

此外，競爭對手也會利用網路爬蟲進行惡性競爭。同行的競爭是赤裸裸的。不少公司會僱傭黑灰產，對目標平臺發起資料盜取攻擊，從而導致競品無法正常使用。如果在某個重要的節點，透過惡意爬蟲對目標平臺進行大流量的訪問或盜取，會瞬間過高的併發量，出現DDoS效果，導致大量普通使用者無法正常訪問該網站，干擾平臺的正常運營。

惡意網路爬蟲的技術特徵

機械工業出版社出版的《攻守道—企業數字業務安全風險與防範》一書中，對惡意網路爬蟲有詳細的技術特徵分析，大體來看，主包含以下幾點特徵。

1、訪問的目標集中。惡意網路爬蟲主要是爬取核心資訊，因此只瀏覽訪問多個頁面，對於非涉及資訊資料的頁面不做不訪問。

2、行為有規律。由於爬蟲是程式化操作，按照預先設定的流程進行訪問等，因此呈現出有規律、有節奏且統一的特徵。

3、同一裝置上有規模化的訪問和操作。爬蟲的目的是最短時間內抓取最多資訊，因此同一裝置會有大量離散的行為，包括訪問、瀏覽、查詢等。

4、訪問IP地址異常。爬蟲的IP來源地址呈現不同維度上的聚集，而且瀏覽、查詢等操作時不停變換IP地址。並且很多爬蟲程式偽裝成瀏覽器進行訪問，並且透過購買或者租用的雲服務、改造路由器、租用IP代理、頻繁變更代理IP等進行訪問。

5、操作多集中非業務時間段。爬蟲程式執行時間多集中在無人值守階段。此時系統監控會放鬆，而且平臺的頻寬等資源佔用少，爬蟲密集的批次爬取不會對頻寬、介面造成影響。

針對惡意網路爬蟲的防控建議

基於惡意網路爬蟲的技術特徵以及社交媒體平臺的特點，頂象防禦雲業務安全情報中心安全及防控建議如下。

1、安全防護建議

加強平臺風險環境監測。社交平臺的客戶端可整合安全SDK，使其定期對App的執行環境進行檢測，對於存在程式碼注入、hook、模擬器、雲手機、root、越獄等風險能夠做到有效監控和攔截。

保障客戶端安全。社交分析平臺的APP和網頁，可以分別部署H5混淆防護及端安全加固，以保障客戶端安全。

保障通訊傳輸安全。黑產在業務通訊傳輸的環節，可能會嘗試篡改、爬取報文資料。透過對通訊鏈路的加密，可防止終端安全檢測模組的資料被篡改和冒用。

加強業務安全策略防控。針對批次爬蟲的風險特徵，可將社交媒體中各個業務查詢場景的請求接入業務安全風控系統。同時將終端採集的裝置指紋資訊、使用者行為資料等傳輸給風控系統，透過在風控系統配置相應的安全防控策略，有效地對風險進行識別和攔截。

1）裝置終端環境檢測。識別客戶端（或瀏覽器）的裝置指紋是否合法，是否存在注入、hook、模擬器等風險。通常批次作弊軟體大多都存在以上風險特徵。

2）行為檢測。基於裝置行為進行策略布控。針對同裝置高頻查詢，同IP高頻查詢，相同IP段反覆高頻查詢的請求進行監控。

3）名單庫維護。統計基於風控歷史資料，對於存在異常行為的賬號、IP段進行標註，沉澱到相應的名單庫。對於名單表內的資料在做策略時進行分層，適當加嚴管控。

4）外部資料服務。考慮對接手機號風險評分、IP風險庫、代理郵箱檢測等資料服務，對於風險進行有效識別和攔截。

2、處置及防控措施

頂象防禦雲業務安全情報中心建議，對識別為風險的請求進行實時攔截，直接反饋查詢失敗等，或在發現異常後透過彈出驗證碼的方式要求進行人機識別。

第五代智慧驗證碼。驗證碼能夠阻擋惡意爬蟲盜用、盜取資料行為，防止個人資訊、平臺資料洩露。當某一裝置或賬戶訪問次數過多後，就自動讓請求跳轉到一個驗證碼頁面，只有在輸入正確的驗證碼之後才能繼續訪問網站。但是設定複雜的驗證碼會影響使用者操作，帶來負面的體驗感受。

裝置指紋+風控引擎+智慧模型平臺。裝置指紋及時識別注入、hook、模擬器等風險，風控引擎對註冊、登入、領取等操作進行風險實時識別判定；智慧模型平臺幫助社交媒體構建專屬風控模型，由此構建多維度防禦體系，有效攔截各種惡意爬蟲風險，且不影響正常使用者體驗。

——————

業務安全產品：免費試用

如何防止網路爬蟲被限制？
2022-05-17
爬蟲
Keras之父：我擔心的是AI被社交媒體操控
2019-08-02
KerasAI
[網路爬蟲] 網路爬蟲實踐：大麥網演唱會預約搶票【待續】
2024-05-04
爬蟲
網路爬蟲
2018-12-07
爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
我的 Python 網路爬蟲直播分享要來了！
2018-10-19
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
動態ip代理軟體：只要網際網路在，爬蟲就存在
2019-01-11
爬蟲
什麼是Python網路爬蟲?常見的網路爬蟲有哪些?
2020-11-27
Python爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
匿名IP在網路爬蟲中的應用探索
2023-05-16
爬蟲
網路爬蟲在商業分析中的應用
2020-01-03
爬蟲
網路爬蟲的反扒策略
2021-09-11
爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
爬蟲是如何被網站識別的？
2022-04-28
爬蟲網站
python DHT網路爬蟲
2019-02-14
Python爬蟲
網路爬蟲專案
2022-01-29
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
我的爬蟲入門書 —— 《Python3網路爬蟲開發實戰（第二版）》
2022-02-27
爬蟲Python
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
你的爬蟲為什麼會被檢測到？
2022-05-05
爬蟲
網路爬蟲技術是什麼，網路爬蟲的基本工作流程是什麼？
2019-03-03
爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
網路爬蟲（python專案）
2018-12-04
爬蟲Python
什麼是網路爬蟲
2018-12-02
爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
專案－－python網路爬蟲
2020-08-15
Python爬蟲
網路爬蟲流程總結
2023-03-09
爬蟲
網路爬蟲如何運作？
2022-02-08
爬蟲
python網路爬蟲合法嗎
2021-09-11
Python爬蟲
什麼是網路爬蟲？
2022-12-09
爬蟲
網路爬蟲是什麼？
2022-05-25
爬蟲
Python網路爬蟲實戰
2022-03-18
Python爬蟲
寫網路爬蟲的法律邊界
2018-12-20
爬蟲
識別網路爬蟲的策略分析
2022-09-14
爬蟲
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP

第九期|不是吧，我在社交媒體的照片也會被網路爬蟲？

社交媒體是重要的內容平臺

惡意爬蟲肆意盜取社交媒體原創內容

黑灰產盜取社交媒體資料的目的

惡意網路爬蟲的技術特徵

針對惡意網路爬蟲的防控建議

相關文章