第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

頂象技術發表於2022-11-08

頂象防禦雲業務安全情報中心監測到,某社交媒體平臺遭遇持續性的惡意爬蟲盜取。被批次盜取使用者資訊和原創內容,經分類梳理和初步加工後,被黑灰產轉售給競爭對手或直接用於惡意營銷。由此不僅給社交媒體平臺的數字資產帶來直接損失,影響使用者對社交媒體平臺的信任,更破壞了內容產業的健康發展。

社交媒體是重要的內容平臺

中國網際網路絡資訊中心(CNNIC)第46次《中國網際網路絡發展狀況統計報告》顯示,截至2020年6月,微信朋友圈使用率為85.0%,QQ空間、微博使用率分別為41.6%、40.4%,較2020年3月分別下降6個百分點、2.1個百分點。

微信朋友圈、微博等主流社交平臺長期佔據大部分流量,並透過不斷豐富的短影片、電商、本地生活等服務,構建完善的流量閉環和服務生態。透過社交平臺,網民和企事業組織積極分享圖文影片資訊,進行各類宣傳推廣,展示個體形象。例如,2022年北京冬奧會是迄今收視率最高的一屆冬奧會,在全球社交媒體上吸引超20億人關注。

頂象防禦雲業務安全情報中心第BSI-2022-dpda號情報顯示,有黑灰產團伙開發出專門的惡意網路爬蟲軟體,破解某社交媒體平臺的通訊介面和演算法,透過篡改IP地址等方式,繞過平臺設定的安全防護措施,對該社交媒體進行高頻的資料盜取。被盜取的資料包含社交媒體使用者資訊,以及使用者原創的文章、圖片、影片等內容。

社交媒體平臺的資料是企業的重要數字資產。作為新型的生產要素,不僅是企業核心的競爭力,更是新產品、服務、流程和管理的重要組成部分。惡意爬蟲的爬取、盜用行為,不僅造成企業數字資產損失,帶來直接的經濟損失,消耗了平臺服務和頻寬資源,嚴重破壞內容產業的生態秩序。

惡意爬蟲肆意盜取社交媒體原創內容

機械工業出版社出版的《攻守道—企業數字業務安全風險與防範》一書中,認為惡意網路爬蟲會帶來數字資產損失、使用者隱私洩露和擾亂業務正常執行等三大危害,並將“惡意網路爬蟲”列為十大業務欺詐手段之一。

網路爬蟲,又被稱為網頁蜘蛛,網路機器人,是按照一定的規則,自動地抓取網路資訊和資料的程式或者指令碼。網路爬蟲分為兩類,一類是搜尋引擎爬蟲,為搜尋引擎從廣域網下載網頁,便於搜尋檢索,後者則是在指定目標下載資訊,用於儲存或其他用途。另一類是惡意爬蟲,是從公開或半公開網路平臺抓取商品、服務、文字、圖片、使用者資訊、評價、價格資訊以及賬戶密碼、聯絡方式、身份等隱私資訊。

頂象防禦雲業務安全情報中心分析發現,盜取某社交媒體的惡意爬蟲共有兩種:第一種惡意爬蟲由開發程式設計能力的人員自主編寫,能夠根據需要和目的,對規則、邏輯進行自定義;第二種惡意爬蟲是直接購買標準化的爬蟲工具,簡單易用上手快,同時搭售反爬工具。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

爬蟲開發製作門檻比較低。很多技術論壇社群有關於爬蟲開發、研究、使用介紹,市面上也有很多專業的爬蟲書籍。只要掌握Python程式語言,按照論壇、社群和書籍上提供的爬蟲教程和實操案例,同時根據爬蟲技術愛好者分享出來的平臺、網站、App的API介面資訊,就能夠快速搭建出一套專門的爬蟲工具。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

同時,市面也有很多標準化的爬蟲工具。這類工具提供了視覺化的操作,不懂程式設計、沒有開發能力也能夠使用。只需要簡單的配置,就能夠對目標進行爬取。不僅爬取的進度和結果是視覺化,結果匯出也相當便利。並且,這類工具還會提供付費購買的工具,幫助使用者繞過常規的反爬措施。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

黑灰產盜取社交媒體資料的目的

黑灰產盜取資料是為了牟利。盜取社交平臺的使用者資訊和原創內容後,黑灰產對資料進行儲存、加工,然後行商業化售賣,甚至進行詐騙。頂象防禦雲業務安全情報中心分析發現,黑灰產盜取社交媒體資料主要是以下三個目的。

第一類,為其他平臺導流。有非常多針對社交媒體的資料分析平臺。透過對社交平臺d使用者賬號資訊、內容、瀏覽、點贊等資料分類處理後,就可以進行內容分析、榜單排行、資料監控等提供服務,輸出為三方輿情服務。或者,提取出使用者的關注聚焦點,製作類似聚焦的內容,為其他平臺做導流。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

第二類,搬運內容為其他賬號吸引粉絲。粉絲是社交媒體賬號影響力的重要體現之一。由於大多數賬號自身創作能力有限,很多賬號透過爬蟲爬取他人的優質文章、影片,再將內容簡單加工後重新發布到自己的賬號,由此達到快速吸粉的目的。說白了,就是剽竊他人原創版權。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

第三類,製作仿冒賬號進行詐騙。透過爬蟲爬取社交平臺他人的資訊、分享的文章、影片等內容,在同個平臺或在另一個社交平臺建立高仿的虛假賬號,騙取粉絲的關注,然後進行各類欺詐。

第九期|不是吧,我在社交媒體的照片也會被網路爬蟲?

此外,競爭對手也會利用網路爬蟲進行惡性競爭。同行的競爭是赤裸裸的。不少公司會僱傭黑灰產,對目標平臺發起資料盜取攻擊,從而導致競品無法正常使用。如果在某個重要的節點,透過惡意爬蟲對目標平臺進行大流量的訪問或盜取,會瞬間過高的併發量,出現DDoS效果,導致大量普通使用者無法正常訪問該網站,干擾平臺的正常運營。

惡意網路爬蟲的技術特徵

機械工業出版社出版的《攻守道—企業數字業務安全風險與防範》一書中,對惡意網路爬蟲有詳細的技術特徵分析,大體來看,主包含以下幾點特徵。

1、訪問的目標集中。惡意網路爬蟲主要是爬取核心資訊,因此只瀏覽訪問多個頁面,對於非涉及資訊資料的頁面不做不訪問。

2、行為有規律。由於爬蟲是程式化操作,按照預先設定的流程進行訪問等,因此呈現出有規律、有節奏且統一的特徵。

3、同一裝置上有規模化的訪問和操作。爬蟲的目的是最短時間內抓取最多資訊,因此同一裝置會有大量離散的行為,包括訪問、瀏覽、查詢等。

4、訪問IP地址異常。爬蟲的IP來源地址呈現不同維度上的聚集,而且瀏覽、查詢等操作時不停變換IP地址。並且很多爬蟲程式偽裝成瀏覽器進行訪問,並且透過購買或者租用的雲服務、改造路由器、租用IP代理、頻繁變更代理IP等進行訪問。

5、操作多集中非業務時間段。爬蟲程式執行時間多集中在無人值守階段。此時系統監控會放鬆,而且平臺的頻寬等資源佔用少,爬蟲密集的批次爬取不會對頻寬、介面造成影響。

針對惡意網路爬蟲的防控建議

基於惡意網路爬蟲的技術特徵以及社交媒體平臺的特點,頂象防禦雲業務安全情報中心安全及防控建議如下。

1、安全防護建議

加強平臺風險環境監測。社交平臺的客戶端可整合安全SDK,使其定期對App的執行環境進行檢測,對於存在程式碼注入、hook、模擬器、雲手機、root、越獄等風險能夠做到有效監控和攔截。

保障客戶端安全。社交分析平臺的APP和網頁,可以分別部署H5混淆防護及端安全加固,以保障客戶端安全。

保障通訊傳輸安全。黑產在業務通訊傳輸的環節,可能會嘗試篡改、爬取報文資料。透過對通訊鏈路的加密,可防止終端安全檢測模組的資料被篡改和冒用。

加強業務安全策略防控。針對批次爬蟲的風險特徵,可將社交媒體中各個業務查詢場景的請求接入業務安全風控系統。同時將終端採集的裝置指紋資訊、使用者行為資料等傳輸給風控系統,透過在風控系統配置相應的安全防控策略,有效地對風險進行識別和攔截。

1)裝置終端環境檢測。識別客戶端(或瀏覽器)的裝置指紋是否合法,是否存在注入、hook、模擬器等風險。通常批次作弊軟體大多都存在以上風險特徵。

2)行為檢測。基於裝置行為進行策略布控。針對同裝置高頻查詢,同IP高頻查詢,相同IP段反覆高頻查詢的請求進行監控。

3)名單庫維護。統計基於風控歷史資料,對於存在異常行為的賬號、IP段進行標註,沉澱到相應的名單庫。對於名單表內的資料在做策略時進行分層,適當加嚴管控。

4)外部資料服務。考慮對接手機號風險評分、IP風險庫、代理郵箱檢測等資料服務,對於風險進行有效識別和攔截。

2、處置及防控措施

頂象防禦雲業務安全情報中心建議,對識別為風險的請求進行實時攔截,直接反饋查詢失敗等,或在發現異常後透過彈出驗證碼的方式要求進行人機識別。

第五代智慧驗證碼。驗證碼能夠阻擋惡意爬蟲盜用、盜取資料行為,防止個人資訊、平臺資料洩露。當某一裝置或賬戶訪問次數過多後,就自動讓請求跳轉到一個驗證碼頁面,只有在輸入正確的驗證碼之後才能繼續訪問網站。但是設定複雜的驗證碼會影響使用者操作,帶來負面的體驗感受。

裝置指紋+風控引擎+智慧模型平臺。裝置指紋及時識別注入、hook、模擬器等風險,風控引擎對註冊、登入、領取等操作進行風險實時識別判定;智慧模型平臺幫助社交媒體構建專屬風控模型,由此構建多維度防禦體系,有效攔截各種惡意爬蟲風險,且不影響正常使用者體驗。

——————

業務安全產品:免費試用


相關文章