爬蟲 第二篇 縱觀

低头不见抬头见發表於2024-04-25

繼上篇文章採集圖片後,有朋友問採集就這麼簡單嗎?

當然No No No!!!!

獲取資料的渠道多種多樣,根據需求,可以從小程式、PC、h5、app、官方介面等等獲取資料。當然 你從別人的地方獲取資料,別人哪兒能那麼輕易的讓你獲取到資料呢!所以就出現了各種反爬!我簡單總結了幾種......

  1. 對UA的檢測,切換UA可以避免檢測;

  2. 對IP的檢測,所以就會出現市面上的代理IP。免費的不用說,很low。收費的代理質量也是良莠不齊;

  3. 對請求過程中資料的加密,常見的加密方式有MD5,RSA,DES,SHA....

    (1)PC,h5 端的js加密,大多都會透過混淆對映然後加密。
    (2)APP端的加密java層的很少,基本上都是在so加密,這樣破解的難度大大增高

  4. cookie檢測,例如賬戶檢測,指紋等一些使用者資訊或者本地瀏覽器的一些資訊

  5. 滑塊,有的人透過js直接硬剛,但是不建議這麼做,為什麼呢?花費時間比較多,服務端稍加變化就得從新破解。這裡採用自動化的工具。滑塊的方式有很多。會加上機器學習+自動化工具 輕鬆過掉滑塊。也要避免檢測自動化工具

好了!! 簡單聊下反爬,還得在實際的專案上見真章!

七五七五二四八二九 歡迎QQ討論!

相關文章