如何處理識別出的網路爬蟲

太陽小諸葛發表於2019-02-02

天下沒有什麼事能難倒網路爬蟲,無論是你設定了介面頻率限制,還是User Agent判斷,統統沒有卵用,其有ip庫快速切換,User Agent照著客戶端的請求規則適配,更甚者搞個服務專門hack token,提供給網路爬蟲用,分分鐘破解,反爬之路任重而道遠

.如何處理識別出的網路爬蟲

工具/原料

  • 電腦
  • 瀏覽器
  • 你的網站

方法/步驟

  1. 1

    技術壓制

    不要一開始就設定得很高,否則別人一上來把你的爬蟲機制反掉,你就沒有還手的招數了。要循序漸進。

    .如何處理識別出的網路爬蟲
  2. 2

    引狼入室

    一開始,你最好假裝自己的系統是毫無防護的,讓別人用最簡單的網路爬蟲程式碼來爬你,這時候,網路爬蟲的特徵通常很明顯,甚至不經過任何偽裝

    .如何處理識別出的網路爬蟲
  3. 3

    以假亂真

    這些資料跟真實資料還可以一模一樣,但是裡面一定要有幾個欄位是隨機亂寫的,難以發現,卻又破壞規則。

    .如何處理識別出的網路爬蟲
  4. 4

    放水

    只要對方不是惡意攻擊或者抓取涉及機密的內容,站長大可以放他一馬。不為難彼此。

    .如何處理識別出的網路爬蟲
    END

注意事項

  • 爬蟲跟反爬蟲是永不止息的戰爭,千萬不要做涉及違法的事情
  • 爬蟲健康執行離不開代理ip的支援,可選擇如太陽軟體之類的輔助軟體來使用


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31561288/viewspace-2565419/,如需轉載,請註明出處,否則將追究法律責任。

相關文章