常見的反爬蟲措施與應對方法介紹

Cloud01發表於2022-05-17

使用網路爬蟲的使用者與站點伺服器的網站主往往處於對立的立場上,使用者希望能爬取的資料資訊儘可能更多更高效,而做為網站主當然期待自身的網站能夠正常執行,不受爬蟲程式的影響,因此往往網站伺服器當中都會有許多反爬蟲措施,而使用者也會給出相應的應對方法:

1. IP活動出現異常

網站主能夠利用網站流量統計看得出一些異常瀏覽,例如相同IP地址推送了越來越多相近的請求,相同IP瀏覽的速度 超過正常訪問頻率 ,那麼網站主便會作出 相應措施,一般為瀏覽速率限定、瀏覽頻繁出現驗碼、限定此IP瀏覽時長三種

應對方法 :選擇代理IP,減少單IP訪問頻率和次數。

2.註冊和登入

越來越多網站或是論壇都有限制,必須註冊登入了才可以瀏覽某些版塊,但同樣也會避免批量註冊和登入,例如註冊需要Email驗證或是手機驗證,需要利用推送的郵件連結或是簡訊驗證碼來解鎖賬戶,而且具備唯一性;註冊和登入時還需要填寫複雜的驗碼等等。

應對方法:批量註冊或是選擇賬戶,模擬模擬登入,減少頻率。

3.採用驗證碼

驗證碼能夠有效性地阻攔網路爬蟲,但也會對真正的使用者造成不太好的體驗,例如瀏覽了幾個頁面就彈出來驗碼,這是很不友好的。

應對方法:完善爬蟲指令碼,從而實現驗證碼的收發識別。

4.文字轉圖片

一些網站將文字轉變成圖片來顯示,為此來阻攔網路爬蟲,這類方法能夠阻攔簡單的網路爬蟲獲取文字,但針對一些螢幕閱讀器來說很不友好,例如在電腦上能夠看清楚圖片中的文字,但在移動手機端看就特別模糊了。

應對方法:採用OCR圖片識別技術。

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70017425/viewspace-2894918/,如需轉載,請註明出處,否則將追究法律責任。

相關文章