天天聊爬蟲，今天我們來聊聊反爬

weixin_33670713發表於2018-12-19

原文網址 : https://blog.csdn.net/weixin_33670713/article/details/87062283

反爬蟲的幾重措施

1.IP限制

如果是個人編寫的爬蟲，IP可能是固定的，那麼發現某個IP請求過於頻繁並且短時間內訪問大量的頁面，有爬蟲的嫌疑，作為網站的管理或者運維人員，你可能就得想辦法禁止這個IP地址訪問你的網頁了。那麼也就是說這個IP發出的請求在短時間內不能再訪問你的網頁了，也就暫時擋住了爬蟲。

學習Python中有不明白推薦加入交流裙

號：735934841

群裡有志同道合的小夥伴，互幫互助，

群裡有免費的視訊學習教程和PDF！

2.User-Agent

User-Agent是使用者訪問網站時候的瀏覽器的標識

下面我列出了常見的幾種正常的系統的User-Agent大家可以參考一下，

並且在實際發生的時候，根據瀏覽器的不同，還有各種其他的User-Agent，我舉幾個例子方便大家理解：

safari 5.1 – MAC

User-Agent:Mozilla/5.0 (Macintosh; U; IntelMac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1Safari/534.50

Firefox 4.0.1 – MAC

User-Agent: Mozilla/5.0 (Macintosh; IntelMac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1

Firefox 4.0.1 – Windows

User-Agent:Mozilla/5.0 (Windows NT 6.1;rv:2.0.1) Gecko/20100101 Firefox/4.0.1

同樣的也有很多的合法的User-Agent，只要使用者訪問不是正常的User-Agent極有可能是爬蟲再訪問，這樣你就可以針對使用者的User-Agent進行限制了。

3、驗證碼反爬蟲

這個辦法也是相當古老並且相當的有效果，如果一個爬蟲要解釋一個驗證碼中的內容，這在以前通過簡單的影象識別是可以完成的，但是就現在來講，驗證碼的干擾線，噪點都很多，甚至還出現了人類都難以認識的驗證碼（某二三零六）。

4.Ajax非同步載入

5.Noscript標籤的使用

6.Cookie限制

第一次開啟網頁會生成一個隨機cookie，如果再次開啟網頁這個cookie不存在，那麼再次設定，第三次開啟仍然不存在，這就非常有可能是爬蟲在工作了。很簡單，在三番屢次沒有帶有該帶的cookie，就禁止訪問。

爬蟲編寫注意事項

在這一部分，筆者希望就自己的經驗給大家編寫爬蟲提供比較可行的建議，也為大家提一個醒：

1.道德問題，是否遵守robots協議；

2.小心不要出現卡死在死迴圈中，儘量使用urlparser去解析分離url決定如何處理，如果簡單的想當然的分析url很容易出現死迴圈的問題；

3.單頁面響應超時設定，預設是200秒，建議調短，在網路允許的條件下，找到一個平衡點，避免所有的爬蟲執行緒都在等待200，結果出現效率降低；

4.高效準確的判重模式，如果判重出現問題，就會造成訪問大量已經訪問過的頁面浪費時間；

5.可以採用先下載，後分析的方法，加快爬蟲速度；

6.在非同步程式設計的時候要注意資源死鎖問題；

7.定位元素要精準（xpath）儘量避免dirty data。

小編推薦大家可以加我的扣扣群 735934841 。裡面有海量視訊教程和學習資料免費領取，不失為是一個學習的好地方，歡迎你的到來。一起交流學習！共同進步！！

我去！爬蟲遇到字型反爬，哭了
2021-06-07
爬蟲
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
今天我們來聊一聊Java中的Semaphore
2024-04-13
Java
爬蟲與反爬蟲技術簡介
2022-09-20
爬蟲
C#爬蟲與反爬蟲--字型加密篇
2019-06-26
C#爬蟲加密
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
Python爬蟲 - 記一次字型反爬
2019-04-21
Python爬蟲
反爬蟲應對策略
2023-12-01
爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python爬蟲總是爬不到資料，你需要解決反爬蟲了
2020-06-26
Python爬蟲
對於反爬蟲偽裝瀏覽器進行爬蟲
2018-04-12
爬蟲瀏覽器
防止爬蟲被反爬的幾個主要策略
2021-12-15
爬蟲
爬蟲與反爬：一場無休止之戰
2022-07-21
爬蟲
今天我們來了！
2021-03-19
我爬取了爬蟲崗位薪資，分析後發現爬蟲真香
2020-12-09
爬蟲
反爬蟲的應對措施
2022-05-16
爬蟲
代理IP如何突破反爬蟲？
2021-09-11
爬蟲
如何應對反爬蟲措施？
2022-06-16
爬蟲
你有自己寫過爬蟲的程式嗎？說說你對爬蟲和反爬蟲的理解？
2024-11-28
爬蟲
Python爬蟲例項：爬取貓眼電影——破解字型反爬
2019-02-26
Python爬蟲
當我遇到了爬蟲
2024-06-03
爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
爬蟲：多程式爬蟲
2021-05-19
爬蟲
Web 端反爬蟲技術方案
2019-03-04
Web爬蟲
反-反爬蟲：用幾行程式碼寫出和人類一樣的動態爬蟲
2019-03-04
爬蟲行程
我們來聊聊命名
2018-10-08
Python爬蟲入門教程 61-100 寫個爬蟲碰到反爬了，動手破壞它！
2019-04-22
Python爬蟲
通用爬蟲與聚焦爬蟲
2023-04-18
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
「資料分析」2種常見的反爬蟲策略，資訊驗證和動態反爬蟲
2022-02-23
爬蟲
反爬與反反爬
2024-07-05
我常用的puppeteer爬蟲api
2018-05-25
爬蟲API
[原創] 2018上半年網際網路惡意爬蟲分析：從全景視角看爬蟲與反爬蟲
2020-02-05
爬蟲
反網路爬蟲以及解決方案
2019-03-07
爬蟲
常見的三種反爬蟲措施
2022-05-31
爬蟲
我的 Python 網路爬蟲直播分享要來了！
2018-10-19
Python爬蟲
“來我公司寫爬蟲嗎？會坐牢的那種！”
2019-10-18
爬蟲
爬蟲進階：反反爬蟲技巧
2018-06-28
爬蟲

天天聊爬蟲，今天我們來聊聊反爬

小編推薦大家可以加我的扣扣群 735934841 。裡面有海量視訊教程和學習資料免費領取，不失為是一個學習的好地方，歡迎你的到來。一起交流學習！共同進步！！

相關文章