python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)

嗨學程式設計發表於2019-01-03

本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。

隨機User-Agent

fake_useragent庫,偽裝請求頭

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


獲取代理ip

在免費的代理網站爬取代理ip,免費代理的採集也很簡單,無非就是:訪問頁面頁面 —> 正則/xpath提取 —> 儲存

代理ip網站

有代理:https://www.youdaili.net/Daili/guonei/

66代理:http://www.66ip.cn/6.html

西刺代理:https://www.xicidaili.com/

快代理:https://www.kuaidaili.com/free/

根據網頁結果,適用正規表示式匹配

這種方法適合翻頁的網頁

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


先獲取特定標籤

解析

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


檢測代理ip可用性

第一種方法:通過返回的狀態碼判斷

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


第二種方法:使用requests包來進行驗證

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


第三種方法:使用telnet

python爬蟲之反爬蟲(隨機user-agent,獲取代理ip,檢測代理ip可用性)


相關文章