本人對於Python學習建立了一個小小的學習圈子,為各位提供了一個平臺,大家一起來討論學習Python。歡迎各位到來Python學習群:960410445一起討論視訊分享學習。Python是未來的發展方向,正在挑戰我們的分析能力及對世界的認知方式,因此,我們與時俱進,迎接變化,並不斷的成長,掌握Python核心技術,才是掌握真正的價值所在。
隨機User-Agent
fake_useragent庫,偽裝請求頭
獲取代理ip
在免費的代理網站爬取代理ip,免費代理的採集也很簡單,無非就是:訪問頁面頁面 —> 正則/xpath提取 —> 儲存
代理ip網站
有代理:https://www.youdaili.net/Daili/guonei/
66代理:http://www.66ip.cn/6.html
西刺代理:https://www.xicidaili.com/
快代理:https://www.kuaidaili.com/free/
根據網頁結果,適用正規表示式匹配
這種方法適合翻頁的網頁
先獲取特定標籤
解析
檢測代理ip可用性
第一種方法:通過返回的狀態碼判斷
第二種方法:使用requests包來進行驗證
第三種方法:使用telnet