解決目標網站封爬蟲的3步方法
作為爬蟲工作者,在我們日常獲取資料的過程中難免發生ip被封和403錯誤等等,這都是網站檢測出你是爬蟲而進行反爬措施,所以今天在這裡為大家總結一下怎麼用IP代理防止被封的方法。
1、設定等待時間,種是顯性等待時間(強制停幾秒),一種是隱性等待時間。
2、修改請求頭:識別你是機器人還是人類瀏覽器瀏覽的重要依據就是User-Agent。
3、採用代理ip/建代理ip池,直接看程式碼。利用動態ip代理,可以強有力地保障爬蟲不會被封,能夠正常執行。以下為使用代理ip的實際示例,在使用IP量上需要看自己的需求,大型專案是必須用大量ip的。
#! -*- encoding:utf-8 -*- import requests import random # 要訪問的目標頁面 targetUrl = " # 要訪問的目標HTTPS頁面 # targetUrl = " # 代理伺服器(產品官網 ) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理驗證資訊 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 設定 http和https訪問都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 設定IP切換頭 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text
只有我們在採集資料過程中 做好以上3個步驟,大致爬蟲的執行就不成問題了。但是這些都是基本的反爬措施,現在有很多大型網站做設定的反爬機制更嚴,對技術要求更高,所以需要我們隨時學習更深的爬蟲技術。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31522063/viewspace-2894016/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 使用爬蟲代理採集網站失敗的解決方法爬蟲網站
- 常見網站反爬蟲的解決措施網站爬蟲
- 爬蟲如何防網站封IP?防封有效措施爬蟲網站
- 網站常見反爬解決方法網站
- 目標網站反爬基礎知識網站
- 爬蟲IP受限的三個解決方法爬蟲
- 爬蟲技術抓取網站資料方法爬蟲網站
- python爬蟲中使用正則match( )方法匹配目標Python爬蟲
- scrapy + mogoDB 網站爬蟲Go網站爬蟲
- 招聘網站爬蟲模板網站爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 反網路爬蟲以及解決方案爬蟲
- 爬蟲——網頁爬取方法和網頁解析方法爬蟲網頁
- Python爬蟲爬取美劇網站Python爬蟲網站
- [python爬蟲] BeautifulSoup設定Cookie解決網站攔截並爬取螞蟻短租Python爬蟲Cookie網站
- python爬蟲爬取網頁中文亂碼問題的解決Python爬蟲網頁
- 爬蟲是如何被網站識別的?爬蟲網站
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- Python 爬蟲 目標:千圖網VIP高清無水印下載即用Python爬蟲
- 網際網路網站的反爬蟲策略淺析網站爬蟲
- python解決反爬蟲方法的優缺點對比Python爬蟲
- laravel+queryList爬蟲各大桌布網站,打造自己的桌布網站Laravel爬蟲網站
- 央行徵信爬蟲解決方案爬蟲
- 爬蟲受限的三種解決方案爬蟲
- 爬蟲福利:教你爬wap站爬蟲
- 爬蟲使用代理防封IP爬蟲
- 網路爬蟲-去除網頁原始碼中的標籤爬蟲網頁原始碼
- Selenium爬蟲遇到超時TimeOut問題的解決方法爬蟲
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- 大型商城網站爬蟲專案實戰網站爬蟲
- 解決網站限制IP的三個方法網站
- python爬蟲總是爬不到資料,你需要解決反爬蟲了Python爬蟲
- Python爬蟲程式設計常見問題解決方法Python爬蟲程式設計
- 先給自己定個小目標,比如寫個爬蟲程式爬蟲
- 目標板掛載NFS方法及錯誤解決NFS
- 教你用python爬蟲爬blibili網站彈幕!Python爬蟲網站
- 爬蟲:HTTP請求與HTML解析(爬取某乎網站)爬蟲HTTPHTML網站
- 如何使用robots禁止各大搜尋引擎爬蟲爬取網站爬蟲網站