Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬
開發環境
- Python第三方庫:lxml、Twisted、pywin32、scrapy
- Python 版本:python-3.5.0-amd64
- PyCharm軟體版本:pycharm-professional-2016.1.4
- 電腦系統:Windows 10 64位
如果你還沒有搭建好開發環境,請到這篇部落格。
所有的設定都是在scrapy爬蟲專案中的settings.py
檔案中進行設定。
Step 1 . 設定爬蟲不遵循 robots.txt
協議
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
想要了解什麼是
robots.txt
協議,請訪問這篇部落格:解析 robots.txt 檔案。
Step 2 . 設定取消Cookies
# Disable cookies (enabled by default)
COOKIES_ENABLED = False
Cookies:
簡單的說,Cookie就是伺服器暫存放在你計算機上的一筆資料,好讓伺服器用來辨認你的計算機。當你在瀏覽網站的時候,Web伺服器會先送一小小資料放在你的計算機上,Cookie 會幫你在網站上所打的文字或是一些選擇,都記錄下來。當下次你再光臨同一個網站,Web伺服器會先看看有沒有它上次留下的Cookie資料,有的話,就會依據Cookie裡的內容來判斷使用者,送出特定的網頁內容給你。
Step 3 . 設定使用者代理值(USER_AGENT
)
# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/xxx (Windows xxx; Winxx; xxx) AppleWebKit/xxx (KHTML, like Gecko) Chrome/xxxx Safari/xxx'
這個 使用者代理可以在瀏覽器裡面找到:
隨便瀏覽一個網頁,按F12 -> Network -> F5,隨便點選一項,你都能看到有 User-agent 這一項,將這裡面的內容拷貝就可以。
Step 4 . 設定IP
對於這一步,如果你沒有做什麼違法的事情,可以不用設定。僅僅上面的三個步驟,就可以將那些具有反爬蟲機制的網站可以正常爬取了。
相關文章
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- 精通Scrapy網路爬蟲【一】第一個爬蟲專案爬蟲
- Python3 大型網路爬蟲實戰 004 — scrapy 大型靜態商城網站爬蟲專案編寫及資料寫入資料庫實戰 — 實戰:爬取淘寶Python爬蟲網站資料庫
- Python3 大型網路爬蟲實戰 002 --- scrapy 爬蟲專案的建立及爬蟲的建立 --- 例項:爬取百度標題和CSDN部落格Python爬蟲
- 網路爬蟲——爬蟲實戰(一)爬蟲
- 爬蟲實戰scrapy爬蟲
- 大型商城網站爬蟲專案實戰網站爬蟲
- python3網路爬蟲開發實戰_Python3 爬蟲實戰Python爬蟲
- 《Python3網路爬蟲開發實戰》教程||爬蟲教程Python爬蟲
- 爬蟲(9) - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架爬蟲框架非同步
- Scrapy建立爬蟲專案爬蟲
- [Python3網路爬蟲開發實戰] 分散式爬蟲原理Python爬蟲分散式
- Python大型網路爬蟲專案開發實戰(全套)Python爬蟲
- 爬蟲--Scrapy簡易爬蟲爬蟲
- python3 爬蟲實戰:為爬蟲新增 GUI 影象介面Python爬蟲GUI
- Java 爬蟲專案實戰之爬蟲簡介Java爬蟲
- 在scrapy框架下建立爬蟲專案,建立爬蟲檔案,執行爬蟲檔案框架爬蟲
- Scrapy 輕鬆定製網路爬蟲爬蟲
- 網路爬蟲專案爬蟲
- python網路爬蟲(14)使用Scrapy搭建爬蟲框架Python爬蟲框架
- 爬蟲學習之基於Scrapy的網路爬蟲爬蟲
- Python網路爬蟲實戰專案大全 32個Python爬蟲專案demoPython爬蟲
- scrapy爬蟲爬蟲
- Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案Python爬蟲框架
- Python網路爬蟲實戰小專案Python爬蟲
- Python網路爬蟲實戰專案大全!Python爬蟲
- 爬蟲專案實戰(一)爬蟲
- 爬蟲實戰專案集合爬蟲
- 爬蟲實戰專案合集爬蟲
- Python的Scrapy定製網路爬蟲Python爬蟲
- 網路爬蟲(六):實戰爬蟲
- python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)Python爬蟲
- 網路爬蟲大型教程(二)爬蟲
- 網路爬蟲專案蒐集爬蟲
- 網路爬蟲——專案實戰(爬取糗事百科所有文章)爬蟲
- 使用scrapy搭建大型爬蟲系統爬蟲
- Python3網路爬蟲開發實戰Python爬蟲
- scrapy定製爬蟲-爬取javascript內容爬蟲JavaScript