Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬

AoboSir發表於2016-12-06

原博文連結：http://www.aobosir.com/blog/2016/12/06/python3-large-web-crawler-scrapy-project-Anti-reptile-settings/

開發環境

Python第三方庫：lxml、Twisted、pywin32、scrapy
Python 版本：python-3.5.0-amd64
PyCharm軟體版本：pycharm-professional-2016.1.4
電腦系統：Windows 10 64位

如果你還沒有搭建好開發環境，請到這篇部落格。

所有的設定都是在scrapy爬蟲專案中的settings.py 檔案中進行設定。

Step 1 . 設定爬蟲不遵循 robots.txt協議

# Obey robots.txt rules
ROBOTSTXT_OBEY = False

Alt text

想要了解什麼是robots.txt協議，請訪問這篇部落格：解析 robots.txt 檔案。

Step 2 . 設定取消Cookies

# Disable cookies (enabled by default)
COOKIES_ENABLED = False

Alt text

Cookies：

簡單的說，Cookie就是伺服器暫存放在你計算機上的一筆資料，好讓伺服器用來辨認你的計算機。當你在瀏覽網站的時候，Web伺服器會先送一小小資料放在你的計算機上，Cookie 會幫你在網站上所打的文字或是一些選擇，都記錄下來。當下次你再光臨同一個網站，Web伺服器會先看看有沒有它上次留下的Cookie資料，有的話，就會依據Cookie裡的內容來判斷使用者，送出特定的網頁內容給你。

Step 3 . 設定使用者代理值（USER_AGENT）

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/xxx (Windows xxx; Winxx; xxx) AppleWebKit/xxx (KHTML, like Gecko) Chrome/xxxx Safari/xxx'

Alt text

這個使用者代理可以在瀏覽器裡面找到：

隨便瀏覽一個網頁，按F12 -> Network -> F5，隨便點選一項，你都能看到有 User-agent 這一項，將這裡面的內容拷貝就可以。

Alt text

Step 4 . 設定IP

對於這一步，如果你沒有做什麼違法的事情，可以不用設定。僅僅上面的三個步驟，就可以將那些具有反爬蟲機制的網站可以正常爬取了。

請訪問：http://www.aobosir.com/

Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰：爬取 169美女圖片網高清圖片
2016-12-26
Python爬蟲網站
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Python3 大型網路爬蟲實戰 004 — scrapy 大型靜態商城網站爬蟲專案編寫及資料寫入資料庫實戰 — 實戰：爬取淘寶
2016-12-26
Python爬蟲網站資料庫
Python3 大型網路爬蟲實戰 002 --- scrapy 爬蟲專案的建立及爬蟲的建立 --- 例項：爬取百度標題和CSDN部落格
2016-11-26
Python爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
大型商城網站爬蟲專案實戰
2018-01-15
網站爬蟲
python3網路爬蟲開發實戰_Python3 爬蟲實戰
2022-01-24
Python爬蟲
《Python3網路爬蟲開發實戰》教程||爬蟲教程
2018-11-13
Python爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Scrapy建立爬蟲專案
2017-10-10
爬蟲
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
Python大型網路爬蟲專案開發實戰（全套）
2017-06-14
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
python3 爬蟲實戰：為爬蟲新增 GUI 影象介面
2020-03-06
Python爬蟲GUI
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
在scrapy框架下建立爬蟲專案，建立爬蟲檔案，執行爬蟲檔案
2018-03-01
框架爬蟲
Scrapy 輕鬆定製網路爬蟲
2014-07-08
爬蟲
網路爬蟲專案
2022-01-29
爬蟲
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲學習之基於Scrapy的網路爬蟲
2016-07-13
爬蟲
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
scrapy爬蟲
2012-05-09
爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python網路爬蟲實戰小專案
2021-04-12
Python爬蟲
Python網路爬蟲實戰專案大全！
2020-12-19
Python爬蟲
爬蟲專案實戰（一）
2020-06-15
爬蟲
爬蟲實戰專案集合
2019-02-28
爬蟲
爬蟲實戰專案合集
2022-01-25
爬蟲
Python的Scrapy定製網路爬蟲
2013-01-20
Python爬蟲
網路爬蟲（六）：實戰
2014-09-19
爬蟲
python3網路爬蟲開發實戰_Python 3開發網路爬蟲(一)
2020-12-07
Python爬蟲
網路爬蟲大型教程(二)
2018-05-14
爬蟲
網路爬蟲專案蒐集
2017-02-19
爬蟲
網路爬蟲——專案實戰（爬取糗事百科所有文章）
2020-02-07
爬蟲
使用scrapy搭建大型爬蟲系統
2017-01-15
爬蟲
Python3網路爬蟲開發實戰
2021-04-15
Python爬蟲
scrapy定製爬蟲-爬取javascript內容
2014-03-11
爬蟲JavaScript

Python3 大型網路爬蟲實戰 — 給 scrapy 爬蟲專案設定為防反爬

開發環境

相關文章