Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹

肖朋偉發表於2018-09-06

原文網址 : https://www.cnblogs.com/xpwi/p/9601050.html

Python爬蟲框架

本篇介紹專案開發的過程中，對 Setting 檔案的配置和使用

Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹

settings.py 檔案的使用
想要詳細檢視 settings.py檔案的更多內容，可檢視中文文件：
- https://scrapy-chs.readthedocs.io/zh_CN/latest/topics/settings.html

Settings 中配置 USER_AGENTS

在 settings.py 檔案中很多東西預設是給註釋掉的，當我們需要使用的時候，根據註釋的提示，我們編寫我們自己的內容
例如：

我們想設定一個 USER_AGENT 列表

在 settings.py 檔案中找到 USER_AGENT ，拷貝常用的 USER _AGENT 值在它下面
但是 settings 只有一行，就是沒有具體的內容，我們想要使用的話，就需要我們自己去填寫
這就需要我們自己在網上找到常用的瀏覽器 User-Agent 值，我找到了一些，想要使用直接拷貝就可以

USER_AGENTS = [
"Mozilla/5.0 (compatible; MISE 9.0; Windows NT 6.1; Win64; x64; Trident/5.0; .NET CLR 3.5.30729; .NET CLR 3.0.30729; .NET CLR 2.0.5.727; Media Center PC 6.0)",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US) AppleWebKit/534.16 (KHTML, like Gecko) Chrome/10.0.648.133 Safari/534.16",
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:34.0) Gecko/20100101 Firefox/34.0",
"Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60 ", 
"Opera/8.0 (Windows NT 5.1; U; en) ",
"Mozilla/5.0 (Windows NT 5.1; U; en; rv:1.8.1) Gecko/20061208 Firefox/2.0.0 Opera 9.50 ", 
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; en) Opera 9.50",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.57.2 (KHTML, like Gecko) Version/5.1.7 Safari/534.57.2",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E; QQBrowser/7.0.3698.400) ",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)", 
]

直接將這段程式碼拷貝到 Settings 檔案中就可以

Settings 中配置 PROXIES

關於 proxy 代理 IP 的詳細介紹，檢視：Python爬蟲教程-11-proxy代理IP，隱藏地址（貓眼電影）
獲取代理IP 的網站：
- www.goubanjia.com
- www.xicidaili.com
從網站上找可用的 IP，直接拷貝就行，然後在Settings 中拷貝下面這段程式碼：

# IP 有效期一般20天，請自行到上述網站獲取最新 IP
PROXIES = [
    {'ip_port': '177.136.120.174:80', 'user_passwd': 'user1:pass1'},
    {'ip_port': '218.60.8.99:3129', 'user_passwd': 'user2:pass2'},
    {'ip_port': '206.189.204.62:8080', 'user_passwd': 'user3:pass3'},
    {'ip_port': '125.62.26.197:3128', 'user_passwd': 'user4:pass4'}
]

這些類似的設定都是一次設定，就可以重複使用了

關於去重

很多網站都是相同的內容，比如介紹 python 爬蟲的，很多很多，假設爬取到這些的時候，我們就值需要一個，利用 scrapy 的去重功能，防止它對重複網站無限制爬下去
為了防止爬蟲陷入死迴圈，需要去重
- 即在 spider 中 parse 函式中，返回 Request 的時候加上 dont_filter = False 引數
```
myspider(scrapy.Spider):
 def parse (...):
...
 yield scrapy.Request(url = url, callback = self.parse, dont_filter = False)
```

如何在 scrapy 使用 selenium

可以放入中介軟體中的 process _request 函式中
在函式中呼叫 selenium，完成爬取後返回 Response

class MyMiddleWare(object):
 def process_request(...):

     driver = webdriver.Chrome()
     html = driver.page_source
     driver.quit()

     return HtmlResponse(url = request.url, encoding = 'utf-8', body = html ,request = requeset

下一篇連結：Python爬蟲教程-33-scrapy shell的使用及Scrapy爬蟲框架例項
拜拜

更多文章連結：Python 爬蟲隨筆

- 本筆記不允許任何個人和組織轉載

Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python爬蟲教程-01-爬蟲介紹
2018-09-06
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
爬蟲介紹
2024-03-31
爬蟲
python爬蟲初探--第一個python爬蟲專案
2018-05-18
Python爬蟲
Java 爬蟲專案實戰之爬蟲簡介
2018-11-24
Java爬蟲
Java爬蟲入門(一)——專案介紹
2018-08-06
Java爬蟲
想成為Python高手，必須看這篇爬蟲原理介紹！（附29個爬蟲專案）
2021-03-14
Python爬蟲
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
gerapy框架爬蟲專案部署
2018-09-27
框架爬蟲
python爬蟲-33個Python爬蟲專案實戰(推薦)
2020-10-28
Python爬蟲
【爬蟲】爬蟲專案推薦 / 思路
2020-04-21
爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
Python網路爬蟲實戰專案大全 32個Python爬蟲專案demo
2019-04-24
Python爬蟲
什麼是爬蟲？Python爬蟲框架有哪些？
2022-04-18
爬蟲Python框架
爬蟲專案
2019-06-07
爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
網路爬蟲（python專案）
2018-12-04
爬蟲Python
專案－－python網路爬蟲
2020-08-15
Python爬蟲
不踩坑的Python爬蟲：Python爬蟲開發與專案實戰，從爬蟲入門 Python
2021-12-17
Python爬蟲
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
python爬蟲例項專案大全-GitHub 上有哪些優秀的 Python 爬蟲專案？
2020-10-30
Python爬蟲Github
通用新聞爬蟲開發系列（專案介紹）
2022-02-18
爬蟲
什麼是Python爬蟲？Python爬蟲常用框架有哪些？
2020-12-24
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲教程-21-xpath 簡介
2018-09-06
Python爬蟲
Python爬蟲教程-20-xml 簡介
2018-09-06
Python爬蟲XML
Python爬蟲教程-04-response簡介
2018-09-06
Python爬蟲
python爬蟲實操專案_Python爬蟲開發與專案實戰 1.6 小結
2021-02-04
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
（python）爬蟲----八個專案帶你進入爬蟲的世界
2021-07-17
Python爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
32個Python爬蟲專案demo
2018-08-26
Python爬蟲
Python爬蟲開源專案合集
2020-06-04
Python爬蟲
爬蟲小專案
2019-05-10
爬蟲

Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹

Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹

Settings 中配置 USER_AGENTS

Settings 中配置 PROXIES

關於去重

相關文章