Python之分散式爬蟲的實現步驟

qq_42603652發表於2018-08-29

原文網址 : https://blog.csdn.net/qq_42603652/article/details/81747713

什麼是分散式爬蟲？

預設情況下，scrapy爬蟲是單機爬蟲，只能在一臺電腦上執行，因為爬蟲排程器當中的佇列queue去重和set集合都是在本機上建立的，其他電腦無法訪問另一臺電腦上的記憶體中的內容。分散式爬蟲是一個用共同的爬蟲程式，同時部署到多臺電腦上執行，這樣可以提高爬蟲速度，實現分散式爬蟲。

今天我就來給大家講一下使用scrapy_redis實現分散式爬蟲

第一步：

建立一個scrapy爬蟲專案，完善程式碼爬出你要爬取的資料，至於如何建立不知道的小夥伴請看我前面的關於scrapy框架的使用的部落格

第二步：

更改scrapy爬蟲專案中的一些內容

1.引入scrapy_redis，下面的程式碼使用一個就可以，RedisCrawlSpider和RedisSpider執行步驟相同，

from scrapy_redis.spiders import RedisCrawlSpider
# from scrapy_redis.spiders import RedisSpider

將繼承換為RedisCrawlSpider或RedisSpider

2.註釋掉start_urls,新增一個redis_key='類名:start_urls'，當然這裡的類名可以隨便寫，不過規範的寫法是你的"爬蟲類名:+start_urls"，這裡字串中類名不分大小寫

redis_key='類名:start_urls'

3.setting檔案中新增下面幾句程式碼

# 使用scrapy_redis裡的去重元件，不使用scrapy預設的去重方式
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
# 使用scrapy_redis裡的排程器元件，不使用預設的排程器
# scheduler排程器
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
# 允許暫停，redis請求記錄不丟失
SCHEDULER_PERSIST = True
# # 預設的scrapy_redis請求佇列形式（按優先順序）
# # priority優先權
# SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.SpiderPriorityQueue'
# 連線伺服器端的redis資料庫
REDIS_URL = 'redis://root:@192.168.52.176:6379'

REDIS_URL = 'redis://root:@192.168.52.176:6379' @後面寫要連線到的伺服器端的IP，6379是預設的埠號

4.在settings檔案中解註釋ITEM_PIPELINES 並將紅框中的程式碼新增進去，使資料可以存入redis資料庫中，

第三步：

1.服務端修改redis.windows.conf檔案，在如圖所示的位置新增： bind 服務端IP。

2.將你的程式碼發給另一臺主機並開啟

3.開啟服務端，不知道如何開啟的小夥伴可以看一下我的上篇部落格

4.兩臺主機同時在控制檯輸入 scrapy crawl 爬蟲名，執行爬蟲程式，因為沒有start_urls所以會等待傳入開始網址

5.開啟服務端的主機另開啟一個命令提示符，連線本地伺服器，輸入lpush + 第二步中的redis_key的值+ 開始網址

例：

lpush 類名:start_urls http://blog.jobbole.com/all-posts/

傳入開始網址之後爬蟲程式會接收到，然後開始爬蟲

注意：客戶端的小夥伴只需要將服務端的程式碼檔案複製過來，開啟執行就行了，不需要做其他操作

分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
python爬蟲步驟是什麼呢？
2021-09-25
Python爬蟲
分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
分散式爬蟲
2019-03-05
分散式爬蟲
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
分散式爬蟲原理
2019-02-16
分散式爬蟲
分散式爬蟲的部署之Scrapyd對接Docker
2018-06-04
分散式爬蟲Docker
Python爬蟲開發與專案實戰--分散式程式
2018-07-31
Python爬蟲分散式
打造高效的分散式爬蟲系統：利用Scrapy框架實現
2023-10-12
分散式爬蟲框架
大規模非同步新聞爬蟲的分散式實現
2019-06-10
非同步爬蟲分散式
Python爬蟲精簡步驟1 獲取資料
2020-02-17
Python爬蟲
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
python分散式爬蟲如何設計架構？
2021-09-11
Python分散式爬蟲架構
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
python的爬蟲功能如何實現
2019-02-28
Python爬蟲
Python爬蟲是如何實現的？
2022-07-15
Python爬蟲
Python爬蟲實戰之bilibili
2021-04-04
Python爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
Win10+Python3.6配置Spark建立分散式爬蟲
2019-02-02
Win10PythonSpark分散式爬蟲
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
python實現selenium網路爬蟲
2021-03-11
Python爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
Python爬蟲實戰之叩富網
2021-04-04
Python爬蟲
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
爬蟲 | 基本步驟和解析網頁的幾種方法
2024-06-05
爬蟲網頁
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
Python 爬蟲實戰
2023-10-16
Python爬蟲
python爬蟲之JS逆向
2022-06-11
Python爬蟲JS

Python之分散式爬蟲的實現步驟

第一步：

第二步：

第三步：

相關文章