分散式爬蟲

Bound_w發表於2019-03-05

原文網址 : https://www.cnblogs.com/wqzn/p/10479139.html

問題：

為什麼原生的scrapy不能實現分散式？
- 排程器不能被共享
- 管道無法被共享
scrapy-redis元件的作用是什麼？
- 提供了可以被共享的排程器和管道

實現分散式爬蟲的流程？

1.環境安裝:pip install scrapy-redis
2.建立工程
3.建立爬蟲檔案:RedisCrawlSpider  RedisSpider
    - scrapy genspider -t crawl xxx www.xxx.com
4.對爬蟲檔案中的相關屬性進行修改:
    - 導報:from scrapy_redis.spiders import RedisCrawlSpider
    - 將當前爬蟲檔案的父類設定成RedisCrawlSpider
    - 將起始url列表替換成redis_key = 'xxx'(排程器佇列的名稱)
5.在配置檔案中進行配置:
    - 使用元件中封裝好的可以被共享的管道類:
        ITEM_PIPELINES = {
            'scrapy_redis.pipelines.RedisPipeline': 400
            }
    - 配置排程器(使用元件中封裝好的可以被共享的排程器)
        # 增加了一個去重容器類的配置, 作用使用Redis的set集合來儲存請求的指紋資料, 從而實現請求去重的持久化
        DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
        # 使用scrapy-redis元件自己的排程器
        SCHEDULER = "scrapy_redis.scheduler.Scheduler"
        # 配置排程器是否要持久化, 也就是當爬蟲結束了, 要不要清空Redis中請求佇列和去重指紋的set。如果是True, 就表示要持久化儲存, 就不清空資料, 否則清空資料
        SCHEDULER_PERSIST = True

     - 指定儲存資料的redis:
        REDIS_HOST = 'redis服務的ip地址'
        REDIS_PORT = 6379

     - 配置redis資料庫的配置檔案
        - 取消保護模式:protected-mode no
        - bind繫結: #bind 127.0.0.1

     - 啟動redis

6.執行分散式程式
    scrapy runspider xxx.py

7.向排程器佇列中仍入一個起始url:
    在redis-cli中執行:

【需求】爬取抽屜網中的標題和作者

程式碼部分：

chouti.py:

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from scrapy_redis.spiders import RedisCrawlSpider
from redisChoutiPro.items import RedischoutiproItem
class ChoutiSpider(RedisCrawlSpider):
    name = 'chouti'
    # allowed_domains = ['www.xxx.com']
    # start_urls = ['http://www.xxx.com/']
    redis_key = 'chouti'

    rules = (
        Rule(LinkExtractor(allow=r'/all/hot/recent/\d+'), callback='parse_item', follow=True),
    )

    def parse_item(self, response):
       div_list = response.xpath('//div[@class = "item"]')
       for div in div_list:
           title = div.xpath('./div[4]/div[1]/a/text()').extract_first()
           author = div.xpath('./div[4]/div[2]/a[4]/b/text()').extract_first()
           item = RedischoutiproItem()
           item['title'] = title
           item['author'] = author
           yield item

items.py

import scrapy


class RedischoutiproItem(scrapy.Item):
    # define the fields for your item here like:
    title = scrapy.Field()
    author = scrapy.Field()

settings.py

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline': 400
}


# 增加了一個去重容器類的配置, 作用使用Redis的set集合來儲存請求的指紋資料, 從而實現請求去重的持久化
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 使用scrapy-redis元件自己的排程器
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 配置排程器是否要持久化, 也就是當爬蟲結束了, 要不要清空Redis中請求佇列和去重指紋的set。如果是True, 就表示要持久化儲存, 就不清空資料, 否則清空資料
SCHEDULER_PERSIST = True  #資料指紋

REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379

分散式爬蟲原理之分散式爬蟲原理
2018-05-25
分散式爬蟲
分散式爬蟲原理
2019-02-16
分散式爬蟲
19--Scarpy05:增量式爬蟲、分散式爬蟲
2024-04-25
爬蟲分散式
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲教程-34-分散式爬蟲介紹
2018-09-06
Python爬蟲分散式
分散式爬蟲的部署之Gerapy分散式管理
2018-06-06
分散式爬蟲
分散式爬蟲的部署之Scrapyd分散式部署
2018-05-30
分散式爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
分散式爬蟲總結和使用
2018-12-09
分散式爬蟲
基於java的分散式爬蟲
2018-07-06
Java分散式爬蟲
[爬蟲架構] 如何設計一個分散式爬蟲架構
2018-05-01
爬蟲架構分散式
2個月精通Python爬蟲——3大爬蟲框架+6場實戰+反爬蟲技巧+分散式爬蟲
2018-06-28
Python爬蟲框架分散式
分散式通用爬蟲管理平臺Crawlab
2019-03-06
分散式爬蟲
第一個分散式爬蟲專案
2018-08-15
分散式爬蟲
十分鐘搞懂分散式爬蟲
2019-08-11
分散式爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
[Python3網路爬蟲開發實戰] 分散式爬蟲原理
2019-12-08
Python爬蟲分散式
分散式爬蟲很難嗎？用Python寫一個小白也能聽懂的分散式知乎爬蟲
2018-05-04
分散式爬蟲Python
使用Docker Swarm搭建分散式爬蟲叢集
2018-10-14
DockerSwarm分散式爬蟲
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
python分散式爬蟲如何設計架構？
2021-09-11
Python分散式爬蟲架構
分散式爬蟲之知乎使用者資訊爬取
2018-08-31
分散式爬蟲
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
分散式爬蟲的部署之Scrapyd對接Docker
2018-06-04
分散式爬蟲Docker
分散式爬蟲有哪些使用代理IP的方法？
2021-09-11
分散式爬蟲
Win10+Python3.6配置Spark建立分散式爬蟲
2019-02-02
Win10PythonSpark分散式爬蟲
Python爬蟲開發與專案實戰--分散式程式
2018-07-31
Python爬蟲分散式
基於Scrapy分散式爬蟲的開發與設計
2018-04-27
分散式爬蟲
從0到1完成nutch分散式爬蟲專案實戰
2019-01-08
分散式爬蟲
打造高效的分散式爬蟲系統：利用Scrapy框架實現
2023-10-12
分散式爬蟲框架
大規模非同步新聞爬蟲的分散式實現
2019-06-10
非同步爬蟲分散式
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
如何簡單高效地部署和監控分散式爬蟲專案
2019-03-02
分散式爬蟲
Scrapy框架中的Middleware擴充套件與Scrapy-Redis分散式爬蟲
2023-10-16
框架套件Redis分散式爬蟲
Python無框架分散式爬蟲採集拼多多商品詳情資料
2023-04-21
Python框架分散式爬蟲
一款分散式爬蟲管理平臺，支援多種語言和框架
2024-06-27
分散式爬蟲框架
Golang爬蟲+正規表示式
2021-12-22
Golang爬蟲

分散式爬蟲

相關文章