scrapy-redis非多網址採集的使用

mkdir700發表於2021-01-29

原文網址 : https://www.cnblogs.com/mkdir700/p/14345070.html

Redis

問題描述

預設RedisSpider在啟動時，首先會讀取redis中的spidername:start_urls，如果有值則根據url構建request物件。

現在的要求是，根據特定關鍵詞采集。

例如：目標站點有一個介面，根據post請求引數來返回結果。

那麼，在這種情況下，構建request主要的變換就是請求體（body），API介面是不變的。

對於原來通過url構建request的策略就不再適用了。

所以，此時我們需要對相應的方法進行重寫。

重寫方法

爬蟲類需要繼承至scrapy_redis.spiders.RedisSpider

start_requests

我需要從資料庫拿到關鍵詞資料，然後用關鍵詞構建請求。

此時，我們將關鍵詞看作start_url，將關鍵詞push到redis中

首先，寫一個將單個關鍵詞push到redis的方法

push_data_to_redis

def push_data_to_redis(self, data):
    """將資料push到redis"""
    # 序列化，data可能是字典
    data = pickle.dumps(data)
    use_set = self.settings.getbool('REDIS_START_URLS_AS_SET', defaults.START_URLS_AS_SET)
    self.server.spush(self.redis_key, data) if use_set else self.server.lpush(self.redis_key, data)

self.redis_key如果沒有做任何宣告，則預設為 spidername:start_urls

接著重寫start_request

def start_requests(self):
    if self.isproducer():
        # get_keywords 從資料庫讀關鍵詞的方法
        items = self.get_keywords()
        for item in items:
            self.push_data_to_redis(item)
    return super(DoubanBookMetaSpider, self).start_requests()

上述程式碼中有一個self.isproducer，此方法用於檢測當前程式是不是生產者，即向redis提供關鍵詞

isproducer

# (...)

def __init__(self, *args, **kwargs):
    self.is_producer = kwargs.pop('producer', None)
    super(DoubanBookMetaSpider, self).__init__()

def isproducer(self):
    return self.is_producer is not None

# (...)

此方法需要配合scrapy命令列使用，例如：

// 啟動一個生產者，producer的引數任意，只要填寫了就是True
scrapy crawl myspider -a producer=1
// 啟動一個消費者
scrapy crawl myspider

關於scrapy命令列的更多引數，參考文件：https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/shell.html

make_request_from_data

檢視RedisMixin中的make_request_from_data

方法註釋資訊：

Returns a Request instance from data coming from Redis.

根據來源於redis的資料返回一個Request物件

By default, data is an encoded URL. You can override this method to
provide your own message decoding.

預設情況下，data是已編碼的URL連結。您可以將此方法重寫為提供您自己的訊息解碼。

def make_request_from_data(self, data):
    url = bytes_to_str(data, self.redis_encoding)
    return self.make_requests_from_url(url)

將data轉為字串（網站連結字串），接著呼叫了 make_requests_from_url，通過url構建request物件

data從哪裡來？

檢視RedisMixin的next_request方法

由此得知，data是從redis中pop出來的，在之前我們將data序列化後push進去，現在pop出來，我們將其反序列化並依靠它構建request物件

重寫make_request_from_data

def make_request_from_data(self, data):
    data = pickle.loads(data, encoding=self.redis_encoding)
    return self.make_request_from_book_info(data)

在本例中構建request物件的方法是self.make_request_from_book_info，在實際開發中，根據目標站請求規則編寫構建request的方法即可。

最終效果

啟動一個生成者

scrapy crawl myspider -a producer=1

生成者將所有的關鍵詞push完之後，會轉為消費者開始消費

在多個節點上啟動消費者

scrapy crawl myspider

一個爬蟲的開始，總是根據現有資料採集新的資料，例如，根據列表頁中的詳情頁連結採集詳情頁資料，根據關鍵詞采集搜尋結果等等。根據現有資料的不同，開始的方法也不同，大體仍是大同小異的。

網址無限採集器
2020-10-11
網址可以使用非英文字母嗎？使用中文網址是否有利/有害於 SEO 排名？- Whoops SEO
2018-12-13
OOP
網址多語言設計
2021-07-04
玉祥集團遊戲網址@19188193789
2021-04-18
遊戲
WordPress自動採集釋出文章01-使用火車頭採集目標網站
2018-07-08
網站
使用爬蟲代理採集網站失敗的解決方法
2021-07-09
爬蟲網站
Laravel 中使用 puppeteer 採集非同步載入的網頁內容
2018-04-22
Laravel非同步網頁
phpQuery採集網站資料
2020-07-02
PHP網站
.NET Core 網路資料採集 -- 使用AngleSharp做html解析
2018-04-29
HTML
玉祥集團遊戲網址v@44138926
2021-04-18
遊戲
cnc資料採集，機床資料採集，裝置聯網，多品牌多執行緒採集驅動，融合馬紮克、西門子、海德漢、廣數、凱恩帝、三菱、海德漢、兄弟、哈斯、寶元、新代、發那科的採集驅動
2024-03-29
執行緒
網路分流器-網路匯聚分流器-移動網際網路採集器採集方案
2018-09-15
網路分流器｜移動網際網路採集器｜100G LTE核心網採集裝置
2018-08-16
網址
2024-07-25
非扁平網路場景下，基於開源istio治理CCE多叢集
2024-08-15
圖書網站資訊採集
2023-11-10
網站
網路分流器｜3G/LTE業務採集方面｜移動網際網路採集器
2018-08-17
祕籍 | 機器學習資料集網址大全
2019-01-27
機器學習
畫江湖之 PHP 多程式開發【多工採集圖片】
2019-04-04
PHP
畫江湖之 PHP 多程式開發 [多工採集圖片]
2019-04-04
PHP
url.cn短網址 url.cn短網址網址縮短教程
2020-04-21
vs聯合halcon——採集影像（實時採集與單次採集）
2021-06-27
常用網址
2024-07-03
Scrapy-Redis
2024-07-05
Redis
玉祥集團遊戲網址VQ 1521185105 聯絡人
2021-04-18
遊戲
抖音商家資訊採集器，抖音小店採集電話採集
2023-04-17
網路分流器-移動信令採集裝置-大資料採集方案
2019-05-25
大資料
PHP使用QueryList採集微信文章頁
2019-02-16
PHP
地圖資料採集，包括百度地圖採集，高德地圖採集，360地圖採集
2024-04-28
地圖
多程序協同的實時資料採集與共享系統
2024-11-01
資料採集物聯網平臺的功能及作用
2023-10-09
如何實現車聯網的靈活資料採集
2022-11-14
多個值得收藏的網址和軟體，你確定不來看看？
2018-11-21
W外鏈短網址生成，他們家的短網址免費的嗎？
2024-07-09
CTF常用網址
2024-12-01
ansible galaxy網址
2020-12-28
Java使用OkHttp庫完成圖形採集的全過程
2023-10-19
JavaHTTP
網址（URL）的詳細解析
2020-11-20