Scrapy之"並行"爬蟲

NullSpider發表於2017-11-29

並行爬蟲

問題反饋

在使用中有任何問題，可以反饋給我，以下聯絡方式跟我交流

Author: Leo
Wechat: Leo-sunhailin
E-mail: 379978424@qq.com
開發環境
- Win10 x64
- Python 3.4.4
- Scrapy 1.4.0(目前最新版本,截至2017-11-29)

題目

題目或許應該叫: Multiple Spiders in the same process.
官方文件的解釋就是: 預設情況下Scrapy支援一個爬蟲在多執行緒的情況下進行爬取，但是實際上也支援多個爬蟲執行在每一個執行緒上.(官方也補充了一個internal API，實際上就是Crawl(爬蟲)的核心啟動介面)
有空的我可以寫寫Scrapy的技巧，如果遇到的話哈哈~有前提的.

示例

網上其實有很多參照官網給的例子跑的commands程式碼，但是多少都一些問題，你不信可以跑一下，很多都是能跑成功但是有報錯。但是就是看著不舒服,所幸自己看著原始碼和官方示例寫了一個。
其實講回上面這點，官方也是很奇葩的，給了怎麼併發爬蟲，不告訴別人怎麼執行，直接只是一個scrapy crawl不帶引數的，實際上這樣寫不規範，但是那樣也能跑，就是會有報錯提示。這時候就要引出自定義命令了。
正確的寫法和不會報錯的寫法請往下看~

建立一個Scrapy的專案. 對！就是一個普通專案，並沒有什麼特別的模板.

# 建立一個Scrapy專案
scrapy startproject multiple_spiders複製程式碼

生成的檔案結構是這樣的:
multiple_spiders
- multiple_spiders
  - commands (一開始沒有的，建立完專案後自行建立)
    - <雙下劃線>init<雙下劃線>.py
    - crawlall.py
  - spiders (核心程式碼)
    - <雙下劃線>init<雙下劃線>.py
    - multiple.py
  - <雙下劃線>init<雙下劃線>.py
  - items.py
  - middlewares.py
  - pipelines.py
  - settings.py
- scrapy.cfg
spiders/multiple.py的程式碼:

# -*- coding: UTF-8 -*-
"""
Created on 2017年11月8日
@author: Leo
"""

import scrapy


# 測試程式碼，功能是把網址的原始碼儲存到txt中
class MySpider1(scrapy.Spider):
    name = "spider-1"
    start_urls = ["<爬取的地址1>"]

    def parse(self, response):
        filename = "./multiple_spiders/test-1.txt"
        with open(filename, 'wb') as f:
            f.write(response.body)


# 測試程式碼，功能是把網址的原始碼儲存到txt中
class MySpider2(scrapy.Spider):
    name = "spider-2"
    start_urls = ["<爬取的地址2>n"]

    def parse(self, response):
        filename = "./multiple_spiders/test-2.txt"
        with open(filename, 'wb') as f:
            f.write(response.body)複製程式碼

建立commands資料夾，以及資料夾下的init.py檔案
(init.py裡面不用寫東西)
建立crawlall.py<名字可以自定義>

# -*- coding: utf-8 -*-
"""
Created on 2017年11月8日
@author: Leo
"""

from scrapy.commands import ScrapyCommand
from scrapy.utils.project import get_project_settings
from scrapy.crawler import CrawlerProcess

from multiple_spiders.spiders.multiple import MySpider1, MySpider2


class Command(ScrapyCommand):
    requires_project = True

    def syntax(self):
        return '[options]'

    def short_desc(self):
        return 'Runs all of the spiders'

    def add_options(self, parser):
        ScrapyCommand.add_options(self, parser)

    def process_options(self, args, opts):
        ScrapyCommand.process_options(self, args, opts)

    def run(self, args, opts):
        settings = get_project_settings()
        one = MySpider1()
        two = MySpider2()
        process = CrawlerProcess(settings)
        process.crawl(one)
        process.crawl(two)
        process.start()複製程式碼

settings.py中加一入一個程式碼:

COMMANDS_MODULE = 'multiple_spiders.commands'複製程式碼

最後就可以執行了

scrapy crawlall<名字和你commands資料夾的下的py檔名字對應即可>複製程式碼

至於不想同時啟動兩個爬蟲，或者同時啟動三個，或者有三個爬蟲同時啟動其中2個，過一段時間關閉其中一個再開啟另外一個的這類需求。。動動腦子就好了。
最終還是去參考一下官方文件，畢竟Scrapy的文件還是比較豐富的。但有能力的可以直接去看原始碼，去研究啟動的方式，比看文件容易理解一點。
具體要看哪些模組我大致提一下(CrawlProcess, CrawlerRunner, Command)

爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Scrapy爬蟲-草稿
2018-09-08
爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲（6）爬取銀行理財產品並存入MongoDB（共12w+資料）
2018-03-15
爬蟲MongoDB
Scrapy爬蟲框架如何使用代理進行採集
2022-02-22
爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Windows下安裝配置爬蟲工具Scrapy及爬蟲環境
2018-09-19
Windows爬蟲
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
學好Python不加班系列之SCRAPY爬蟲框架的使用
2021-11-09
Python爬蟲框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
爬蟲教程——用Scrapy爬取豆瓣TOP250
2018-10-31
爬蟲
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲

Scrapy之"並行"爬蟲

問題反饋

題目

示例

相關文章