Scrapy之pipeline&擴充套件

林堯彬發表於2020-04-04

1.自定義pipeline

#一：可以寫多個Pipeline類
#1、如果優先順序高的Pipeline的process_item返回一個值或者None，會自動傳給下一個pipline的process_item,
#2、如果只想讓第一個Pipeline執行，那得讓第一個pipline的process_item丟擲異常raise DropItem()

#3、可以用spider.name == '爬蟲名' 來控制哪些爬蟲用哪些pipeline

二：示範
from scrapy.exceptions import DropItem

class CustomPipeline(object):
    def __init__(self,v):
        self.value = v

    @classmethod
    def from_crawler(cls, crawler):
        """
        Scrapy會先通過getattr判斷我們是否自定義了from_crawler,有則調它來完
        成例項化
        """
        val = crawler.settings.getint('MMMM')
        return cls(val)

    def open_spider(self,spider):
        """
        爬蟲剛啟動時執行一次
        """
        print('000000')

    def close_spider(self,spider):
        """
        爬蟲關閉時執行一次
        """
        print('111111')


    def process_item(self, item, spider):
        # 操作並進行持久化

        # return表示會被後續的pipeline繼續處理
        return item

        # 表示將item丟棄，不會被後續pipeline處理
        # raise DropItem()

例項

#1、settings.py
HOST="127.0.0.1"
PORT=27017
USER="root"
PWD="123"
DB="amazon"
TABLE="goods"



ITEM_PIPELINES = {
   'Amazon.pipelines.CustomPipeline': 200,
}

#2、pipelines.py
class CustomPipeline(object):
    def __init__(self,host,port,user,pwd,db,table):
        self.host=host
        self.port=port
        self.user=user
        self.pwd=pwd
        self.db=db
        self.table=table

    @classmethod
    def from_crawler(cls, crawler):
        """
        Scrapy會先通過getattr判斷我們是否自定義了from_crawler,有則調它來完
        成例項化
        """
        HOST = crawler.settings.get('HOST')
        PORT = crawler.settings.get('PORT')
        USER = crawler.settings.get('USER')
        PWD = crawler.settings.get('PWD')
        DB = crawler.settings.get('DB')
        TABLE = crawler.settings.get('TABLE')
        return cls(HOST,PORT,USER,PWD,DB,TABLE)

    def open_spider(self,spider):
        """
        爬蟲剛啟動時執行一次
        """
        self.client = MongoClient('mongodb://%s:%s@%s:%s' %(self.user,self.pwd,self.host,self.port))

    def close_spider(self,spider):
        """
        爬蟲關閉時執行一次
        """
        self.client.close()


    def process_item(self, item, spider):
        # 操作並進行持久化

        self.client[self.db][self.table].save(dict(item))

2. 自定義擴充套件

自定義擴充套件（與django的訊號類似）
    1、django的訊號是django是預留的擴充套件，訊號一旦被觸發，相應的功能就會執行
    2、scrapy自定義擴充套件的好處是可以在任意我們想要的位置新增功能，而其他元件中提供的功能只能在規定的位置執行

#1、在與settings同級目錄下新建一個檔案，檔名可以為extentions.py,內容如下
from scrapy import signals


class MyExtension(object):
    def __init__(self, value):
        self.value = value

    @classmethod
    def from_crawler(cls, crawler):
        val = crawler.settings.getint('MMMM')
        obj = cls(val)

        crawler.signals.connect(obj.spider_opened, signal=signals.spider_opened)
        crawler.signals.connect(obj.spider_closed, signal=signals.spider_closed)

        return obj

    def spider_opened(self, spider):
        print('=============>open')

    def spider_closed(self, spider):
        print('=============>close')

#2、配置生效
EXTENSIONS = {
    "Amazon.extentions.MyExtension":200
}

轉載於:https://www.cnblogs.com/lujiacheng-Python/p/10221939.html

ASP.NET Core擴充套件庫之Http通用擴充套件
2021-04-19
ASP.NET套件HTTP
Scrapy框架中的Middleware擴充套件與Scrapy-Redis分散式爬蟲
2023-10-16
框架套件Redis分散式爬蟲
kotlin 擴充套件（擴充套件函式和擴充套件屬性）
2019-02-26
Kotlin套件函式
【Kotlin】擴充套件屬性、擴充套件函式
2024-04-08
Kotlin套件函式
[開發效率]Kotlin之擴充套件
2018-12-07
Kotlin套件
PHP 操作 Redis 之 phpredis 擴充套件
2019-08-05
PHPRedis套件
burpsuite擴充套件開發之Python
2020-08-19
UI套件Python
Dubbo系列之（一）SPI擴充套件
2020-08-06
套件
DOM擴充套件之HTML5
2020-04-06
套件HTML
ES6之字串擴充套件
2019-02-02
字串套件
擴充套件工具
2020-11-21
套件
Sanic 擴充套件
2019-04-21
套件
Mybatis擴充套件
2024-08-14
MyBatis套件
SpringMVC 擴充套件
2024-08-17
SpringMVC套件
ORACLE 擴充套件
2021-02-26
Oracle套件
Android 面試之實戰擴充套件
2018-07-15
Android面試套件
一次Zookeeper 擴充套件之殤
2019-05-29
套件
dart系列之:dart類的擴充套件
2021-11-16
Dart套件
OAuth 2.0 擴充套件協議之 PKCE
2021-11-15
OAuth套件協議
使用Kotlin擴充套件函式擴充套件Spring Data案例
2021-11-11
Kotlin套件函式Spring
JMeter 擴充套件開發：擴充套件 TCP 取樣器
2022-12-01
JMeter套件TCP
?用Chrome擴充套件管理器, 管理你的擴充套件
2019-03-18
Chrome套件
ES6之正則的擴充套件
2019-05-09
套件
ES6之函式的擴充套件
2019-04-30
函式套件
ES6之陣列的擴充套件
2019-03-22
陣列套件
HTML5新增API之DOM 擴充套件
2019-03-22
HTMLAPI套件
WPF之花式控制元件功能擴充套件
2021-07-16
控制元件套件
安裝PHP之PDO_MYSQL擴充套件
2021-09-09
PHPMySql套件
iOS 通知擴充套件
2018-10-08
iOS套件
swift擴充套件Extensions
2018-09-05
Swift套件
擴充套件BSGS/exBSGS
2024-03-10
套件
Json擴充套件方法
2024-03-23
JSON套件
分類擴充套件
2019-05-11
套件
提高擴充套件性
2024-11-29
套件
HttpContext擴充套件類
2024-06-22
HTTPContext套件
DOM部分擴充套件
2018-04-18
套件
LINQ擴充套件方法
2024-07-06
套件
Flask 自建擴充套件
2022-03-07
Flask套件

Scrapy之pipeline&擴充套件

1.自定義pipeline

2. 自定義擴充套件

相關文章