【上課課件整理複習】第七章 Scrapy爬蟲框架(3)

小白的學習筆記記錄發表於2020-12-11

piplines

在上例中,使用了Scrapy的命令列來進行儲存,-o選項表示輸出,-t選項表示儲存檔案的型別。這種方式雖然靈活,但由於是在記憶體中生成列表,然後再進行輸出,記憶體佔用較大。
Scrapy給我們提供了另一種方式,可以對生成的每條單獨的item進行處理。開啟piplines.py,編寫如下程式碼:
-o輸出,-t表示儲存檔案的型別,

# -*- coding: utf-8 -*-
import json

class MyprojectPipeline(object):
    # 初始化事件方法,對單個爬蟲之呼叫一次,此處是開啟用於寫入資料的檔案
    def __init__(self):
        self.f = open("result/cnblogsV3.json", "w", encoding=

相關文章