Scrapy基礎（二）：使用詳解

weixin_34148340發表於2018-12-12

原文網址 : https://blog.csdn.net/weixin_34148340/article/details/88001841

scrapy的安裝和基本介紹請看 www.jianshu.com/p/a71386fa3…

Spider

scrapy的網站爬取需要繼承scrapy.Spider類,會根據配置的初始url自動下載網頁資訊，並呼叫parse方法，下載的網頁資訊會通過parse方法的response引數進行傳遞例：

class JobboleSpider(scrapy.Spider):
    name = 'jobbole'  # spider名稱
    allowed_domains = ['blog.jobbole.com']  # 域名
    start_urls = ['http://blog.jobbole.com/all-posts/'] # 其實url

    def parse(self, response): 
複製程式碼

啟動方式為

scrapy crawl jobbole  # jobbole為spider名稱
複製程式碼

MiddleWare

Spider產生的Request請求會在一系列排程後，流經一個個MiddleWare，最終到達Downloader進行真正的Http的請求並得到相應，我們可以自定義MiddleWare，並在settings檔案進行順序配置，定製化下載前的準備工作，比如加入User-Agent隨機切換，Ip代理池的設定，Selenium代理下載等

自定義Middleware需要過載4個函式來做不同的處理

class CustomMiddleWare
    # 定義這個方法，Scrapy會把當前的爬蟲傳遞到方法裡來
    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    # 處理request請求
    def process_request(self, request, spider):
            pass

    # 處理response請求
    def process_response(self, response, spider):
           pass

     # 處理異常情況
    def process_exception(self, response, spider):
           pass
複製程式碼

settings 配置

# 下載服務管理器
DOWNLOADER_MIDDLEWARES = {
    'ArticleSpider.middlewares.RandomUserAgentMiddlware': 100,
    # 'ArticleSpider.middlewares.RandomProxyMiddleware': 200,
    # 'ArticleSpider.middlewares.JSPageMiddleware': 300,
    # 如果自定義了User-Agent的MiddleWare，需要將scrapy的預設Middleware置為None
    'ScrapyRedisTest.middlewares.MyCustomDownloaderMiddleware': None,
}
複製程式碼

Item

使用scrapy.Spider爬取好相關資料後，需要將資料進行儲存，資料在scrapy中流轉是通過Item來實現，使用Item來定義scray的模型model，需要繼承scrapy.Item類例：

class JobBoleArticleItem(scrapy.Item):
    # 使用scrapy.Field進行資料的定義規則
    title = scrapy.Field(
        input_processor=MapCompose(lambda x:x+"-jobbole",add_jobbole)
    )
    create_date = scrapy.Field(
        input_processor=MapCompose(date_covert)
    )
    url = scrapy.Field()
    url_object_id = scrapy.Field()
    front_image_url = scrapy.Field(
        output_processor=MapCompose(return_value)
    )
    front_image_path = scrapy.Field()
    praise_nums = scrapy.Field(
        input_processor=MapCompose(get_nums)
    )
    common_nums = scrapy.Field(
        input_processor=MapCompose(get_nums)
    )
    fav_nums = scrapy.Field(
        input_processor=MapCompose(get_nums)
    )
    tags = scrapy.Field(
        input_processor=MapCompose(remove_comment_tags),
        output_processor=Join(",")
    )
    content = scrapy.Field()
複製程式碼

scrapy.Field可以接收input_processor，output_processor等來定義資料的包裝規則，MapCompose會依次呼叫引數方法（引數方法需要接收一個value引數，返回按照相應規則包裝好的值）例如將create_date(str型別)轉換成（date型別）

def date_covert(value):
    try:
        create_date = datetime.datetime.strptime(value,"%Y/%m/%d").date()
    except Exception as e:
        create_date = datetime.datetime.now().date()

    return create_date
...
  create_date = scrapy.Field(
        input_processor=MapCompose(date_covert)
    )
...
複製程式碼

可以通過繼承ItemLoader類自定義預設的input_processor，output_processor

class ArticleItemLoader(ItemLoader):
    #自定義output_processor
    default_output_processor = TakeFirst()
複製程式碼

Spider 提取相應資料後需要將資料包裝成Item

    def parse(self, response): 
        article_item = JobBoleArticleItem()
...
...
        yield article_item
複製程式碼

Pipeline

Spider 講資料包裝成Item以後，scrapy會按照在setting是中配置的順序進行執行pipeline的類方法，進行資料的持久化或其他的下載操作每一個Pipeline需要有一個process_item方法，接收一個item引數，做完相應處理後返回item，並在settings.py中配置執行順序

settings.py

數字小的先執行

ITEM_PIPELINES = {
    # 'scrapy.pipelines.images.ImagesPipeline': 1,
     'ArticleSpider.pipelines.ArticleImagePipeline':1,
    # 'ArticleSpider.pipelines.JsonExporterPipeline': 2,
    'ArticleSpider.pipelines.MysqlTwistedPipeline': 2,
}
複製程式碼

Pipeline

class ArticlespiderPipeline(object):
    def process_item(self, item, spider):
        # 做具體的執行邏輯 
        return item
複製程式碼

上面講的一些Settings的配置，是所有爬蟲的統一配置,如果需要在每個爬蟲裡自定義配置，可以使用custom_settings變數覆蓋統一配置

custom_settings = {
        "COOKIES_ENABLED": False,
        "DOWNLOAD_DELAY": 0
    }
複製程式碼

具體例項地址 github.com/MarkGao1152…

JSON基礎使用詳解
2020-07-13
JSON
scrapy 基礎
2024-07-05
Android Retrofit 2.5.0使用基礎詳解
2019-03-28
Android
二、Go語言基礎：go install與go fmt命令使用示例詳解
2022-01-21
Go
03 AMD規範的基礎使用詳解
2020-07-20
DataBinding基礎使用二
2018-08-10
Java中Lambda表示式基礎及使用詳解
2021-08-24
Java
BSN-DDC基礎網路詳解（二）：快速接入指南
2023-02-10
OpenGL 基礎光照詳解
2023-11-09
Linux基礎命令詳解
2021-06-11
Linux
java基礎詳解-集合
2021-03-14
Java
python 基礎之scrapy 原理練習
2024-07-16
Python
Git基礎知識詳解
2019-04-10
Git
Java基礎-泛型詳解
2019-01-19
Java泛型
【iOS基礎】KVC / KVO詳解
2018-12-04
iOS
socket基礎詳解小白白
2020-10-30
Redis基礎知識詳解
2019-05-08
Redis
java繼承基礎詳解
2021-08-02
Java繼承
HotDB 基礎架構詳解
2021-03-18
架構
scrapy和scrapy-redis有什麼區別?Python基礎教程
2021-08-18
RedisPython
scrapy框架簡介和基礎應用
2019-03-01
框架
Java基礎-內部類詳解
2018-08-26
Java
Java 基礎 01-String 詳解
2019-07-31
Java
Java基礎1-String詳解
2019-07-23
Java
JDBC-MySql基礎操作詳解
2020-09-28
JDBCMySql
java基礎之:迭代器詳解
2020-11-15
Java
MySQL資料庫基礎詳解
2019-05-18
MySql資料庫
Flutter 基礎Widgets之AppBar詳解
2019-04-26
FlutterAPP
音訊編碼基礎詳解
2024-07-28
音訊
【死磕NIO】— NIO基礎詳解
2021-09-12
Flutter (二) Dart 語言基礎詳解（異常,類,Mixin, 泛型,庫）
2019-03-21
FlutterDart泛型
二、python安裝和基礎使用
2020-09-25
Python
Golang 基礎之函式使用 (二)
2022-06-01
Golang函式
BSN-DDC基礎網路詳解（一）：基礎介紹
2023-02-01
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Go 語言基礎之 Context 詳解
2023-05-10
GoContext
IPv6基礎知識詳解
2019-12-16

Scrapy基礎（二）： 使用詳解

Spider

MiddleWare

Item

Pipeline

相關文章

Scrapy基礎（二）：使用詳解