python網路爬蟲（14）使用Scrapy搭建爬蟲框架

噓，小點聲發表於2019-07-27

原文網址 : https://www.cnblogs.com/bai2018/p/11255185.html

Python爬蟲框架

目的意義

爬蟲框架也許能簡化工作量，提高效率等。scrapy是一款方便好用，擴充方便的框架。

本文將使用scrapy框架，示例爬取自己部落格中的文章內容。

說明

學習和模仿來源：https://book.douban.com/subject/27061630/。

建立scrapy工程

首先當然要確定好，有沒有完成安裝scrapy。在windows下，使用pip install scrapy，慢慢等所有依賴和scrapy安裝完畢即可。然後輸入scrapy到cmd中測試。

建立工程使用scrapy startproject myTestProject，會在工程下生成檔案。

一些介紹說明

在生成的檔案中，

建立爬蟲模組-下載

在路徑./myTestProject/spiders下，放置使用者自定義爬蟲模組，並定義好name，start_urls，parse()。

如在spiders目錄下建立檔案CnblogSpider.py,並填入以下：

import scrapy
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/default.html?page=1"]
    def parse(self,response):
        pass

在cmd中，切換到./myTestProject/myTestProject下，再執行scrapy crawl cnblogs（name）測試，觀察是否報錯，響應程式碼是否為200。其中的parse中引數response用於解析資料，讀取資料等。

強化爬蟲模組-解析

在CnblogsSpider類中的parse方法下，新增解析功能。通過xpath、css、extract、re等方法，完成解析。

調取元素審查分析以後新增，成為以下程式碼：

import scrapy
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            print(url,title,time,content)
        pass

找到頁面中，class為day的部分，然後再找到其中各個部分，提取出來，最後通過print方案輸出用於測試。

在正確的目錄下，使用cmd執行scrapy crawl cnblogs，完成測試，並觀察顯示資訊中的print內容是否符合要求。

強化爬蟲模組-包裝資料

包裝資料的目的是儲存資料。scrapy使用Item類來滿足這樣的需求。

框架中的items.py用於定義儲存資料的Item類。

在items.py中修改MytestprojectItem類，成為以下程式碼：

import scrapy
class MytestprojectItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url=scrapy.Field()
    time=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()
    pass

然後修改CnblogsSpider.py，成為以下內容：

import scrapy
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            yield item
        pass

將提取出的內容封裝成Item物件，使用關鍵字yield提交。

強化爬蟲模組-翻頁

有時候就是需要翻頁，以獲取更多資料，然後解析。

修改CnblogsSpider.py，成為以下內容：

import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    allowd_domains=["cnblogs.com"]
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            yield item
        next_page=Selector(response).re(u'<a href="(\S*)">下一頁</a>')
        if next_page:
            yield scrapy.Request(url=next_page[0],callback=self.parse)
        pass

在scrapy的選擇器方面，使用xpath和css，可以直接將CnblogsSpider下的parse方法中的response引數使用，如response.xpath或response.css。

而更通用的方式是：使用Selector(response).xxx。針對re則為Selector(response).re。

關於yield的說明：https://blog.csdn.net/mieleizhi0522/article/details/82142856

強化爬蟲模組-儲存

當Item在Spider中被收集時候，會傳遞到Item Pipeline。

修改pipelines.py成為以下內容：

import json
from scrapy.exceptions import DropItem
class MytestprojectPipeline(object):
    def __init__(self):
        self.file=open('papers.json','wb')
    def process_item(self, item, spider):
        if item['title']:
            line=json.dumps(dict(item))+"\n"
            self.file.write(line.encode())
            return item
        else:
            raise DropItem("Missing title in %s"%item)

重新實現process_item方法，收集item和該item對應的spider。然後建立papers.json，轉化item為字典，儲存到json表中。

另外，根據提示開啟pipelines.py的開關。在settings.py中，使能ITEM_PIPELINES的開關如下：

然後在cmd中執行scrapy crawl cnblogs即可

另外，還可以使用scrapy crawl cnblogs -o papers.csv進行儲存為csv檔案。

需要更改編碼，將csv檔案以記事本方式重新開啟，更正編碼後重新儲存，檢視即可。

強化爬蟲模組-影象地址

設定setting.py

ITEM_PIPELINES = {
    'myTestProject.pipelines.MytestprojectPipeline':300,
    'scrapy.pipelines.images.ImagesPipeline':1
}
IAMGES_STORE=".//cnblogs"
IMAGES_URLS_FIELD = 'cimage_urls'
IMAGES_RESULT_FIELD = 'cimages'
IMAGES_EXPIRES = 30
IMAGES_THUMBS = {
    'small': (50, 50),
    'big': (270, 270)
}

修改items.py為：

import scrapy
class MytestprojectItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    url=scrapy.Field()
    time=scrapy.Field()
    title=scrapy.Field()
    content=scrapy.Field()

    cimage_urls=scrapy.Field()
    cimages=scrapy.Field()
    pass

修改CnblogsSpider.py為：

import scrapy
from scrapy import Selector
from myTestProject.items import MytestprojectItem
class CnblogsSpider(scrapy.Spider):
    name="cnblogs"
    allowd_domains=["cnblogs.com"]
    start_urls=["https://www.cnblogs.com/bai2018/"]
    def parse(self,response):
        papers=response.xpath(".//*[@class='day']")
        for paper in papers:
            url=paper.xpath(".//*[@class='postTitle']/a/@href").extract()[0]
            title=paper.xpath(".//*[@class='postTitle']/a/text()").extract()
            time=paper.xpath(".//*[@class='dayTitle']/a/text()").extract()
            content=paper.xpath(".//*[@class='postCon']/div/text()").extract()
            
            item=MytestprojectItem(url=url,title=title,time=time,content=content)
            request=scrapy.Request(url=url, callback=self.parse_body)
            request.meta['item']=item

            yield request
        next_page=Selector(response).re(u'<a href="(\S*)">下一頁</a>')
        if next_page:
            yield scrapy.Request(url=next_page[0],callback=self.parse)
        pass
    
    def parse_body(self, response):
        item = response.meta['item']
        body = response.xpath(".//*[@class='postBody']")
        item['cimage_urls'] = body.xpath('.//img//@src').extract()
        yield item

啟動爬蟲

建立main函式，傳遞初始化資訊，匯入指定類。如：

from scrapy.crawler import CrawlerProcess
from scrapy.utils.project import get_project_settings

from myTestProject.spiders.CnblogSpider import CnblogsSpider

if __name__=='__main__':
    process = CrawlerProcess(get_project_settings())
    process.crawl('cnblogs')
    process.start()

爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
Python爬蟲教程-14-爬蟲使用filecookiejar儲存cookie檔案(人人網)
2018-09-06
Python爬蟲CookieJAR
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
爬蟲框架如何搭建
2023-11-27
爬蟲框架
Scrapy爬蟲-草稿
2018-09-08
爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
python DHT網路爬蟲
2019-02-14
Python爬蟲
學好Python不加班系列之SCRAPY爬蟲框架的使用
2021-11-09
Python爬蟲框架
《Python3網路爬蟲開發實戰》PDF+原始碼+《精通Python爬蟲框架Scrapy》中英文PDF原始碼...
2018-12-23
Python爬蟲原始碼框架
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲