Scrapy框架簡介

weixin_33782386發表於2019-01-06

原文網址 : https://blog.csdn.net/weixin_33782386/article/details/87589346

框架

Scrapy架構圖

image.png

image.png

一、新建專案

scrapy startproject myspider

建立爬蟲專案

scrapy startproject jobboleproject

新建爬蟲檔案

scrapy genspider jobbole jobbole.com

二、明確目標：

在items.py中新增欄位
根據目標網站分析需要提取的資料，在item.py檔案中新增欄位
開啟jobboleproject檔案下的item.py檔案
可以通過建立一個 scrapy.Item 類，並且定義型別為 scrapy.Field的類屬性來定義一個Item（可以理解成類似於ORM的對映關係）。
接下來，建立一個JobboleprojectItem 類，和構建item模型（model）。
製作爬蟲
開啟 jobboleproject/spider目錄裡的 [jobbole.py]編寫程式碼

import scrapy
class JobboleSpider(scrapy.Spider):

    name = 'jobbole'
    allowed_domains = ['jobbole.com']
    start_urls = ['http://blog.jobbole.com/all-posts/']

def parse(self, response):
    pass

name = "" ：這個爬蟲的識別名稱，必須是唯一的，在不同的爬蟲必須定義不同的名字。
allow_domains = [] 是搜尋的域名範圍，也就是爬蟲的約束區域，規定爬蟲只爬取這個域名下的網頁，不存在的URL會被忽略。
start_urls = () ：爬取的URL元祖/列表。爬蟲從這裡開始抓取資料，所以，第一次下載的資料將會從這些urls開始。其他子URL將會從這些起始URL中繼承性生成。
parse(self, response) ：解析的方法，每個初始URL完成下載後將被呼叫，呼叫的時候傳入從每一個URL傳回的Response物件來作為唯一引數，主要作用如下：
負責解析返回的網頁資料(response.body)，提取結構化資料(生成item)
生成需要下一頁的URL請求。

分析網站結構取資料,在parse方法中做資料的提取

from jobboleproject.items import JobboleprojectItem

1.獲取圖片和文章詳情的連結
def parse(self, response):
    
    # css選擇器獲取當前列表頁面的所有的節點
    post_nodes = response.css("#archive .floated-thumb .post-thumb a")

    # 如果不是完整的域名 需要拼接完整 response.url + post_url
    # 獲取到的URL可能不是一個域名，也可能是具體的文章需要使用parse函式from urllib import parse
    for post_node in post_nodes:
        image_url = post_node.css("img::attr(src)").extract_first("")
        post_url = post_node.css("::attr(href)").extract_first("")
        full_url = response.urljoin(post_url)
        #meta引數對應的是一個字典，用來傳遞資料
        yield scrapy.Request(url=full_url, meta={"front_image_url": image_url},
        callback=self.parse_detail)

yield

的作用就是把一個函式變成一個 generator（生成器），帶有 yield 的函式不再是一個普通函式，Python 直譯器會將其視為一個 generator，帶有yeild的函式遇到yeild的時候就返回一個迭代值，下次迭代時，程式碼從 yield 的下一條語句繼續執行，而函式的本地變數看起來和上次中斷執行前是完全一樣的，於是函式繼續執行，直到再次遇到 yield。

通俗的講就是：在一個函式中，程式執行到yield語句的時候，程式暫停，返回yield後面表示式的值，在下一次呼叫的時候，從yield語句暫停的地方繼續執行，如此迴圈，直到函式執行完。

Scrapy Item pipeline(管道檔案)使用

編寫item pipeline，item pipiline元件是一個獨立的Python類，其中process_item()方法必須實現:

import something

class SomethingPipeline(object):
    def __init__(self):
        # 可選實現，做引數初始化等
        # doing something

    def process_item(self, item, spider):
        # item (Item 物件) – 被爬取的item
        # spider (Spider 物件) – 爬取該item的spider
        # 這個方法必須實現，每個item pipeline元件都需要呼叫該方法，
        # 這個方法必須返回一個 Item 物件，被丟棄的item將不會被之後的pipeline元件所處理。
        return item

    def open_spider(self, spider):
        # spider (Spider 物件) – 被開啟的spider
        # 可選實現，當spider被開啟時，這個方法被呼叫。

    def close_spider(self, spider):
        # spider (Spider 物件) – 被關閉的spider
        # 可選實現，當spider被關閉時，這個方法被呼叫

啟用一個Item Pipeline元件為了啟用Item Pipeline元件，必須將它的類新增到 settings.py檔案ITEM_PIPELINES 配置，（0-1000隨意設定，數值越低，元件的優先順序越高

定製圖片下載管道

Scrapy提供了一個 item pipeline ，來下載屬於某個特定專案的圖片，這條管道，被稱作圖片管道，在 ImagesPipeline 類中實現，提供了一個方便並具有額外特性的方法，來下載並本地儲存圖片:

Pillow 是用來生成縮圖，並將圖片歸一化為JPEG/RGB格式，因此為了使用圖片管道，你需要安裝這個庫。

使用圖片管道當使用 ImagesPipeline ，典型的工作流程如下所示:
在settings.py中設定 IMAGES_STORE 設定為一個有效的資料夾，用來儲存下載的圖片

IMAGES_STORE　= '/xxx/xxx/xxx'

from scrapy.contrib.pipeline.images import ImagesPipeline
import scrapy
from scrapy.exceptions import DropItem
import os
from scrapy.utils.project import get_project_settings

#下載圖片

image_store = get_project_settings().get('IMAGES_STORE')

class jobboleImagePipline(ImagesPipeline):

    def get_media_requests(self, item, info):
        #根據圖片地址，構建請求
        yield scrapy.Request(item['coverImage'])

    def item_completed(self, results, item, info):
        print(results)
        #獲取圖片下載成功的請求路徑
        image_paths = [x['path'] for ok, x in results if ok]
        #判斷圖片是否下載成功
        if not image_paths:
            #出現錯誤，例如沒有圖片，可以丟棄item
            raise DropItem("Item contains no images")
        else:
            #替換圖片的名稱，自定義圖片名稱
            os.rename(image_store+'/'+image_paths[0],
                    image_store+'/'+item['title']+'.jpg')
            #將圖片地址賦值給item
            item['localImagePath'] = image_store+'/'+item['title']+'.jpg'
            return item

爬蟲資料持久化儲存

settings.py檔案: 設定檔案，在這裡設定User-Agent,啟用管道檔案等．．．

ITEM_PIPELINES = {
    'douban.pipelines.DoubanPipeline': 300,
}

MONGODB 主機名
MONGODB_HOST = '127.0.0.1'
MONGODB 埠號
MONGODB_PORT= 27017
資料庫名稱
MONGODB_DBNAME = "Douban"
儲存資料的表名稱
MONGODB_SHEETNAME= "doubanmovies"

MongDB插入資料

import pymongo
# from scrapy.utils.project import
class ChinazprojectPipeline(object):
    def __init__(self,host,port,dbname):
        #建立mongdb資料庫連線
        self.mongo_client = pymongo.MongoClient(
            host=host,port=port
        )
        #選擇要操作的資料庫
        self.db = self.mongo_client[dbname]

    @classmethod
    def from_crawler(cls,crawler):
        host = crawler.settings['MONGO_HOST']
        prot = crawler.settings['MONGO_PORT']
        db = crawler.settings['MONGO_DB']

        return cls(host,prot,db)

    def process_item(self, item, spider):
        """
        這個方法是必須實現的，爬蟲檔案中所有的item都會經過這個方法
        :param item: 爬蟲檔案傳遞過來的item物件
        :param spider: 爬蟲檔案例項化的物件
        :return:
        """
        #選擇要操作的集合
        col_name = item.get_mongdb_collectionName()
        col = self.db[col_name]
        #插資料
        dict_data = dict(item)

        try:
            col.insert(dict_data)
            print('資料插入成功')
        except Exception as err:
            print('資料插入失敗',err)

        return item
    def open_spider(self,spider):
        print(spider.name,'爬蟲開始')

    def close_spider(self,spider):
        self.mongo_client.close()
        print(spider.name,'爬蟲結束')

Mysql資料庫插入資料
settings.py檔案: 設定檔案，在這裡設定User-Agent,啟用管道檔案等．．．

ITEM_PIPELINES = {
    'douban.pipelines.DoubanPipeline': 300,
}

#關於資料庫的相關配置
MYSQL_HOST = '127.0.0.1'
MYSQL_PORT = 3306
MYSQL_USER = ''
MYSQL_PWD = ''
MYSQL_DB = ''

class ChinazprojectPipeline(object):
    def __init__(self):
        """
        初始化方法
        """
        # self.file = open('chinaz.json','a')
        # 建立資料庫連結
        self.client = pymysql.Connect(
            '127.0.0.1', 'root', '1234', 'chinaz', 3306, charset='utf8'
        )
        # 建立遊標
        self.cursor = self.client.cursor()

    def open_spider(self, spider):
        """
        爬蟲啟動的時候會呼叫一次
        :param spider:
        :return:
        """
        print('爬蟲開啟了')

    def process_item(self, item, spider):
        """
        這個方法是必須實現的，爬蟲檔案中所有的item都會經過這個方法
        :param item: 爬蟲檔案傳遞過來的item物件
        :param spider: 爬蟲檔案例項化的物件
        :return:
        """
        # 儲存到本地json檔案
        # import json
        # json_data = json.dumps(data_dict,ensure_ascii=False)
        # self.file.write(json_data+'\n')
        # if isinstance(item,ChinaprojectWebInfoItem):
        #     print('網站資訊')
        #     tablename = 'webinfo'
        # elif isinstance(item,ChinazprojectTagItem):
        #     print('網站分類資訊')
        #     tablename = 'tag'

        data_dict = dict(item)

        sql,data = item.get_insert_sql_data(data_dict)
        try:
            # self.cursor.execute(sql, list(data_dict.values()))
            # self.client.commit()
            self.cursor.execute(sql,data)
            self.client.commit()
        except Exception as err:
            self.client.rollback()
            print(err)

        # 如果有多個管道檔案，一定要注意return item,否則下個管道無法接收
        print('經過了管道')
        return item

    def close_spider(self, spider):
        """
        爬蟲結束的時候會呼叫一次
        :param spider:
        :return:
        """
        # self.file.close()
        self.cursor.close()
        self.client.close()
        print('爬蟲結束')

實現Mysql非同步插入（資料量非常大時，採用非同步插入）

from twisted.enterprise import adbapi


class ChinazprojectPipeline(object):

    def __init__(self,dbpool):
        self.dbpool = dbpool


    @classmethod
    def from_crawler(cls,crawler):
        db_parmars = {
            'host':crawler.settings['MYSQL_HOST'],
            'user':crawler.settings['MYSQL_USER'],
            'passwd':crawler.settings['MYSQL_PWD'],
            'db':crawler.settings['MYSQL_DB'],
            'port':crawler.settings['MYSQL_PORT'],
            'charset':crawler.settings['MYSQL_CHARSET']
        }
        dbpool = adbapi.ConnectionPool('pymysql',**db_parmars)
        return cls(dbpool)

    def process_item(self,item,spider):
        query = self.dbpool.runInteraction(
            self.insert_data_to_mysql,
            item
        )
        query.addErrback(
            self.insert_err,
            item
        )
        return item

    def insert_data_to_mysql(self,cursor,item):
        data_dict = dict(item)
        sql,data = item.get_insert_sql_data(data_dict)
        cursor.execute(sql,data)


    def insert_err(self,failure,item):
        print(failure,'插入失敗')

Scrapy Shell

啟動

scrapy shell "http://hr.tencent.com/position.php?&start=0#a"

scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.86 Safari/537.36"  "http://hr.tencent.com/position.php?&start=0#a"

scrapy框架簡介和基礎應用
2019-03-01
框架
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
Scrapy 框架介紹之 Puppeteer 渲染
2020-05-27
框架
scrapy的簡介與安裝
2018-08-29
Scrapy框架
2023-03-29
框架
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
SpringMVC框架簡介②
2018-08-12
SpringMVC框架
SpringMVC框架簡介①
2018-08-12
SpringMVC框架
Hibernate框架簡介⑤
2018-08-11
框架
Hibernate框架簡介④
2018-08-11
框架
Hibernate框架簡介③
2018-08-10
框架
Hibernate框架簡介②
2018-08-10
框架
Hibernate框架簡介①
2018-08-09
框架
Spring框架簡介⑩
2018-08-09
Spring框架
Spring框架簡介⑨
2018-08-08
Spring框架
Spring框架簡介⑧
2018-08-08
Spring框架
Spring框架簡介⑦
2018-08-07
Spring框架
Spring框架簡介⑥
2018-08-07
Spring框架
Spring框架簡介⑤
2018-08-07
Spring框架
Spring框架簡介④
2018-08-07
Spring框架
Spring框架簡介③
2018-08-07
Spring框架
Spring框架簡介②
2018-08-07
Spring框架
Spring框架簡介①
2018-08-06
Spring框架
HTML 框架簡介
2022-09-26
HTML框架
Scrapy架構及資料流圖簡介
2018-03-13
架構
Scrapy框架-Spider
2019-02-15
框架IDE
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Scrapy框架的使用之Scrapy入門
2018-05-02
框架
[轉]SSH框架簡介
2018-09-12
框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy框架的使用之Scrapy對接Splash
2018-05-18
框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Flutter路由框架Fluro簡介
2020-01-17
Flutter路由框架
uni-app 框架簡介
2022-06-13
APP框架
wsgiref模組、web框架、django框架簡介
2022-05-10
Web框架Django