scrapy 使用的基本流程和例子

回憶不說話發表於2018-08-02

原文網址 : https://blog.csdn.net/qq_39138295/article/details/81365941

前面已經介紹過如何建立scrapy的專案，和對專案中的檔案功能的基本介紹。

這次，就來談談使用的基本流程。

（1）首先第一點，開啟終端，找到自己想要把scrapy工程建立的路徑。這裡，我是建立在桌面上的。開啟終端，輸入：
cd Desktop 就進入了桌面檔案儲存位置。

（2）建立scrapy工程。終端輸入：scrapy startproject image

終端輸入：cd image

繼續輸入：scrapy genspider imageSpider pic.netbian.com

（3）在pycharm中開啟剛才桌面的檔案，進入settings.py設定爬蟲規則。可以將規則直接註釋掉，或者改為False。

（4）回到爬蟲檔案。

更改start_url,將爬蟲預設的第一個網址更改為需要爬取的網站網址即可。

（5）下面就可以爬取資料了，這裡選擇了下載圖片。

爬取完資料之後，要在儲存資料的items.py檔案中傳輸給管道

接下來在爬蟲檔案中引入管道模型。

from ..items import ImageItem

在爬蟲檔案中的parse函式中使用在items.py檔案中建立的資料模型。

item = ImageItem()

注意點：

有時候在終端輸出的時候，如果返回內容是scrapy.selector ,如果物件型別是scrapy.selector，那麼這個物件可以被繼續迭代，也可以用xpath繼續尋找裡面的內容。

如果終端遇到這個問題：

# ValueError:Missing scheme in request url:h

那麼就需要使用extract（）將xpath物件轉化成列表物件。而列表物件，可以繼續被迭代，但是不可以使用xpath來尋找裡面的物件。

在下載之前還需要在settings.py檔案中，對圖片下載的路徑和儲存位置進行設定。

下面附程式碼如下。僅有爬蟲檔案的程式碼：

# -*- coding: utf-8 -*-
import scrapy

from ..items import ImageItem
class ImagespiderSpider(scrapy.Spider):
    name = 'imageSpider'
    allowed_domains = ['pic.netbian.com']
    start_urls = ['http://pic.netbian.com/4kmeinv/']

    def parse(self, response):
        img_list = response.xpath('//ul[@class="clearfix"]/li/a/img/@src')
        # 找到了很多src屬性值，現在進行遍歷，分別使用每一個
        for img in img_list:
            # 使用在items.py中建立的資料模型item
            item = ImageItem()
            print('--------------------')
            img = img.extract()
            # 拼接圖片的url，得到完整的下載地址
            src = 'http://pic.netbian.com' +img
            # 將得到的資料放入到模型中
            # 因為是下載地址，所以要用列表包起來，否則會報錯。
            item['src'] = [src]
            yield item
        next_url = response.xpath('//div[@class="page"]/a[text()="下一頁"]/@href').extract()
        print('*****************************************************************')
        if len(next_url)!=0:
            url = 'http://pic.netbian.com'+next_url[0]
            # 將url傳給scrapy.Request 得到的結果繼續用self.parse進行處理
            yield scrapy.Request(url=url,callback=self.parse)

希望對大家有所幫助。

Day4--Scrapy基本使用
2019-03-24
django框架使用基本流程
2020-11-08
Django框架
scrapy基本原理
2024-08-06
scrapy工作流程和每個模組的具體作用
2018-12-19
Scrapy框架的使用之Scrapy入門
2018-05-02
框架
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy框架的使用之Scrapy對接Splash
2018-05-18
框架
scrapy使用
2024-04-12
WebService的概念和基本使用
2018-09-22
Web
NGINX的配置和基本使用
2022-12-12
Nginx
GoldenGate的基本配置流程
2022-03-09
Go
Scrapy框架的使用之Scrapyrt的使用
2018-05-21
框架
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Django框架簡介和建立django專案的基本流程
2020-07-07
Django框架
Django基本流程
2018-07-21
Django
反射的概念和基本使用（一）
2022-04-05
反射
webpack的安裝和基本使用
2020-12-29
Web
Scrapy原始碼閱讀分析_1_整體框架和流程介紹
2019-02-19
原始碼框架
阿里雲建站的基本流程
2019-02-13
阿里
企業建站的基本流程
2021-12-13
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Flutter中的自定義View的基本流程和相關知識
2021-08-09
FlutterView
Scrapy框架的使用之Selector的用法
2019-03-04
框架
Scrapy框架的使用之Spider的用法
2018-05-07
框架IDE
Docker原理和基本使用
2019-02-12
Docker
請求基本流程
2020-04-22
WEB程式執行的基本流程
2018-10-14
Web
網路搭建的基本流程包括
2024-10-12
最好用的流程編輯器bpmn-js系列之基本使用
2020-09-17
JS
從一個例子中體會React的基本面
2019-01-14
React
ffmpeg demo decode_video.c例子流程圖
2020-10-20
IDE流程圖
Scrapy框架-Spider和CrawlSpider的區別
2019-02-15
框架IDE
Scrapy框架的使用之Item Pipeline的用法
2018-05-14
框架
Scrapy框架的使用之Downloader Middleware的用法
2018-05-09
框架
TypeScript 基本型別和泛型的使用
2019-02-27
TypeScript型別泛型

scrapy 使用的基本流程和例子

相關文章