python爬蟲Scrapy框架

xx20cw發表於2018-11-21

原文網址 : https://blog.csdn.net/xx20cw/article/details/84313626

Python爬蟲框架

Scrapy框架

是一個Python爬蟲框架，適合做一些大型爬蟲專案。

Scrapy框架常見命令：

1、基本格式：scrapy 命令名 -引數（如scrapy fetch –h顯示fetch命令幫助，fetch顯示爬蟲爬取過程）

2、Shell命令，啟動Scrapy互動終端 >scrapy shell http://www.baidu.com --nolog

3、Startproject命令建立爬蟲專案: scrapy startproject first(爬蟲專案名)

4、Version命令 scrapy version

5、View命令下載某個網頁，並且用瀏覽器檢視 scrapy view http://news.163.com

6、bench命令測試本地效能

7、scrapy genspider -l 展示爬蟲模板

8、scrapy genspider –t basic csc baidu.com 基於basic模板建立csc爬取百度

9、Scrapy check csc(爬蟲名)命令用於測試

10、scrapy crawl csc命令用於啟動某個爬蟲檔案

11、scrapy list展示當前專案下，可用的爬蟲名

12、scrapy edit csc用於開啟編輯器編輯爬蟲（這個命令只能用於linux系統）

13、scrapy parse http://www.baidu.com獲取指定url網址，並行分析處理

Xpath表示式：執行效率比正規表示式快

/表示從頂端開始尋找標籤（如/html表示從html頂端開始尋找，/html/head提取html下的head這個標籤裡面所有的內容）。

/html/head/title/text()提取網頁的標題內容。

Text()提取文字資訊

@提取標籤裡面的屬性資訊

//尋找當前頁所有的標籤 //li[@屬性=。。]（//li[@class=’hidden-xs’]/a@href）

第一個scrapy爬蟲：

思路：首先編輯爬蟲專案裡面的items.py,設定爬取的目標，pipelines設定後續的處理,settings設定對應的配置資訊。

在cmd中進入爬蟲專案資料夾，執行命令scrapy genspider –t basic csc baidu.com

基於basic模板建立csc爬取百度

2、用pycharm開啟專案檔案，編輯items.py檔案

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class FirstItem(scrapy.Item):
    # define the fields for your item here like:
    # name = scrapy.Field()
    content = scrapy.Field()#建立容器
    link = scrapy.Field()

3、進入pipelines.py設定後續處理

class FirstPipeline(object):
    def process_item(self, item, spider):
        print(item['content'])#處理方式
        return item

4、進入settings檔案，進行設定，找到pipelines,取消註釋

ITEM_PIPELINES = {

    'first.pipelines.FirstPipeline': 300,

}

5、將robots.txt rules爬蟲規則，設定圍毆不遵守

# Obey robots.txt rules

ROBOTSTXT_OBEY = False

6、最後編輯爬蟲檔案

import scrapy

from first.items import FirstItem

class CscSpider(scrapy.Spider):

    name = 'csc'

    allowed_domains = ['baidu.com']

    start_urls = ['http://www.baidu.com/']

    def parse(self, response):

        item = FirstItem()

      item['content']=response.xpath('/html/head/title/text()').extract()

        yield item

Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
學好Python不加班系列之SCRAPY爬蟲框架的使用
2021-11-09
Python爬蟲框架
Python爬蟲之scrapy框架簡介及環境安裝
2021-06-02
Python爬蟲框架
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
介紹一款能取代 Scrapy 的 Python 爬蟲框架 - feapder
2021-04-24
Python爬蟲框架
Scrapy爬蟲-草稿
2018-09-08
爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
python爬蟲系列（三）scrapy基本概念
2018-09-26
Python爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
利用scrapy建立初始Python爬蟲專案
2018-03-04
Python爬蟲
Scrapy爬蟲框架如何使用代理進行採集
2022-02-22
爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
萬能除錯 | Python爬蟲Scrapy框架HTTP代理的配置與除錯
2022-12-14
除錯Python爬蟲框架HTTP
Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
Python爬蟲教程-33-scrapy shell 的使用
2018-09-06
Python爬蟲
JB的Python之旅-爬蟲篇--requests&Scrapy
2018-06-08
Python爬蟲

python爬蟲Scrapy框架

Scrapy框架

相關文章