python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析

夢想家haima發表於2020-10-29

原文網址 : https://www.cnblogs.com/mxjhaima/p/13896453.html

Python爬蟲Redis

架構及簡介

Scrapy是用純Python實現一個為了爬取網站資料、提取結構性資料而編寫的應用框架，用途非常廣泛。

Scrapy 使用了 Twisted(其主要對手是Tornado)非同步網路框架來處理網路通訊，可以加快我們的下載速度，不用自己去實現非同步框架，並且包含了各種中介軟體介面，可以靈活的完成各種需求。

Scrapy Engine(引擎): 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，訊號、資料傳遞等。

Scheduler(排程器): 它負責接受引擎傳送過來的Request請求，並按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

Downloader（下載器）：負責下載Scrapy Engine(引擎)傳送的所有Requests請求，並將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理，

Spider（爬蟲）：它負責處理所有Responses,從中分析提取資料，獲取Item欄位需要的資料，並將需要跟進的URL提交給引擎，再次進入Scheduler(排程器)，

Item Pipeline(管道)：它負責處理Spider中獲取到的Item，並進行進行後期處理（詳細分析、過濾、儲存等）的地方.

Downloader Middlewares（下載中介軟體）：你可以當作是一個可以自定義擴充套件下載功能的元件。

Spider Middlewares（Spider中介軟體）：你可以理解為是一個可以自定擴充套件和操作引擎和Spider中間通訊的功能元件（比如進入Spider的Responses;和從Spider出去的Requests）

開發流程

開發一個簡單爬蟲步驟：

新建專案

scrapy startproject demo

編寫spider
- 種子url （請求)
- 解析方法
編寫item
結果資料模型
持久化
編寫pipelines

生成目錄介紹

scrapy.cfg ：專案的配置檔案

mySpider/ ：專案的Python模組，將會從這裡引用程式碼

mySpider/items.py ：專案的目標檔案

mySpider/pipelines.py ：專案的管道檔案

mySpider/settings.py ：專案的設定檔案

mySpider/spiders/ ：儲存爬蟲程式碼目錄

使用命令建立爬蟲類

scrapy genspider gitee "gitee.com"

解析

通常我們解析都會涉及到 xpath csspath 正則，有的時候可能還有jsonpath（python中json訪問基本不用使用複雜的jsonpath，字典訪問就可以)
scrapy 內建xpath和csspath支援

Selector

而解析器本身也可以單獨使用

xpath()
extract_first()
extract() #返回一個列表
索引訪問，因為scrapy.selector.unified.SelectorList繼承list，可以通過索引訪問

from scrapy import Selector

if __name__ == '__main__':
    body = """<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>
    <p>hello</p>
    <p class="big">hello</p>
</body>
</html>"""
    s = Selector(text=body)
    title=s.xpath("//title/text()").extract_first();#抽取
    print(title)
    #Title
    pe = s.xpath("//p")
    print(s.xpath("//p").extract())
    #['<p>hello</p>', '<p class="big">hello</p>']
    print(pe)
    #[<Selector xpath='//p' data='<p>hello</p>'>, <Selector xpath='//p' data='<p class="big">hello</p>'>]
    print(type(pe))
    #<class 'scrapy.selector.unified.SelectorList'>
    print(type(pe[0]))  #通過索引訪問
    #<class 'scrapy.selector.unified.Selector'>
    print(type(pe.pop()))
    #<class 'scrapy.selector.unified.Selector'>
    p=s.xpath("//p").extract_first()
    print(p)

css()
css選擇器我們::text選擇內容，用::attr() 選擇屬性

print(s.css("title").extract_first())
print(s.css("title::text").extract_first())
print(s.css("title::text").extract())
print(s.css("p.big::text").extract_first())
print(s.css("p.big::attr(class)").extract_first())


# <title>Title</title>
# Title
# ['Title']
# hello big
# big

css()和xpath()混用
scrapy.selector.unified.SelectorList scrapy.selector.unified.Selector 本身有css和xpath方法，所以可以組合使用

print(s.xpath("//body").css("p.big").extract_first())
print(s.css("body").xpath("//p[@class='big']").extract_first())

# <p class="big">hello big </p>
# <p class="big">hello big </p>

re()和re_first()
scrapy.selector.unified.SelectorList scrapy.selector.unified.Selector 擁有 re()方法，支援通過正則來過濾

print(s.xpath("//p/text()").re_first("big"))
print(type(s.xpath("//p/text()").re("big")))

# big
# <class 'list'>

** 但re()返回列表，.re_first返回str，所以不能再繼續呼叫其他的選擇方法

在爬蟲中使用解析器

response物件已經

class GiteeSpider(scrapy.Spider):
    name = 'gitee'
    allowed_domains = ['gitee.com']
    start_urls = ['https://gitee.com/haimama']

    def parse(self, response):
        print(type(response))
        t=response.xpath("//title/text()").extract_first()
        print(t)

##啟動爬蟲執行後的結果
# 執行結果省略日誌
# <class 'scrapy.http.response.html.HtmlResponse'>
# 碼馬 (haimama) - Gitee

response物件型別為 scrapy.http.response.html.HtmlResponse，該類繼承TextResponse 。擁有xpath()和css()方法如下

所以response 可以直接使用前文中的Selector 的方式來解析

    def xpath(self, query, **kwargs):
        return self.selector.xpath(query, **kwargs)

    def css(self, query):
        return self.selector.css(query)

配置檔案

settings.py是爬蟲的配置檔案，要正常啟動爬蟲的話，一定注意將robo協議限制修改為 ROBOTSTXT_OBEY = False
其他相關配置，我們下節再介紹

啟動爬蟲

在爬蟲目錄編寫run.py方法，新增如下指令碼，這樣就可以直接執行爬蟲了。如果命令列執行的話scrapy crawl gitee。其中gitee為爬蟲名，對應GiteeSpider中的name欄位

# coding: utf-8

from scrapy import cmdline
if __name__ == '__main__':
    cmdline.execute("scrapy crawl gitee".split())

# scrapy crawl gitee

完整參考程式碼 https://gitee.com/haimama/scrapy_demo001
xpath參考我的部落格python使用xpath

爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
scrapy之分散式爬蟲scrapy-redis
2020-12-24
分散式爬蟲Redis
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Scrapy入門-第一個爬蟲專案
2018-07-23
爬蟲
Python開發技巧：scrapy-redis爬蟲如何傳送POST請求
2021-03-24
PythonRedis爬蟲
scrapy 爬蟲利器初體驗(1)
2018-11-26
爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
為什麼學習python及爬蟲，Python爬蟲[入門篇]？
2018-11-21
Python爬蟲
Scrapy框架中的Middleware擴充套件與Scrapy-Redis分散式爬蟲
2023-10-16
框架套件Redis分散式爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python爬蟲入門
2020-11-30
Python爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python3爬蟲入門(一)
2020-12-05
Python爬蟲
python 爬蟲 Demo webdriver
2019-09-25
Python爬蟲Web
python爬蟲學習筆記 4.2 （Scrapy入門案例（建立專案））
2020-04-30
Python爬蟲筆記
python併發爬蟲利器tomorrow(一)
2018-10-16
Python爬蟲
Python 爬蟲網頁內容提取工具xpath(一)
2018-12-06
Python爬蟲網頁
python-爬蟲入門
2024-09-22
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
ScienceDirect內容爬蟲
2021-07-21
爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
scrapy和scrapy-redis有什麼區別?Python基礎教程
2021-08-18
RedisPython
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python3網路爬蟲快速入門實戰解析
2020-04-23
Python爬蟲
Java爬蟲利器HTML解析工具-Jsoup
2019-06-21
Java爬蟲HTMLJS
Python爬蟲詳解（一看就懂）
2022-07-15
Python爬蟲
Scrapy-Redis
2024-07-05
Redis
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁

python爬蟲利器 scrapy和scrapy-redis 詳解一 入門demo及內容解析