Python爬蟲知識點四--scrapy框架

LHBlog發表於2017-11-27

Python爬蟲框架

一。scrapy結構資料

解釋：

1.名詞解析：

o 引擎(Scrapy Engine)
o 排程器(Scheduler)
o 下載器(Downloader)
o 蜘蛛(Spiders)
o 專案管道(Item Pipeline)
o 下載器中介軟體(Downloader Middlewares)
o 蜘蛛中介軟體(Spider Middlewares)
o 排程中介軟體(Scheduler Middlewares)

2.具體解析

綠線是資料流向
 從初始URL開始，Scheduler會將其交給Downloader進
行下載
 下載之後會交給Spider進行分析
 Spider分析出來的結果有兩種
 一種是需要進一步抓取的連結，如 “下一頁”的連結，它們
會被傳回Scheduler；另一種是需要儲存的資料，它們被送到Item Pipeline裡，進行
後期處理（詳細分析、過濾、儲存等）。
 在資料流動的通道里還可以安裝各種中介軟體，進行必
要的處理。

二。初始化爬蟲框架 Scrapy

命令： scrapy startproject qqnews

ps：真正的專案是在spiders裡面寫入的

三。scrapy元件spider

爬取流程
 1. 先初始化請求URL列表，並指定下載後處
理response的回撥函式。
2. 在parse回撥中解析response並返回字典,Item
物件,Request物件或它們的迭代物件。
3 .在回撥函式裡面，使用選擇器解析頁面內容
，並生成解析後的結果Item。
4. 最後返回的這些Item通常會被持久化到資料庫
中(使用Item Pipeline)或者使用Feed exports將
其儲存到檔案中。

標準專案結構例項：

1.items結構：定義變數，根據不同種資料結構定義

2.spider結構中引入item裡面，並作填充item

3。pipline去清洗，驗證，存入資料庫，過濾等等後續處理

Item Pipeline常用場景
 清理HTML資料
 驗證被抓取的資料(檢查item是否包含某些欄位)
 重複性檢查(然後丟棄)
 將抓取的資料儲存到資料庫中

4.Scrapy元件Item Pipeline

經常會實現以下的方法：
 open_spider(self, spider) 蜘蛛開啟的時執行
 close_spider(self, spider) 蜘蛛關閉時執行
 from_crawler(cls, crawler) 可訪問核心元件比如配置和
訊號，並註冊鉤子函式到Scrapy中

pipeline真正處理邏輯

定義一個Python類，實現方法process_item(self, item,
spider)即可，返回一個字典或Item，或者丟擲DropItem
異常丟棄這個Item。

5.settings中定義哪種型別的pipeline

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

相關文章

python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python爬蟲知識點二
2017-11-16
Python爬蟲
Python爬蟲知識點一
2017-11-15
Python爬蟲
Python scrapy爬蟲框架簡介
2017-04-06
Python爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
Python網路爬蟲（六） Scrapy框架
2018-01-16
Python爬蟲框架
Python 爬蟲 (六) -- Scrapy 框架學習
2017-08-28
Python爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
【Python | 邊學邊敲邊記】第四次：初識爬蟲框架Scrapy
2018-10-12
Python爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Scrapy 示例 —— Web 爬蟲框架
2016-01-26
Web爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
python爬蟲框架scrapy例項詳解
2013-08-14
Python爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python3爬蟲知識點總結
2017-10-25
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲知識梳理
2017-09-21
Python爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python相關爬蟲的框架有哪些?Python知識
2020-09-24
Python爬蟲框架
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲-用Scrapy框架實現漫畫的爬取
2016-12-30
Python爬蟲框架
Python爬蟲學習線路圖丨Python爬蟲需要掌握哪些知識點
2018-12-10
Python爬蟲
第三篇：爬蟲框架 - Scrapy
2017-05-20
爬蟲框架
Python分散式爬蟲(三) - 爬蟲基礎知識
2019-03-21
Python分散式爬蟲
Python爬蟲之路-爬蟲基礎知識(理論)
2021-01-04
Python爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲實戰-使用Scrapy框架爬取土巴兔(一)
2017-03-18
Python爬蟲框架
scrapy爬蟲
2012-05-09
爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲