Scrapy框架的架構原理解析

嗨，阿良發表於1-01-01

爬蟲框架——Scrapy

如果你對爬蟲的基礎知識有了一定了解的話，那麼是時候該瞭解一下爬蟲框架了。那麼為什麼要使用爬蟲框架？

學習框架的根本是學習一種程式設計思想，而不應該僅僅侷限於是如何使用它。從瞭解到掌握一種框架，其實是對一種思想理解的過程。
框架也給我們的開發帶來了極大的方便。許多條條框框都已經是寫好了的，並不需要我們重複造輪子，我們只需要根據自己的需求定製自己要實現的功能就好了，大大減少了工作量。
參考並學習優秀的框架程式碼，提升程式設計程式碼能力

scrapy框架的介紹

比較流行的爬蟲的框架有scrapy和pyspider，但是被大家所鍾愛的我想非scrapy莫屬了。scrapy是一個開源的高階爬蟲框架，我們可以稱它為"scrapy語言"。它使用python編寫，用於爬取網頁，提取結構性資料，並可將抓取得結構性資料較好的應用於資料分析和資料探勘。scrapy有以下的一些特點：

scrapy基於事件的機制，利用twisted的設計實現了非阻塞的非同步操作。這相比於傳統的阻塞式請求，極大的提高了CPU的使用率，以及爬取效率。
配置簡單，可以簡單地通過設定一行程式碼實現複雜功能。
可擴充，外掛豐富，比如分散式scrapy + redis、爬蟲視覺化等外掛。
解析方便易於使用，scrapy封裝了xpath等解析器，提供了更方便，更高階的selector構造器，可以有效的處理破損的HTML程式碼和編碼。

scrapy的架構

元件

引擎(Engine)
引擎負責控制資料流在系統中所有元件中流動，並在相應動作發生時觸發事件。詳細內容檢視下面的資料流(Data Flow)部分。

排程器(Scheduler)
排程器從引擎接受request並將他們入隊，以便之後引擎請求他們時提供給引擎。

下載器(Downloader)
下載器負責獲取頁面資料並提供給引擎，而後提供給spider。

爬蟲(Spiders)
Spider是Scrapy使用者編寫用於分析response並提取item(即獲取到的item)或額外跟進的URL的類。每個spider負責處理一個特定(或一些)網站。

專案管道(Item Pipeline)
Item Pipeline負責處理被spider提取出來的item。典型的處理有清理、驗證及持久化(例如存取到資料庫中)。

下載器中介軟體(Downloader middlewares)
下載器中介軟體是在引擎及下載器之間的特定鉤子(specific hook)，處理Downloader傳遞給引擎的response。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。

爬蟲中介軟體(Spider middlewares)
Spider中介軟體是在引擎及Spider之間的特定鉤子(specific hook)，處理spider的輸入(response)和輸出(items及requests)。其提供了一個簡便的機制，通過插入自定義程式碼來擴充套件Scrapy功能。

資料流過程

引擎開啟一個網站(open a domain)，找到處理該網站的Spider並向該spider請求第一個要爬取的URL(s)。
引擎從Spider中獲取到第一個要爬取的URL並在排程器(Scheduler)以Request排程。
引擎向排程器請求下一個要爬取的URL。
排程器返回下一個要爬取的URL給引擎，引擎將URL通過下載中介軟體(請求(request)方向)轉發給下載器(Downloader)。
一旦頁面下載完畢，下載器生成一個該頁面的Response，並將其通過下載中介軟體(返回(response)方向)傳送給引擎。
引擎從下載器中接收到Response並通過Spider中介軟體(輸入方向)傳送給Spider處理。
Spider處理Response並返回爬取到的Item及(跟進的)新的Request給引擎。
引擎將(Spider返回的)爬取到的Item給Item Pipeline，將(Spider返回的)Request給排程器。
(從第二步)重複直到排程器中沒有更多地request，引擎關閉該網站。

scrapy和requests+bs用哪個好？

這個根據自己方便來，requests + beautifulsoup當然可以了，requests + 任何解器式都行，都是非常好的合作。這樣用的有點是我們可以靈活地寫我們自己的程式碼，不必拘泥於固定模式。對於使用固定的框架有時候不一定用起來方便，比如scrapy對於反反爬處理並沒有很完善，好多時候也要自己來解決。

但是對於一些中小型的爬蟲任務來講，scrapy確實是非常好的選擇，它避免了我們來寫一些重複的程式碼，並且有著出色的效能。我們自己寫程式碼的時候，比如為了提高爬取效率，每次都自己碼多執行緒或非同步等程式碼，大大浪費了開發時間。這時候使用已經寫好的框架是再好不過的選擇了，我們只要簡單的寫寫解析規則和pipeline就好了。那麼具體哪些是需要我們做的呢？看看下面這個圖就明白了。

開源框架TLog核心原理架構解析
2021-03-29
框架架構
Scrapy框架-通過scrapy_splash解析動態渲染的資料
2018-07-13
框架
Tomcat 架構原理解析到架構設計借鑑
2020-12-05
Tomcat架構
Scrapy框架的使用之Scrapy框架介紹
2018-05-02
框架
帶你通透Netty原理之架構解析
2018-11-05
Netty架構
Sealos 基礎教程：Sealos Devbox 的架構原理解析
2024-11-04
dev架構
TiKV 新架構：Partitioned Raft KV 原理解析
2023-05-19
架構Raft
【Mybatis原始碼解析】- 整體架構及原理
2021-05-17
MyBatis原始碼架構
RocketMQ架構原理解析（三）：訊息索引
2021-12-10
MQ架構索引
Scrapy框架的使用之Scrapy入門
2018-05-02
框架
Scrapy框架
2023-03-29
框架
解析分散式應用框架Ray架構原始碼
2021-03-15
分散式框架架構原始碼
RocketMQ架構原理解析（二）：訊息儲存
2021-11-17
MQ架構
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy框架的使用之Scrapy對接Splash
2018-05-18
框架
Scrapy有什麼功能?架構有哪些？
2021-03-02
架構
這可能是目前最透徹的Netty原理架構解析
2018-11-05
Netty架構
微服務架構的核心要點和實現原理解析
2018-08-28
微服務架構
分散式架構原理解析，Java開發必修課
2019-04-23
分散式架構Java
Scrapy框架-Spider
2019-02-15
框架IDE
tomcat架構解析
2020-11-28
Tomcat架構
Scrapy架構及資料流圖簡介
2018-03-13
架構
Hadoop Yarn框架原理解析
2019-02-17
HadoopYarn框架
支付寶客戶端架構解析：iOS 容器化框架初探
2019-05-28
客戶端架構iOS框架
[原始碼解析] 並行分散式框架 Celery 之架構 (2)
2021-03-27
原始碼並行分散式框架架構
支付寶客戶端架構解析：Android 容器化框架初探
2018-10-30
客戶端架構Android框架
支付寶客戶端架構解析：Android容器化框架初探
2018-11-23
客戶端架構Android框架
RocketMQ架構原理解析（四）：訊息生產端（Producer）
2022-01-14
MQ架構
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
微服務架構技術棧：程式設計師必須掌握的微服務架構框架詳細解析
2021-07-17
微服務架構程式設計師框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Scrapy框架簡介
2019-01-06
框架
我的架構夢：（五十九） Apache Hadoop 架構與原理
2020-11-19
架構ApacheHadoop
activiti架構解析草稿
2024-06-18
架構
React Fiber架構原理
2022-06-16
React架構
storm 架構和原理
2022-07-09
ORM架構
Nginx 原理和架構
2020-01-20
Nginx架構