scrapy工作流程和每個模組的具體作用

賈富程發表於2018-12-19

原文網址 : https://juejin.im/post/5c1a0b52e51d45368b565768

其流程可以描述如下：

爬蟲中起始的url構造成request物件-->爬蟲中介軟體-->引擎-->排程器
排程器把request-->引擎-->下載中介軟體--->下載器
下載器傳送請求，獲取response響應---->下載中介軟體---->引擎--->爬蟲中介軟體--->爬蟲
爬蟲提取url地址，組裝成request物件---->爬蟲中介軟體--->引擎--->排程器，重複步驟2
爬蟲提取資料--->引擎--->管道處理和儲存資料

注意：

爬蟲中介軟體和下載中介軟體只是執行邏輯的位置不同，作用是重複的：如替換UA等

小結

scrapy的概念：Scrapy是一個為了爬取網站資料，提取結構性資料而編寫的應用框架
scrapy框架的執行流程以及資料傳遞過程：
1. 爬蟲中起始的url構造成request物件-->爬蟲中介軟體-->引擎-->排程器
2. 排程器把request-->引擎-->下載中介軟體--->下載器
3. 下載器傳送請求，獲取response響應---->下載中介軟體---->引擎--->爬蟲中介軟體--->爬蟲
4. 爬蟲提取url地址，組裝成request物件---->爬蟲中介軟體--->引擎--->排程器，重複步驟2
5. 爬蟲提取資料--->引擎--->管道處理和儲存資料
scrapy框架的作用：通過少量程式碼實現快速抓取
掌握scrapy中每個模組的作用：引擎(engine)：負責資料和訊號在不腰痛模組間的傳遞排程器(scheduler)：實現一個佇列，存放引擎發過來的request請求物件下載器(downloader)：傳送引擎發過來的request請求，獲取響應，並將響應交給引擎爬蟲(spider)：處理引擎發過來的response，提取資料，提取url，並交給引擎管道(pipeline)：處理引擎傳遞過來的資料，比如儲存下載中介軟體(downloader middleware)：可以自定義的下載擴充套件，比如設定代理ip 爬蟲中介軟體(spider middleware)：可以自定義request請求和進行response過濾，與下載中介軟體作用重複

每週一個 Python 模組 | copy
2019-03-03
Python
每週一個 Python 模組 | functools
2018-11-12
Python
每週一個 Python 模組 | json
2019-04-01
PythonJSON
每週一個 Python 模組 | string
2019-03-03
Python
每週一個 Python 模組 | socket
2019-01-03
Python
每週一個 Python 模組 | heapq
2018-12-11
Python
每週一個 Python 模組 | enum
2018-12-09
Python
每週一個 Python 模組 | itertools
2018-11-15
Python
每週一個 Python 模組 | time
2019-03-04
Python
每週一個 Python 模組 | bisect
2018-12-13
Python
每週一個 Python 模組 | Queue
2018-12-14
Python
每週一個 Python 模組 | struct
2018-12-17
PythonStruct
每週一個 Python 模組 | signal
2018-12-07
Python
每週一個 Python 模組 | unittest
2018-11-28
Python
每週一個 Python 模組 | linecache
2019-03-09
Python
每週一個 Python 模組 | pathlib
2019-02-11
Python
每週一個 Python 模組 | hashlib
2019-02-01
Python
每週一個 Python 模組 | glob
2019-01-30
Python
每週一個 Python 模組 | contextlib
2019-03-03
PythonContext
每週一個 Python 模組 | fnmatch
2019-02-18
Python
每週一個 Python 模組 | ipaddress
2018-12-25
PythoniPad
scrapy 使用的基本流程和例子
2018-08-02
iOS應用模組化的思考及落地方案（一）模組的劃分及模組化工作流程
2019-04-28
iOS
每週一個 Python 模組 | os.path
2019-01-28
Python
Java開發中操作日誌的作用和模組
2024-09-30
Java
FMEA有什麼具體的作用？
2022-07-20
Python爬蟲：流程框架和常用模組
2021-09-11
Python爬蟲框架
測試用例怎麼關聯到具體的業務模組和具體前端頁面以及後端介面上
2024-04-01
前端後端
核心模組的載入流程
2022-02-20
APP開發具體流程
2019-04-19
APP
軌跡聯邦用到的具體公式 + 軌跡模組的設計
2024-11-10
公式
中介軟體和Auth模組
2024-03-28
企業戰略的具體作用有哪些？
2020-05-12
Scrapy原始碼閱讀分析_1_整體框架和流程介紹
2019-02-19
原始碼框架
LCM模組生產流程
2021-01-03
工作流自定義表單掛靠流程模組設計方案
2021-12-23
RK3399主機板點LVDS屏的原理和具體流程
2020-10-21
OA軟體中人力資源管理模組在企業中的具體應用？
2020-02-26

scrapy工作流程和每個模組的具體作用

其流程可以描述如下：

注意：

小結

相關文章