關於爬蟲平臺的架構實現和框架的選型(二)--scrapy的內部實現以及實時爬蟲的實現

張永清發表於2019-07-16

我們接著關於爬蟲平臺的架構實現和框架的選型(一)繼續來講爬蟲框架的架構實現和框架的選型。   
前面介紹了scrapy的基本操作，下面介紹下scrapy爬蟲的內部實現架構如下圖

1、Spiders(爬蟲):它負責處理所有Responses,從中分析提取資料，獲取Item欄位需要的資料，並將需要跟進的URL提交給引擎，再次進入Scheduler(排程器)

2、Engine(引擎)：負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊，訊號、資料傳遞等。

3、Scheduler(排程器)：它負責接受引擎傳送過來的Request請求，並按照一定的方式進行整理排列，入隊，當引擎需要時，交還給引擎。

4、Downloader(下載器)：負責下載Scrapy Engine(引擎)傳送的所有Requests請求，並將其獲取到的Responses交還給Scrapy Engine(引擎)，由引擎交給Spider來處理

5、ItemPipeline(管道):它負責處理Spider中獲取到的Item，並進行進行後期處理（詳細分析、過濾、儲存等）的地方.

6、Downloader Middlewares（下載中介軟體）：你可以當作是一個可以自定義擴充套件下載功能的元件。

7、Spider Middlewares（Spider中介軟體）：你可以理解為是一個可以自定擴充套件和操作引擎和Spider中間通訊的功能元件（比如進入Spider的Responses;和從Spider出去的Requests）。

Scrapy 爬蟲整過處理的過程如下：

每一個用scrapy建立的爬蟲專案都會生成一個middlewares.py檔案，在這個檔案中定義了兩個處理中介軟體SpiderMiddleware和DownloaderMiddleware，這兩個中介軟體分別負責請求前的過濾和請求後的response過濾。

上面介紹了基於scrapy的非同步爬蟲，下面介紹一下實時爬蟲，也就是爬蟲資料實時返回。

我們可以用requests+BeautifulSoup來進行實現。

Requests負責網頁的請求，BeautifulSoup負責對請求完的網頁進行網頁解析。

下面的程式碼是一個爬取應用寶中理財類APP的名稱的爬蟲程式碼實現

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import time
class SyncCrawlSjqq(object):
    def parser(self,url):
        req = requests.get(url)
        soup = BeautifulSoup(req.text,"lxml")
        name_list = soup.find(class_='app-list clearfix')('li')
        names=[]
        for name in name_list:
            app_name = name.find('a',class_="name ofh").text
            names.append(app_name)
        return names
if __name__ == '__main__':
    syncCrawlSjqq = SyncCrawlSjqq()
    t1 = time.time()
    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"
    print(syncCrawlSjqq.parser(url))
    t2 = time.time()
    print('一般方法，總共耗時：%s' % (t2 - t1))

執行結果如下

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqq.py

['宜人貸借款', '大智慧', '中國建設銀行', '同花順手機炒股股票軟體', '隨手記理財記賬', '平安金管家', '翼支付', '第一理財', '平安普惠', '51信用卡管家', '借貸寶', '卡牛信用管家', '省唄', '平安口袋銀行', '拍拍貸借款', '簡理財', '中國工商銀行', 'PPmoney出借', '360借條', '京東金融', '招商銀行', '雲閃付', '騰訊自選股（騰訊官方炒股軟體）', '鑫格理財', '中國銀行手機銀行', '風車理財', '招商銀行掌上生活', '360貸款導航', '農行掌上銀行', '現金巴士', '趣花分期', '挖財記賬', '閃銀', '極速現金俠', '小花錢包', '閃電借款', '光速貸款', '借花花貸款', '捷信金融', '分期樂']

一般方法，總共耗時：0.3410000801086426

Process finished with exit code 0

我們可以採用flask web 框架對上面的方法做一個http 服務，然後上面的爬蟲就變成了http爬蟲服務了。呼叫http服務後，服務實時返回爬取的資料給http請求呼叫方。

併發方法可以使用多執行緒來加速一般方法，我們使用的併發模組為concurrent.futures模組，設定多執行緒的個數為20個（實際不一定能達到，視計算機而定）。實現的示例程式碼如下：

# -*- coding: utf-8 -*-
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED

import requests
from bs4 import BeautifulSoup
import time
class SyncCrawlSjqqMultiProcessing(object):
    def parser(self,url):
        req = requests.get(url)
        soup = BeautifulSoup(req.text,"lxml")
        name_list = soup.find(class_='app-list clearfix')('li')
        names=[]
        for name in name_list:
            app_name = name.find('a',class_="name ofh").text
            names.append(app_name)
        return names
if __name__ == '__main__':
    url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114"
    executor = ThreadPoolExecutor(max_workers=20)
    syncCrawlSjqqMultiProcessing = SyncCrawlSjqqMultiProcessing()
    t1 = time.time()
    future_tasks=[executor.submit(print(syncCrawlSjqqMultiProcessing.parser(url)))]
    wait(future_tasks, return_when=ALL_COMPLETED)
    t2 = time.time()
    print('一般方法，總共耗時：%s' % (t2 - t1))

執行結果如下：

D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqqMultiProcessing.py

一般方法，總共耗時：0.3950002193450928

Process finished with exit code 0

比如單執行緒執行，多執行緒在爬蟲時明顯會要快很多。

關於爬蟲平臺的架構實現和框架的選型(一)
2019-07-16
爬蟲架構框架
打造高效的分散式爬蟲系統：利用Scrapy框架實現
2023-10-12
分散式爬蟲框架
python的爬蟲功能如何實現
2019-02-28
Python爬蟲
Python爬蟲是如何實現的？
2022-07-15
Python爬蟲
Python爬蟲的兩套解析方法和四種爬蟲實現
2018-07-03
Python爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python 爬蟲IP代理池的實現
2018-12-17
Python爬蟲
基於 ZooKeeper 實現爬蟲叢集的監控
2021-09-09
爬蟲
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Disruptor 實踐：整合到現有的爬蟲框架
2018-12-05
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Python之分散式爬蟲的實現步驟
2018-08-29
Python分散式爬蟲
爬蟲的實現原理和技術進行講解
2023-11-28
爬蟲
python 爬蟲實現增量去重和定時爬取例項
2020-03-06
Python爬蟲
nodejs + koa2 實現爬蟲
2019-02-16
NodeJS爬蟲
python實現selenium網路爬蟲
2021-03-11
Python爬蟲
java實現一個簡單的爬蟲小程式
2020-08-11
Java爬蟲
爬蟲——爬取貴陽房價（Python實現）
2022-02-09
爬蟲Python
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
多執行緒爬蟲實現（上）
2018-05-26
執行緒爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
為爬蟲框架構建Selenium模組、DSL模組(Kotlin實現)
2018-06-12
爬蟲框架架構Kotlin
實用爬蟲-01-檢測爬蟲的 IP
2018-09-08
爬蟲
Python實現微博爬蟲，爬取新浪微博
2020-12-14
Python爬蟲
大規模非同步新聞爬蟲的實現思路
2019-05-20
非同步爬蟲
python 爬蟲實戰的原理
2021-10-29
Python爬蟲
Python爬蟲教程-05-python爬蟲實現百度翻譯
2018-09-06
Python爬蟲
Python爬蟲教程-06-爬蟲實現百度翻譯(requests)
2018-09-06
Python爬蟲
實戰 | 用aiohttp和uvloop實現一個高效能爬蟲
2018-04-10
AIHTTPOOP爬蟲
爬蟲實現：根據IP地址反查域名
2019-04-13
爬蟲
python爬蟲簡單實現逆向JS解密
2019-08-29
Python爬蟲JS解密
python爬蟲實現成語接龍1.0
2020-10-06
Python爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
golang實現併發爬蟲三(用佇列排程器實現）
2020-04-24
Golang爬蟲佇列
如何學習 Python 包並實現基本的爬蟲過程
2023-11-28
Python爬蟲
大規模非同步新聞爬蟲的分散式實現
2019-06-10
非同步爬蟲分散式
爬蟲程式實現過程中的一些建議
2021-08-12
爬蟲

關於爬蟲平臺的架構實現和框架的選型(二)--scrapy的內部實現以及實時爬蟲的實現

相關文章