我們接著關於爬蟲平臺的架構實現和框架的選型(一)繼續來講爬蟲框架的架構實現和框架的選型。
前面介紹了scrapy的基本操作,下面介紹下scrapy爬蟲的內部實現架構如下圖
1、Spiders(爬蟲):它負責處理所有Responses,從中分析提取資料,獲取Item欄位需要的資料,並將需要跟進的URL提交給引擎,再次進入Scheduler(排程器)
2、Engine(引擎):負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊,訊號、資料傳遞等。
3、Scheduler(排程器):它負責接受引擎傳送過來的Request請求,並按照一定的方式進行整理排列,入隊,當引擎需要時,交還給引擎。
4、Downloader(下載器):負責下載Scrapy Engine(引擎)傳送的所有Requests請求,並將其獲取到的Responses交還給Scrapy Engine(引擎),由引擎交給Spider來處理
5、ItemPipeline(管道):它負責處理Spider中獲取到的Item,並進行進行後期處理(詳細分析、過濾、儲存等)的地方.
6、Downloader Middlewares(下載中介軟體):你可以當作是一個可以自定義擴充套件下載功能的元件。
7、Spider Middlewares(Spider中介軟體):你可以理解為是一個可以自定擴充套件和操作引擎和Spider中間通訊的功能元件(比如進入Spider的Responses;和從Spider出去的Requests)。
Scrapy 爬蟲整過處理的過程如下:
每一個用scrapy建立的爬蟲專案都會生成一個middlewares.py檔案,在這個檔案中定義了兩個處理中介軟體SpiderMiddleware和DownloaderMiddleware,這兩個中介軟體分別負責請求前的過濾和請求後的response過濾。
上面介紹了基於scrapy的非同步爬蟲,下面介紹一下實時爬蟲,也就是爬蟲資料實時返回。
我們可以用requests+BeautifulSoup來進行實現。
Requests負責網頁的請求,BeautifulSoup負責對請求完的網頁進行網頁解析。
下面的程式碼是一個爬取應用寶中理財類APP的名稱的爬蟲程式碼實現
# -*- coding: utf-8 -*- import requests from bs4 import BeautifulSoup import time class SyncCrawlSjqq(object): def parser(self,url): req = requests.get(url) soup = BeautifulSoup(req.text,"lxml") name_list = soup.find(class_='app-list clearfix')('li') names=[] for name in name_list: app_name = name.find('a',class_="name ofh").text names.append(app_name) return names if __name__ == '__main__': syncCrawlSjqq = SyncCrawlSjqq() t1 = time.time() url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114" print(syncCrawlSjqq.parser(url)) t2 = time.time() print('一般方法,總共耗時:%s' % (t2 - t1))
執行結果如下
D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqq.py
['宜人貸借款', '大智慧', '中國建設銀行', '同花順手機炒股股票軟體', '隨手記理財記賬', '平安金管家', '翼支付', '第一理財', '平安普惠', '51信用卡管家', '借貸寶', '卡牛信用管家', '省唄', '平安口袋銀行', '拍拍貸借款', '簡理財', '中國工商銀行', 'PPmoney出借', '360借條', '京東金融', '招商銀行', '雲閃付', '騰訊自選股(騰訊官方炒股軟體)', '鑫格理財', '中國銀行手機銀行', '風車理財', '招商銀行掌上生活', '360貸款導航', '農行掌上銀行', '現金巴士', '趣花分期', '挖財記賬', '閃銀', '極速現金俠', '小花錢包', '閃電借款', '光速貸款', '借花花貸款', '捷信金融', '分期樂']
一般方法,總共耗時:0.3410000801086426
Process finished with exit code 0
我們可以採用flask web 框架對上面的方法做一個http 服務,然後上面的爬蟲就變成了http爬蟲服務了。呼叫http服務後,服務實時返回爬取的資料給http請求呼叫方。
併發方法可以使用多執行緒來加速一般方法,我們使用的併發模組為concurrent.futures模組,設定多執行緒的個數為20個(實際不一定能達到,視計算機而定)。實現的示例程式碼如下:
# -*- coding: utf-8 -*- from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED import requests from bs4 import BeautifulSoup import time class SyncCrawlSjqqMultiProcessing(object): def parser(self,url): req = requests.get(url) soup = BeautifulSoup(req.text,"lxml") name_list = soup.find(class_='app-list clearfix')('li') names=[] for name in name_list: app_name = name.find('a',class_="name ofh").text names.append(app_name) return names if __name__ == '__main__': url = "https://sj.qq.com/myapp/category.htm?orgame=1&categoryId=114" executor = ThreadPoolExecutor(max_workers=20) syncCrawlSjqqMultiProcessing = SyncCrawlSjqqMultiProcessing() t1 = time.time() future_tasks=[executor.submit(print(syncCrawlSjqqMultiProcessing.parser(url)))] wait(future_tasks, return_when=ALL_COMPLETED) t2 = time.time() print('一般方法,總共耗時:%s' % (t2 - t1))
執行結果如下:
D:\python\Python3\python.exe D:/project/python/zj_scrapy/zj_scrapy/SyncCrawlSjqqMultiProcessing.py
['宜人貸借款', '大智慧', '中國建設銀行', '同花順手機炒股股票軟體', '隨手記理財記賬', '平安金管家', '翼支付', '第一理財', '平安普惠', '51信用卡管家', '借貸寶', '卡牛信用管家', '省唄', '平安口袋銀行', '拍拍貸借款', '簡理財', '中國工商銀行', 'PPmoney出借', '360借條', '京東金融', '招商銀行', '雲閃付', '騰訊自選股(騰訊官方炒股軟體)', '鑫格理財', '中國銀行手機銀行', '風車理財', '招商銀行掌上生活', '360貸款導航', '農行掌上銀行', '現金巴士', '趣花分期', '挖財記賬', '閃銀', '極速現金俠', '小花錢包', '閃電借款', '光速貸款', '借花花貸款', '捷信金融', '分期樂']
一般方法,總共耗時:0.3950002193450928
Process finished with exit code 0
比如單執行緒執行,多執行緒在爬蟲時明顯會要快很多。