scrapy五大核心元件和中介軟體以及UA池和代理池

Bound_w發表於2019-03-04

原文網址 : https://www.cnblogs.com/wqzn/p/10471435.html

元件

五大核心元件的工作流程

引擎(Scrapy)

用來處理整個系統的資料流處理, 觸發事務(框架核心)

排程器(Scheduler)

用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL（抓取網頁的網址或者說是連結）的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址

下載器(Downloader)

用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)

爬蟲(Spiders)

爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面，會產生一個或者一批url

專案管道(Pipeline)

負責處理爬蟲從網頁中抽取的實體，主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後，將被髮送到專案管道，並經過幾個特定的次序處理資料。

Spiders將url封裝成請求物件傳遞給引擎，引擎將接受到的物件傳遞給排程器，排程器將重重複的請求物件去重利用過濾器的類過濾，然後將過濾完成之後的請求物件存到佇列中。排程器再將請求物件傳遞給引擎，然後引擎再將請求物件給下載器，下載器接收到請求物件然後從網際網路上下載，網際網路將響應物件給下載器，下載器再將響應物件傳遞給引擎，引擎再將響應物件給spider中的回撥方法的response，然後對資料進行解析，然後將解析的物件封裝到item物件中，然後給引擎，引擎提交管道，管道收到items之後,呼叫parse_items方法，將資料進行持久化的儲存

Downloader Middlewares

middlewares.py

class MiddleproDownloaderMiddleware(object):
　　#UA
    user_agent_list = [
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
        "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 "
        "(KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 "
        "(KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 "
        "(KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 "
        "(KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
        "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 "
        "(KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
        "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
        "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 "
        "(KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
    ]
    # 可被選用的代理IP
    PROXY_http = [
        '153.180.102.104:80',
        '195.208.131.189:56055',
    ]
    PROXY_https = [
        '120.83.49.90:9000',
        '95.189.112.214:35508',
    ]
    # Not all methods need to be defined. If a method is not defined,
    # scrapy acts as if the downloader middleware does not modify the
    # passed objects.

    @classmethod
    def from_crawler(cls, crawler):#例項化生成中介軟體物件
        # This method is used by Scrapy to create your spiders.
        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):#攔截所有正常的請求
        # Called for each request that goes through the downloader
        # middleware.

        # Must either:
        # - return None: continue processing this request
        # - or return a Response object
        # - or return a Request object
        # - or raise IgnoreRequest: process_exception() methods of
        #   installed downloader middleware will be called
        # 使用UI池進行對請求的UI偽裝
        print('this is process_request')
        request.headers['User-Agent'] = random.choice(self.user_agent_list)
        print(request.headers['User-Agent'])
        return None

    def process_response(self, request, response, spider):#攔截所有的響應
        # Called with the response returned from the downloader.

        # Must either;
        # - return a Response object
        # - return a Request object
        # - or raise IgnoreRequest
        return response

    def process_exception(self, request, exception, spider):#攔截到發生異常的請求
        # Called when a download handler or a process_request()
        # (from other downloader middleware) raises an exception.

        # Must either:
        # - return None: continue processing this exception
        # - return a Response object: stops process_exception() chain
        # - return a Request object: stops process_exception() chain
        if request.url.split(":")[0] == 'http':
            request.meta['proxy'] = random.choice(self.PROXY_http)
        else:
            request.meta['proxy'] = random.choice(self.PROXY_https)

    def spider_opened(self, spider):#日誌列印
        spider.logger.info('Spider opened: %s' % spider.name)

scrapy爬蟲代理池
2018-08-28
爬蟲
MySQL中介軟體之ProxySQL(5)：執行緒、執行緒池、連線池
2018-07-09
MySql執行緒
Python代理IP的使用和代理池的設定
2022-12-10
Python
"什麼是海外代理IP池？共享IP池和獨享IP池有什麼不同？"
2023-05-12
014-活該你爬蟲被封之Scrapy Ip代理中介軟體
2019-04-02
爬蟲
Django元件---Django請求生命週期和中介軟體
2018-12-21
Django元件
徹底搞懂Scrapy的中介軟體（二）
2018-11-20
徹底搞懂Scrapy的中介軟體（一）
2018-11-19
python爬蟲常用之Scrapy 中介軟體
2018-12-22
Python爬蟲
徹底搞懂Scrapy的中介軟體（三）
2019-03-03
IPIDEA講述代理IP以及代理IP池的概念是什麼
2023-04-08
Idea
如何管理代理池？
2022-05-11
Proxypool代理池搭建
2021-10-19
爬蟲筆記：提高資料採集效率！代理池和執行緒池的使用
2022-02-13
爬蟲筆記執行緒
python的小資料池 is和== 以及再談編碼
2018-12-04
Python
中介軟體和Auth模組
2024-03-28
中介軟體理解和誤區
2021-03-26
python 爬蟲代理池
2019-03-09
Python爬蟲
聊聊 Redux 和 Koa 的中介軟體
2019-03-04
Redux
資料訪問連線池和執行緒池
2024-09-08
執行緒
[嵌入式linux] rk3568+rk809+sc8886 +linux 電池核心配置和電池曲線圖
2022-06-11
Linux
Day14 session原理和中介軟體
2020-10-23
Session
執行緒池和Executor框架
2019-03-07
執行緒框架
執行緒池以及四種常見執行緒池
2018-08-07
執行緒
代理Ip池構建及使用
2019-01-16
爬蟲之代理池維護
2018-08-18
爬蟲
如何建立爬蟲代理ip池
2019-04-25
爬蟲
為什麼要使用代理池？
2021-11-19
爬蟲如何使用ip代理池
2021-09-11
爬蟲
理解Laravel中介軟體核心實現原理
2022-09-20
Laravel
Batteries for Mac(電池電量管理軟體)
2021-10-24
BATMac
Redux 進階 -- 編寫和使用中介軟體
2018-04-23
Redux
day13 cookie與session和中介軟體
2021-12-08
CookieSession
SpringBoot執行緒池和Java執行緒池的實現原理
2023-04-11
Spring Boot執行緒Java
spring和mybatis中的連線池和快取
2024-06-11
SpringMyBatis快取
執行緒和執行緒池
2019-03-04
執行緒
python中小資料池和編碼
2024-05-09
Python
影像的卷積和池化操作
2019-03-04
卷積

scrapy五大核心元件和中介軟體以及UA池和代理池

相關文章