Scrapy有什麼功能?架構有哪些?

老男孩IT教育機構發表於2021-03-02

  眾所周知,Python有很多框架可以使用,比如說Scrapy。它是一個適用於Python的一個快速、高層次的螢幕抓取和web抓取框架,用於抓取web站點並從網頁中提取結構化的資料,用途十分廣泛,那麼你知道Scrapy有什麼功能嗎?Scrapy的架構是什麼?

  Scrapy是一個適用抓取網站資料、提取結構性資料的應用程式框架,它可以應用在廣泛的領域,Scrapy常應用在包括資料探勘、資訊處理和儲存歷史資料等一系列的程式中,通常我們可以很簡單的透過Scrapy框架實現一個爬蟲,抓取指定網站的內容或圖片。

  Scrapy的架構有哪些?

  Scrapy Engine:負責Spider、itemPipeline、Downloader、Scheduler中間的通訊,資訊、資料傳遞等;

  Scheduler:負責接受引擎傳送過來的Request請求,並按照一定的方式進行整理排序,入隊,當引擎需要時,交還給引擎;

  Downloader:負責下載Scrapy Engine傳送的所有Requests請求,並將其獲取到的Responses交還給Scrapy Engine,由引擎交給Spider來處理;

  Spider:負責處理Responses,從中分析提取資料,獲取Item欄位需要的資料,並將需要跟進的URL提交給引擎,再次進入Scheduler;

  Item Pipeline:負責處理Spider中獲取的item,並進行後期處理的地方;

  Downloader Middlewares:一個可以自定義擴充套件下載功能的元件;

  Spider Middlewares:一個可以自定擴充套件和操作引擎和Spider中間通訊的功能元件。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69952527/viewspace-2760522/,如需轉載,請註明出處,否則將追究法律責任。

相關文章