Python 爬蟲 (六) -- Scrapy 框架學習

發表於2017-08-28

本文希望達到以下目標:

  1. 簡要介紹Scarpy
  2. 閱讀官網入門文件並實現文件中的範例
  3. 使用Scarpy優豆瓣爬蟲的抓取
  4. 制定下一步學習目標

初學Scrapy, 如有翻譯不當, 或者程式碼錯誤, 請指出, 非常感謝

1. Scrapy簡介


Scrapy是一個為了爬取網站資料,提取結構性資料而編寫的應用框架。 可以應用在包括資料探勘,資訊處理或儲存歷史資料等一系列的程式中。
其最初是為了頁面抓取 (更確切來說, 網路抓取 )所設計的, 也可以應用在獲取API所返回的資料(例如 Amazon Associates Web Services ) 或者通用的網路爬蟲。Scrapy用途廣泛,可以用於資料探勘、監測和自動化測試

Scrapy 使用了 Twisted非同步網路庫來處理網路通訊。整體架構大致如下

Scrapy Architecture

Scrapy

Scrapy主要包括了以下元件:

  • 引擎(Scrapy): 用來處理整個系統的資料流處理, 觸發事務(框架核心)
  • 排程器(Scheduler): 用來接受引擎發過來的請求, 壓入佇列中, 並在引擎再次請求的時候返回. 可以想像成一個URL(抓取網頁的網址或者說是連結)的優先佇列, 由它來決定下一個要抓取的網址是什麼, 同時去除重複的網址
  • 下載器(Downloader): 用於下載網頁內容, 並將網頁內容返回給蜘蛛(Scrapy下載器是建立在twisted這個高效的非同步模型上的)
  • 爬蟲(Spiders): 爬蟲是主要幹活的, 用於從特定的網頁中提取自己需要的資訊, 即所謂的實體(Item)。使用者也可以從中提取出連結,讓Scrapy繼續抓取下一個頁面
  • 專案管道(Pipeline): 負責處理爬蟲從網頁中抽取的實體,主要的功能是持久化實體、驗證實體的有效性、清除不需要的資訊。當頁面被爬蟲解析後,將被髮送到專案管道,並經過幾個特定的次序處理資料。
  • 下載器中介軟體(Downloader Middlewares): 位於Scrapy引擎和下載器之間的框架,主要是處理Scrapy引擎與下載器之間的請求及響應。
  • 爬蟲中介軟體(Spider Middlewares): 介於Scrapy引擎和爬蟲之間的框架,主要工作是處理蜘蛛的響應輸入和請求輸出。
  • 排程中介軟體(Scheduler Middewares): 介於Scrapy引擎和排程之間的中介軟體,從Scrapy引擎傳送到排程的請求和響應。

Scrapy執行流程大概如下:

  1. 首先,引擎從排程器中取出一個連結(URL)用於接下來的抓取
  2. 引擎把URL封裝成一個請求(Request)傳給下載器,下載器把資源下載下來,並封裝成應答包(Response)
  3. 然後,爬蟲解析Response
  4. 若是解析出實體(Item),則交給實體管道進行進一步的處理。
  5. 若是解析出的是連結(URL),則把URL交給Scheduler等待抓取

2. 安裝Scrapy


使用以下命令:

更多虛擬環境的操作可以檢視我的博文

3. Scrapy Tutorial


在抓取之前, 你需要新建一個Scrapy工程. 進入一個你想用來儲存程式碼的目錄,然後執行:

這個命令會在當前目錄下建立一個新目錄 tutorial, 它的結構如下:

這些檔案主要是:

  • scrapy.cfg: 專案配置檔案
  • tutorial/: 專案python模組, 之後您將在此加入程式碼
  • tutorial/items.py: 專案items檔案
  • tutorial/pipelines.py: 專案管道檔案
  • tutorial/settings.py: 專案配置檔案
  • tutorial/spiders: 放置spider的目錄

3.1. 定義Item

Items是將要裝載抓取的資料的容器,它工作方式像 python 裡面的字典,但它提供更多的保護,比如對未定義的欄位填充以防止拼寫錯誤。

通過建立scrapy.Item類, 並且定義型別為 scrapy.Field 的類屬性來宣告一個Item.

我們通過將需要的item模型化,來控制從 dmoz.org 獲得的站點資料,比如我們要獲得站點的名字,url 和網站描述,我們定義這三種屬性的域。在 tutorial 目錄下的 items.py 檔案編輯

3.2. 編寫Spider

Spider 是使用者編寫的類, 用於從一個域(或域組)中抓取資訊, 定義了用於下載的URL的初步列表, 如何跟蹤連結,以及如何來解析這些網頁的內容用於提取items。

要建立一個 Spider,繼承 scrapy.Spider 基類,並確定三個主要的、強制的屬性:

  • name:爬蟲的識別名,它必須是唯一的,在不同的爬蟲中你必須定義不同的名字.
  • start_urls:包含了Spider在啟動時進行爬取的url列表。因此,第一個被獲取到的頁面將是其中之一。後續的URL則從初始的URL獲取到的資料中提取。我們可以利用正規表示式定義和過濾需要進行跟進的連結。
  • parse():是spider的一個方法。被呼叫時,每個初始URL完成下載後生成的 Response 物件將會作為唯一的引數傳遞給該函式。該方法負責解析返回的資料(response data),提取資料(生成item)以及生成需要進一步處理的URL的 Request 物件。

這個方法負責解析返回的資料、匹配抓取的資料(解析為 item )並跟蹤更多的 URL。

在 /tutorial/tutorial/spiders 目錄下建立 dmoz_spider.py

3.3. 爬取

當前專案結構

到專案根目錄, 然後執行命令:

執行結果:

3.4. 提取Items

3.4.1. 介紹Selector

從網頁中提取資料有很多方法。Scrapy使用了一種基於 XPath 或者 CSS 表示式機制: Scrapy Selectors

出XPath表示式的例子及對應的含義:

  • /html/head/title: 選擇HTML文件中 標籤內的 元素
  • /html/head/title/text(): 選擇 元素內的文字
  • //td: 選擇所有的 元素
  • //div[@class=”mine”]: 選擇所有具有class=”mine” 屬性的 div 元素等

多強大的功能使用可以檢視XPath tutorial

為了方便使用 XPaths,Scrapy 提供 Selector 類, 有四種方法 :

  • xpath():返回selectors列表, 每一個selector表示一個xpath參數列達式選擇的節點.
  • css() : 返回selectors列表, 每一個selector表示CSS參數列達式選擇的節點
  • extract():返回一個unicode字串,該字串為XPath選擇器返回的資料
  • re(): 返回unicode字串列表,字串作為引數由正規表示式提取出來

3.4.2. 取出資料

首先使用谷歌瀏覽器開發者工具, 檢視網站原始碼, 來看自己需要取出的資料形式(這種方法比較麻煩), 更簡單的方法是直接對感興趣的東西右鍵審查元素, 可以直接檢視網站原始碼

在檢視網站原始碼後, 網站資訊在第二個內

那麼就可以通過一下方式進行提取資料

在已有的爬蟲檔案中修改程式碼

3.4.3. 使用item

Item物件是自定義的python字典,可以使用標準的字典語法來獲取到其每個欄位的值(欄位即是我們之前用Field賦值的屬性)

一般來說,Spider將會將爬取到的資料以 Item 物件返回, 最後修改爬蟲類,使用 Item 來儲存資料,程式碼如下

3.5. 使用Item Pipeline

當Item在Spider中被收集之後,它將會被傳遞到Item Pipeline,一些元件會按照一定的順序執行對Item的處理。

每個item pipeline元件(有時稱之為ItemPipeline)是實現了簡單方法的Python類。他們接收到Item並通過它執行一些行為,同時也決定此Item是否繼續通過pipeline,或是被丟棄而不再進行處理。

以下是item pipeline的一些典型應用:

  • 清理HTML資料
  • 驗證爬取的資料(檢查item包含某些欄位)
  • 查重(並丟棄)
  • 將爬取結果儲存,如儲存到資料庫、XML、JSON等檔案中

編寫你自己的item pipeline很簡單,每個item pipeline元件是一個獨立的Python類,同時必須實現以下方法:

為JSON檔案編寫一個items

在 settings.py 中設定ITEM_PIPELINES啟用item pipeline,其預設為[]

3.6. 儲存資料

使用下面的命令儲存為json檔案格式

4. Scarpy優化豆瓣爬蟲的抓取


主要針對之間寫過的豆瓣爬蟲進行重構:

豆瓣有反爬蟲機制, 只成功了一次後, 就被baned後顯示403了, 下面說一下爬蟲結構

完整的豆瓣爬蟲程式碼連結

4.1. Item

4.2. Spider主程式

4.3. 未來要解決的問題

  • 頭部偽裝
  • 表單提交
  • 編碼轉換

豆瓣抓了一會兒, 還沒等我興奮就被禁掉了

ban

5. 參考連結


相關文章