網路爬蟲：使用Scrapy框架編寫一個抓取書籍資訊的爬蟲服務

發表於2016-09-05

原文網址 : http://python.jobbole.com/86296/

爬蟲框架

上週學習了BeautifulSoup的基礎知識並用它完成了一個網路爬蟲（使用Beautiful Soup編寫一個爬蟲系列隨筆彙總），

BeautifulSoup是一個非常流行的Python網路抓取庫，它提供了一個基於HTML結構的Python物件。
雖然簡單易懂，又能非常好的處理HTML資料，
但是相比Scrapy而言，BeautifulSoup有一個最大的缺點：慢。

Scrapy 是一個開源的 Python 資料抓取框架，速度快，強大，而且使用簡單。
來看一個官網主頁上的簡單並完整的爬蟲：

雖然只有10行左右的程式碼，但是它的確是一個完整的爬蟲服務：

當執行scrapy runspider xxx.py命令的時候， Scrapy在專案裡查詢Spider(蜘蛛?️)並通過爬蟲引擎來執行它。
首先從定義在start_urls裡的URL開始發起請求，然後通過parse()方法處理響應。response引數就是返回的響應物件。
在parse()方法中，通過一個CSS選擇器獲取想要抓取的資料。

Scrapy所有的請求都是非同步的：

也就是說Scrapy不需要等一個請求完成才能處理下一條請求，而是同時發起另一條請求。
而且，非同步請求的另一個好處是當某個請求失敗了，其他的請求不會受到影響。

安裝(Mac)

pip install scrapy

1	pip install scrapy

其他作業系統請參考完整安裝指導：
http://doc.scrapy.org/en/latest/intro/install.html

Scrapy中幾個需要了解的概念

Spiders

Spider類想要表達的是：如何抓取一個確定了的網站的資料。比如在start_urls裡定義的去哪個連結抓取，parse()方法中定義的要抓取什麼樣的資料。
當一個Spider開始執行的時候，它首先從start_urls()中的第一個連結開始發起請求，然後在callback裡處理返回的資料。

Items

Item類提供格式化的資料，可以理解為資料Model類。

Selectors

Scrapy的Selector類基於lxml庫，提供HTML或XML轉換功能。以response物件作為引數生成的Selector例項即可通過例項物件的xpath()方法獲取節點的資料。

編寫一個Web爬蟲

接下來將上一個Beautiful Soup版的抓取書籍資訊的例子（使用Beautiful Soup編寫一個爬蟲系列隨筆彙總）改寫成Scrapy版本。

新建專案

scrapy startproject book_project

1	scrapy startproject book_project

這行命令會建立一個名為book_project的專案。

編寫Item類

即實體類，程式碼如下：

import scrapy

class BookItem(scrapy.Item):
    title = scrapy.Field()
    isbn = scrapy.Field()
    price = scrapy.Field()

import scrapy

class BookItem(scrapy.Item):

title = scrapy.Field()

isbn = scrapy.Field()

price = scrapy.Field()

編寫Spider類

設定這個Spider的名稱，允許爬取的域名和從哪個連結開始：

class BookInfoSpider(scrapy.Spider):
    name = "bookinfo"
    allowed_domains = ["allitebooks.com", "amazon.com"]
    start_urls = [
        "http://www.allitebooks.com/security/",
    ]

class BookInfoSpider(scrapy.Spider):

name = "bookinfo"

allowed_domains = ["allitebooks.com", "amazon.com"]

start_urls = [

"http://www.allitebooks.com/security/",

]

遍歷分頁資料

def parse(self, response):
    # response.xpath('//a[contains(@title, "Last Page →")]/@href').re(r'(\d+)')[0]
    num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())
    base_url = "http://www.allitebooks.com/security/page/{0}/"
    for page in range(1, num_pages):
        yield scrapy.Request(base_url.format(page), dont_filter=True, callback=self.parse_page)

def parse(self, response):

# response.xpath('//a[contains(@title, "Last Page →")]/@href').re(r'(\d+)')[0]

num_pages = int(response.xpath('//a[contains(@title, "Last Page →")]/text()').extract_first())

base_url = "http://www.allitebooks.com/security/page/{0}/"

for page in range(1, num_pages):

yield scrapy.Request(base_url.format(page), dont_filter=True, callback=self.parse_page)

從allitebooks.com獲取書籍資訊方法

def parse_page(self, response):
    for sel in response.xpath('//div/article'):
        book_detail_url = sel.xpath('div/header/h2/a/@href').extract_first()
        yield scrapy.Request(book_detail_url, callback=self.parse_book_info)

def parse_book_info(self, response):
    title = response.css('.single-title').xpath('text()').extract_first()
    isbn = response.xpath('//dd[2]/text()').extract_first()
    item = BookItem()
    item['title'] = title
    item['isbn'] = isbn
    amazon_search_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn
    yield scrapy.Request(amazon_search_url, callback=self.parse_price, meta={ 'item': item })

def parse_page(self, response):

for sel in response.xpath('//div/article'):

book_detail_url = sel.xpath('div/header/h2/a/@href').extract_first()

yield scrapy.Request(book_detail_url, callback=self.parse_book_info)

def parse_book_info(self, response):

title = response.css('.single-title').xpath('text()').extract_first()

isbn = response.xpath('//dd[2]/text()').extract_first()

item = BookItem()

item['title'] = title

item['isbn'] = isbn

amazon_search_url = 'https://www.amazon.com/s/ref=nb_sb_noss?url=search-alias%3Daps&field-keywords=' + isbn

yield scrapy.Request(amazon_search_url, callback=self.parse_price, meta={ 'item': item })

‘//a’的意思所有的a標籤；
‘//a[contains(@title, “Last Page →”)’ 的意思是在所有的a標籤中，title屬性包涵”Last Page →”的a標籤；
extract() 方法解析並返回符合條件的節點資料。

從amazon.com獲取書籍價格方法

def parse_price(self, response):
    item = response.meta['item']
    item['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]
    yield item

def parse_price(self, response):

item = response.meta['item']

item['price'] = response.xpath('//span/text()').re(r'\$[0-9]+\.[0-9]{2}?')[0]

yield item

啟動服務

scrapy crawl bookinfo -o books.csv

1	scrapy crawl bookinfo -o books.csv

-o books.csv 引數的意思是將抓取的Item集合輸出到csv檔案。

除了CSV格式，Scrapy還支援JSON，XML的格式輸入。具體請參考：
http://doc.scrapy.org/en/latest/topics/feed-exports.html#topics-feed-exports

結果：

完整程式碼請移步GitHub：
https://github.com/backslash112/book_scraper_scrapy
我們處於大資料時代，對資料處理感興趣的朋友歡迎檢視另一個系列隨筆：
利用Python進行資料分析基礎系列隨筆彙總

python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
使用python的scrapy來編寫一個爬蟲
2019-03-14
Python爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
使用 Kotlin DSL 編寫網路爬蟲
2024-03-26
Kotlin爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
如何自己寫一個網路爬蟲
2020-02-27
爬蟲
爬蟲app資訊抓取之apk反編譯抓取
2019-05-10
爬蟲APPAPK編譯
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
Python 爬蟲（六）：使用 Scrapy 爬取去哪兒網景區資訊
2019-10-20
Python爬蟲
我的第一個 scrapy 爬蟲
2019-02-16
爬蟲
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
編寫一個使用wreq庫的爬蟲程式
2023-11-23
爬蟲
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲利器Pyppeteer的介紹和使用爬取京東商城書籍資訊
2020-09-22
爬蟲
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
手把手教你寫網路爬蟲（3）：開源爬蟲框架對比
2018-04-28
爬蟲框架
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Python爬蟲教程+書籍分享
2018-11-29
Python爬蟲
python爬蟲抓取哈爾濱天氣資訊（靜態爬蟲）
2020-04-05
Python爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
.NET使用分散式網路爬蟲框架DotnetSpider快速開發爬蟲功能
2023-12-08
分散式爬蟲框架IDE
如何編寫一個Perl爬蟲程式
2023-11-14
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁