python爬蟲框架scrapy例項詳解

pythontab發表於2013-08-14

Python爬蟲框架

生成專案

scrapy提供一個工具來生成專案，生成的專案中預置了一些檔案，使用者需要在這些檔案中新增自己的程式碼。

開啟命令列，執行：scrapy startproject tutorial，生成的專案類似下面的結構

tutorial/

scrapy.cfg

tutorial/

__init__.py

items.py

pipelines.py

settings.py

spiders/

__init__.py

...

scrapy.cfg是專案的配置檔案

使用者自己寫的spider要放在spiders目錄下面，一個spider類似

from scrapy.spider import BaseSpider
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        filename = response.url.split("/")[-2]
        open(filename, 'wb').write(response.body)

name屬性很重要，不同spider不能使用相同的name

start_urls是spider抓取網頁的起始點，可以包括多個url

parse方法是spider抓到一個網頁以後預設呼叫的callback，避免使用這個名字來定義自己的方法。

當spider拿到url的內容以後，會呼叫parse方法，並且傳遞一個response引數給它，response包含了抓到的網頁的內容，在parse方法裡，你可以從抓到的網頁裡面解析資料。上面的程式碼只是簡單地把網頁內容儲存到檔案。

開始抓取

你可以開啟命令列，進入生成的專案根目錄tutorial/，執行 scrapy crawl dmoz， dmoz是spider的name。

解析網頁內容

scrapy提供了方便的辦法從網頁中解析資料，這需要使用到HtmlXPathSelector

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
class DmozSpider(BaseSpider):
    name = "dmoz"
    allowed_domains = ["dmoz.org"]
    start_urls = [
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
        "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
    ]
    def parse(self, response):
        hxs = HtmlXPathSelector(response)
        sites = hxs.select('//ul/li')
        for site in sites:
            title = site.select('a/text()').extract()
            link = site.select('a/@href').extract()
            desc = site.select('text()').extract()
            print title, link, desc

HtmlXPathSelector使用了Xpath來解析資料

//ul/li表示選擇所有的ul標籤下的li標籤

a/@href表示選擇所有a標籤的href屬性

a/text()表示選擇a標籤文字

a[@href="abc"]表示選擇所有href屬性是abc的a標籤

我們可以把解析出來的資料儲存在一個scrapy可以使用的物件中，然後scrapy可以幫助我們把這些物件儲存起來，而不用我們自己把這些資料存到檔案中。我們需要在items.py中新增一些類，這些類用來描述我們要儲存的資料

from scrapy.item import Item, Field

class DmozItem(Item):

title = Field()

link = Field()

desc = Field()

然後在spider的parse方法中，我們把解析出來的資料儲存在DomzItem物件中。

from scrapy.spider import BaseSpider
from scrapy.selector import HtmlXPathSelector
from tutorial.items import DmozItem
class DmozSpider(BaseSpider):
   name = "dmoz"
   allowed_domains = ["dmoz.org"]
   start_urls = [
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
       "http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
   ]
   def parse(self, response):
       hxs = HtmlXPathSelector(response)
       sites = hxs.select('//ul/li')
       items = []
       for site in sites:
           item = DmozItem()
           item['title'] = site.select('a/text()').extract()
           item['link'] = site.select('a/@href').extract()
           item['desc'] = site.select('text()').extract()
           items.append(item)
       return items

在命令列執行scrapy的時候，我們可以加兩個引數，讓scrapy把parse方法返回的items輸出到json檔案中

scrapy crawl dmoz -o items.json -t json

items.json會被放在專案的根目錄

讓scrapy自動抓取網頁上的所有連結

上面的示例中scrapy只抓取了start_urls裡面的兩個url的內容，但是通常我們想實現的是scrapy自動發現一個網頁上的所有連結，然後再去抓取這些連結的內容。為了實現這一點我們可以在parse方法裡面提取我們需要的連結，然後構造一些Request物件，並且把他們返回，scrapy會自動的去抓取這些連結。程式碼類似：

class MySpider(BaseSpider):
    name = 'myspider'
    start_urls = (
        'http://example.com/page1',
        'http://example.com/page2',
        )
    def parse(self, response):
        # collect `item_urls`
        for item_url in item_urls:
            yield Request(url=item_url, callback=self.parse_item)
    def parse_item(self, response):
        item = MyItem()
        # populate `item` fields
        yield Request(url=item_details_url, meta={'item': item},
            callback=self.parse_details)
    def parse_details(self, response):
        item = response.meta['item']
        # populate more `item` fields
        return item

parse是預設的callback, 它返回了一個Request列表，scrapy自動的根據這個列表抓取網頁，每當抓到一個網頁，就會呼叫parse_item，parse_item也會返回一個列表，scrapy又會根據這個列表去抓網頁，並且抓到後呼叫parse_details

為了讓這樣的工作更容易，scrapy提供了另一個spider基類，利用它我們可以方便的實現自動抓取連結. 我們要用到CrawlSpider

from scrapy.contrib.linkextractors.sgml import SgmlLinkExtractor
class MininovaSpider(CrawlSpider):
    name = 'mininova.org'
    allowed_domains = ['mininova.org']
    start_urls = ['http://www.mininova.org/today']
    rules = [Rule(SgmlLinkExtractor(allow=['/tor/\d+'])),
             Rule(SgmlLinkExtractor(allow=['/abc/\d+']), 'parse_torrent')]
    def parse_torrent(self, response):
        x = HtmlXPathSelector(response)
        torrent = TorrentItem()
        torrent['url'] = response.url
        torrent['name'] = x.select("//h1/text()").extract()
        torrent['description'] = x.select("//div[@id='description']").extract()
        torrent['size'] = x.select("//div[@id='info-left']/p[2]/text()[2]").extract()
        return torrent

相比BaseSpider，新的類多了一個rules屬性，這個屬性是一個列表，它可以包含多個Rule，每個Rule描述了哪些連結需要抓取，哪些不需要。這是Rule類的文件http://doc.scrapy.org/en/latest/topics/spiders.html#scrapy.contrib.spiders.Rule

這些rule可以有callback，也可以沒有，當沒有callback的時候，scrapy簡單的follow所有這些連結.

pipelines.py的使用

在pipelines.py中我們可以新增一些類來過濾掉我們不想要的item，把item儲存到資料庫。

from scrapy.exceptions import DropItem
class FilterWordsPipeline(object):
    """A pipeline for filtering out items which contain certain words in their
    description"""
    # put all words in lowercase
    words_to_filter = ['politics', 'religion']
    def process_item(self, item, spider):
        for word in self.words_to_filter:
            if word in unicode(item['description']).lower():
                raise DropItem("Contains forbidden word: %s" % word)
        else:
            return item

如果item不符合要求，那麼就拋一個異常，這個item不會被輸出到json檔案中。

要使用pipelines，我們還需要修改settings.py

新增一行

ITEM_PIPELINES = ['dirbot.pipelines.FilterWordsPipeline']

現在執行scrapy crawl dmoz -o items.json -t json，不符合要求的item就被過濾掉了

python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
Scrapy爬蟲框架
2024-11-13
爬蟲框架
Python scrapy爬蟲框架簡介
2017-04-06
Python爬蟲框架
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
Python網路爬蟲（六） Scrapy框架
2018-01-16
Python爬蟲框架
Python 爬蟲 (六) -- Scrapy 框架學習
2017-08-28
Python爬蟲框架
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架
爬蟲代理 Scrapy 框架詳細介紹 2
2020-06-04
爬蟲框架
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
Scrapy 示例 —— Web 爬蟲框架
2016-01-26
Web爬蟲框架
爬蟲（14） - Scrapy-Redis分散式爬蟲(1) | 詳解
2022-07-06
爬蟲Redis分散式
python 爬蟲對 scrapy 框架的認識
2020-07-17
Python爬蟲框架
Python爬蟲 ---scrapy框架初探及實戰
2020-04-16
Python爬蟲框架
Python3爬蟲（十八） Scrapy框架（二）
2018-10-26
Python爬蟲框架
Python爬蟲知識點四--scrapy框架
2017-11-27
Python爬蟲框架
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
Python requests爬蟲例項
2017-06-21
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
Python爬蟲 --- 2.3 Scrapy 框架的簡單使用
2018-12-19
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲-用Scrapy框架實現漫畫的爬取
2016-12-30
Python爬蟲框架
【Python爬蟲9】Python網路爬蟲例項實戰
2017-02-17
Python爬蟲
第三篇：爬蟲框架 - Scrapy
2017-05-20
爬蟲框架
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲實戰-使用Scrapy框架爬取土巴兔(一)
2017-03-18
Python爬蟲框架
scrapy 框架新建一個爬蟲專案詳細步驟
2018-06-09
框架爬蟲
scrapy爬蟲
2012-05-09
爬蟲
python爬蟲例項專案大全
2017-12-06
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析
2020-10-29
Python爬蟲Redis
Python爬蟲教程-32-Scrapy 爬蟲框架專案 Settings.py 介紹
2018-09-06
Python爬蟲框架
Python爬蟲深造篇(四)——Scrapy爬蟲框架啟動一個真正的專案
2021-11-08
Python爬蟲框架
python例項，python網路爬蟲爬取大學排名!
2018-11-20
Python爬蟲

python爬蟲框架scrapy例項詳解

相關文章