爬蟲學習之基於Scrapy的網路爬蟲

發表於2016-07-13

概述

在上一篇文章《爬蟲學習之一個簡單的網路爬蟲》中我們對爬蟲的概念有了一個初步的認識，並且通過Python的一些第三方庫很方便的提取了我們想要的內容，但是通常面對工作當作複雜的需求，如果都按照那樣的方式來處理效率非常的低，這通常需要你自己去定義並實現很多非常基礎的爬蟲框架上的功能，或者需要組合很多Python第三方庫來做。不過不用擔心，Python中有很多非常優秀的爬蟲框架，比如我們接下來要學習到的Scrapy。Scrapy官方有很經典的入門文件說明，這一篇僅僅是通過一個簡單的例項來了解Scrapy這個庫是如何來進行網路內容提取的，更深入的學習請閱讀Scrapy官方文件。

建立目標

同樣在做任何事情之前都需要明確目標，那這次我們的目標是爬取一些技術性的文章並儲存到資料庫中。這就需要有目標網址和資料庫結構，資料庫我們選擇使用MySql，目標網站我們找了一個叫指令碼之家的內容站。我們這裡首先準備好一張用於儲存文章的表結構：

CREATE TABLE `articles` (

`id` mediumint(8) AUTO_INCREMENT NOT NULL,

`title` varchar(255) DEFAULT NULL,

`content` longtext,

`add_date` int(11) DEFAULT 0,

`hits` int(11) DEFAULT '0',

`origin` varchar(500) DEFAULT '',

`tags` varchar(45) DEFAULT '',

PRIMARY KEY (`id`),

KEY `add_date` (`add_date`)

) ENGINE=InnoDB DEFAULT CHARSET=utf8 COLLATE=utf8_unicode_ci;

分析目標結構
這裡我們首先需要爬取得入口是“網路程式設計”這個節點，主入口網址為（http://www.jb51.net/list/index_1.htm）開啟這個網站我們通過Chrome或者其他瀏覽器的檢視元素來分析當前頁面的HTML語義結構，如下圖所示：

從圖中紅色框線的部分可以看出，這裡是我們需要在“網路程式設計”這個節點下需要提取的所有文章的主分類入口，通過這些入口可以進去到不同文章分類的列表中。所以根據初步結構分析，我們得出本次爬蟲的爬取路線為：

從主入口進去 -> 提取當前入口中的所有分類 -> 通過分類入口進入到分類列表 -> 通過列表進入到文章頁

分類入口確定了接下來看看我們的分類列表，隨意點開一個分類入口，開啟列表如下圖所示：

這裡我框出了兩個主要部分，第一個是文章的標題，第二個是分頁，文章對應的URL就是我們接下來需要爬取文章內容的入口，這裡需要注意的是分頁的處理，通過分頁的最後一頁我們可以知道當前這類列表共有多少頁文章。結合以上分析我們基本確定了本次爬蟲的各個路線入口，接下來我們就開始通過程式來實現本次的目標。

實現爬蟲

在實現爬蟲之前我們通過一張圖來對Scrapy有個基本的認識，為了保持本章內容的簡潔性，我們這裡暫時不會討論Item Pipeline部分，Scrapy架構圖如下所示（圖片來自網路）：

從圖中可以很清晰的看到Scrapy所包含的幾大塊，下面我們通過程式碼來演示我們所用到的基礎功能部分。
主要依賴第三方庫：

web.py web框架，這裡只用到了database部分，將來會用來進行內容展示
scrapy 爬蟲框架，這裡只用到了最基本的內容提取

這裡還會用到一些xpath相關知識，請自行Google瞭解xpath語法

# -*- coding:utf-8 -*-
'''by sudo rm -rf  http://imchenkun.com'''
import scrapy
from scrapy.http import Request
import web
import time

db = web.database(dbn='mysql', host='127.0.0.1', db='imchenkun', user='root', pw='root')

# 允許的站點域
allow_domain = "jb51.net"

base_url = "http://www.jb51.net"

# 列表頁
list_url = "http://www.jb51.net/list/list_%d_%d.htm"

# 列表分頁
list_page = 1

# 文章頁
crawl_url = "http://www.jb51.net/article/%d.htm"

class JB51Spider(scrapy.Spider):
    name = "jb51"
    start_urls = [
        "http://www.jb51.net/list/index_1.htm"
    ]

cate_list = []

def parse(self, response):
        cate_id = response.selector.xpath('//div[@class="index_bor clearfix"]/div[@class="index_con"]/span/a/@href').re('(\\\\d+)')[::2]
        for id in cate_id:
            cate_url = list_url % (int(id), 1)
            yield Request(cate_url, callback=self.parse_page)

def parse_page(self, response):
        _params = response.selector.xpath('//div[@class="dxypage clearfix"]/a[last()]/@href').re('(\\\\d+)')
        cate_id = int(_params[0]) # 分類編號
        count = int(_params[1]) # 總頁數

article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()
        # 處理第一頁
        for article_url in article_urls:
            yield Request(base_url + article_url, callback=self.parse_article)

# 處理其他頁
        for page in range(1, count):
            url = (list_url % (cate_id, page + 1))
            yield Request(url, callback=self.parse_list)

def parse_list(self, response):
        """解析文章列表"""
        article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()
        for article_url in article_urls:
            yield Request(base_url + article_url, callback=self.parse_article)

def parse_article(self, response):
        """解析文章內容"""
        title = response.selector.xpath('//div[@class="title"]/h1/text()').extract()[0]
        content = response.selector.xpath('//div[@id="content"]').extract()[0]
        tags = ','.join(response.selector.xpath('//div[@class="tags mt10"]/a/text()').extract())
        
        results = db.query('select count(0) as total from articles where origin=$origin', vars = { 'origin': response.url })
        if results[0].total <= 0:
            db.insert('articles',
                      title=title,
                      origin=response.url,
                      content=content,
                      add_date=int(time.time()),
                      hits=0,
                      tags=tags
            )

# -*- coding:utf-8 -*-

'''by sudo rm -rf http://imchenkun.com'''

import scrapy

from scrapy.http import Request

import web

import time

db = web.database(dbn='mysql', host='127.0.0.1', db='imchenkun', user='root', pw='root')

# 允許的站點域

allow_domain = "jb51.net"

base_url = "http://www.jb51.net"

# 列表頁

list_url = "http://www.jb51.net/list/list_%d_%d.htm"

# 列表分頁

list_page = 1

# 文章頁

crawl_url = "http://www.jb51.net/article/%d.htm"

class JB51Spider(scrapy.Spider):

name = "jb51"

start_urls = [

"http://www.jb51.net/list/index_1.htm"

]

cate_list = []

def parse(self, response):

cate_id = response.selector.xpath('//div[@class="index_bor clearfix"]/div[@class="index_con"]/span/a/@href').re('(\\\\d+)')[::2]

for id in cate_id:

cate_url = list_url % (int(id), 1)

yield Request(cate_url, callback=self.parse_page)

def parse_page(self, response):

_params = response.selector.xpath('//div[@class="dxypage clearfix"]/a[last()]/@href').re('(\\\\d+)')

cate_id = int(_params[0]) # 分類編號

count = int(_params[1]) # 總頁數

article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()

# 處理第一頁

for article_url in article_urls:

yield Request(base_url + article_url, callback=self.parse_article)

# 處理其他頁

for page in range(1, count):

url = (list_url % (cate_id, page + 1))

yield Request(url, callback=self.parse_list)

def parse_list(self, response):

"""解析文章列表"""

article_urls = response.selector.xpath('//div[@class="artlist clearfix"]/dl/dt/a/@href').extract()

for article_url in article_urls:

yield Request(base_url + article_url, callback=self.parse_article)

def parse_article(self, response):

"""解析文章內容"""

title = response.selector.xpath('//div[@class="title"]/h1/text()').extract()[0]

content = response.selector.xpath('//div[@id="content"]').extract()[0]

tags = ','.join(response.selector.xpath('//div[@class="tags mt10"]/a/text()').extract())

results = db.query('select count(0) as total from articles where origin=$origin', vars = { 'origin': response.url })

if results[0].total <= 0:

db.insert('articles',

title=title,

origin=response.url,

content=content,

add_date=int(time.time()),

hits=0,

tags=tags

)

安裝Scrapy後以上程式碼通過以下命令執行：

scrapy runspider jb51_spider.py

本次執行後的效果在資料庫中可以見如下圖所示：

Github地址

總結

本篇文章我們主要了解了基本的Scrapy Spider部分，而且通過對目標網站的結構分析使用xpath進行內容的提取，以及分頁的處理。這裡我們的目的是建立一種寫爬蟲的思路，而不在於怎麼使用工具來爬資料。首先確定目標，然後分析目標，再借助現有工具進行內容提取，提取內容的過程中會遇到各種問題，這個時候我們再來逐個解決這些問題，直到我們的爬蟲能夠無障礙的執行。接下來我會使用Scrapy更多的功能將繼續探索Item的定義，Pipeline的實現以及如何使用代理。

特別申明：本文所提到的指令碼之家網站只是拿來進行爬蟲的技術交流學習，讀者涉及到的所有侵權問題都與本人無關，也希望大家在學習實戰的過程中不要大量的爬取內容對伺服器造成負擔

Python爬蟲之Scrapy學習（基礎篇）
2019-03-04
Python爬蟲
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
python網路爬蟲（14）使用Scrapy搭建爬蟲框架
2019-07-27
Python爬蟲框架
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
【0基礎學爬蟲】爬蟲基礎之網路請求庫的使用
2023-03-26
爬蟲
精通Scrapy網路爬蟲【一】第一個爬蟲專案
2021-06-19
爬蟲
網路爬蟲之關於爬蟲 http 代理的常見使用方式
2020-04-28
爬蟲HTTP
scrapy + mogoDB 網站爬蟲
2019-05-19
Go網站爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
網路爬蟲——爬蟲實戰（一）
2022-01-29
爬蟲
python網路爬蟲（9）構建基礎爬蟲思路
2019-06-09
Python爬蟲
爬蟲框架-scrapy的使用
2021-04-28
爬蟲框架
Scrapy爬蟲框架的使用
2021-01-17
爬蟲框架
網路爬蟲
2018-12-07
爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架
scrapy爬蟲代理池
2018-08-28
爬蟲
爬蟲實戰scrapy
2018-03-11
爬蟲
Python爬蟲—Scrapy框架
2020-10-04
Python爬蟲框架
【Python篇】scrapy爬蟲
2020-11-29
Python爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
【0基礎學爬蟲】爬蟲基礎之資料儲存
2023-04-14
爬蟲
【0基礎學爬蟲】爬蟲基礎之檔案儲存
2023-04-07
爬蟲
[Python] 網路爬蟲與資訊提取（1）網路爬蟲之規則
2020-11-06
Python爬蟲
Python爬蟲教程-30-Scrapy 爬蟲框架介紹
2018-09-06
Python爬蟲框架
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Scrapy框架的使用之Scrapy通用爬蟲
2018-05-21
框架爬蟲
python網路爬蟲_Python爬蟲：30個小時搞定Python網路爬蟲視訊教程
2020-10-21
Python爬蟲
基於Scrapy分散式爬蟲的開發與設計
2018-04-27
分散式爬蟲
網路爬蟲的原理
2018-12-02
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Pyppeteer 的使用
2023-05-15
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Playwright 的使用
2023-04-28
爬蟲
【0基礎學爬蟲】爬蟲基礎之自動化工具 Selenium 的使用
2023-04-21
爬蟲
網路爬蟲示例
2018-10-30
爬蟲
網路爬蟲精要
2019-04-27
爬蟲
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
Python爬蟲教程-31-建立 Scrapy 爬蟲框架專案
2018-09-04
Python爬蟲框架

爬蟲學習之基於Scrapy的網路爬蟲

建立目標

實現爬蟲

總結

相關文章