工具環境
語言:python3.6
資料庫:MongoDB (安裝及執行命令如下)
python3 -m pip install pymongo
brew install mongodb
mongod --config /usr/local/etc/mongod.conf
框架:scrapy1.5.1 (安裝命令如下)
python3 -m pip install Scrapy
用 scrapy 框架建立一個爬蟲專案
在終端執行如下命令,建立一個名為 myspider 的爬蟲專案
scrapy startproject myspider
即可得到一個如下結構的檔案目錄
建立 crawl 樣式的爬蟲
針對不同的用途, scrapy 提供了不同種類的爬蟲型別,分別是
Spider:所有爬蟲的祖宗
CrawlSpider:比較常用的爬取整站資料的爬蟲(下面的例子就是用這種)
XMLFeedSpider
CSVFeedSpider
SitemapSpider
先在命令列進入到 spiders 目錄下
cd myspider/myspider/spiders
然後建立 crawl 型別的爬蟲模板
scrapy genspider -t crawl zgmlxc www.zgmlxc.com.cn
引數說明:
-t crawl
指明爬蟲的型別
zgmlxc
是我給這個爬蟲取的名字
www.zgmlxc.com.cn
是我要爬取的站點
完善小爬蟲 zgmlxc
開啟 zgmlxc.py
檔案,可以看到一個基本的爬蟲模板,現在就開始對其進行一系列的配置工作,讓這個小爬蟲根據我的指令去爬取資訊。
配置跟蹤頁面規則
rules = (
// 定位到 www.zgmlxc.com.cn/node/72.jspx 這個頁面
Rule(LinkExtractor(allow=r'.72\.jspx')),
// 在上面規定的頁面中,尋找符合下面規則的 url, 爬取裡面的內容,並把獲取的資訊返回給 parse_item()函式
Rule(LinkExtractor(allow=r'./info/\d+\.jspx'), callback='parse_item'),
)
這裡有個小坑, 就是最後一個 Rule 後面必須有逗號, 否則報錯, 哈哈哈
rules = ( Rule(LinkExtractor(allow=r'./info/\d+\.jspx'), callback='parse_item', follow=True), )
在items.py內定義我們需要提取的欄位
import scrapy
class CrawlspiderItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
title = scrapy.Field()
content = scrapy.Field()
piclist = scrapy.Field()
shortname = scrapy.Field()
完善 parse_item 函式
這裡就是把上一步返回的內容,配置規則,提取我們想要的資訊。這裡必須用 join
方法,是為了方便後面順利匯入資料庫。
def parse_item(self, response):
yield {
'title' : ' '.join(response.xpath("//div[@class='head']/h3/text()").get()).strip(),
'shortname' : ' '.join(response.xpath("//div[@class='body']/p/strong/text()").get()).strip(),
'piclist' : ' '.join(response.xpath("//div[@class='body']/p/img/@src").getall()).strip(),
'content' : ' '.join(response.css("div.body").extract()).strip(),
}
PS: 下面是提取內容的常用規則,直接總結在這裡了:
1). 獲取 img 標籤中的 src:
//img[@class='photo-large']/@src
2). 獲取文章主題內容及排版:
response.css("div.body").extract()
將資訊存入 MogoDB 資料庫
設定資料庫資訊
開啟 settings.py
新增如下資訊:
# 建立爬蟲與資料庫之間的連線關係
ITEM_PIPELINES = {
'crawlspider.pipelines.MongoDBPipeline': 300,
}
# 設定資料庫資訊
MONGODB_SERVER = "localhost"
MONGODB_PORT = 27017
MONGODB_DB = 'spider_world'
MONGODB_COLLECTION = 'zgmlxc'
# 設定文明爬蟲, 意思是每個請求之間間歇 5 秒, 對站點友好, 也防止被黑名單
```py
DOWNLOAD_DELAY = 5
在 piplines.py
中
import pymongo
from scrapy.conf import settings
from scrapy.exceptions import DropItem
from scrapy import log
class MongoDBPipeline(object):
def __init__(self):
connection = pymongo.MongoClient(
settings['MONGODB_SERVER'],
settings['MONGODB_PORT']
)
db = connection[settings['MONGODB_DB']]
self.collection = db[settings['MONGODB_COLLECTION']]
def process_item(self, item, spider):
valid = True
for data in item:
if not data:
valid = False
raise DropItem("Missing {0}!".format(data))
if valid:
self.collection.insert(dict(item))
log.msg("Question added to MongoDB database!",
level=log.DEBUG, spider=spider)
return item
在終端執行這個小爬蟲
scrapy crawl myspider
在 navicat 中檢視資訊入庫情況
如下圖新建一個 MogoDB 的資料庫連線,填入上面配置的資訊,如果一切順利, 就可以看到我們想要的資訊都已經入庫了。
以上就完成了自定義爬蟲到資料入庫的全過程辣~~~
參考:
scrapy 官方文件Web Scraping and Crawling with Scrapy and MongoDB