寫在前面
上一篇(https://www.tech1024.cn/origi… )說了如何建立專案,並爬去網站內容,下面我們說一下如何儲存爬去到的資料
開始爬取
建立Spider,上一篇我們已經建立了ImoocSpider,我們做一下修改,可以連續下一頁爬取。
scrapyDemo/spiders目錄下的ImoocSpider類:
# -*- coding: utf-8 -*-
import scrapy
from urllib import parse as urlparse
from scrapyDemo.ImoocCourseItem import ImoocCourseItem
# 慕課網爬取
class ImoocSpider(scrapy.Spider):
# spider的名字定義了Scrapy如何定位(並初始化)spider,所以其必須是唯一的
name = "imooc"
# URL列表
start_urls = [`http://www.imooc.com/course/list`]
# 域名不在列表中的URL不會被爬取。
allowed_domains = [`www.imooc.com`]
def parse(self, response):
learn_nodes = response.css(`a.course-card`)
item = ImoocCourseItem()
# 遍歷該頁上所有課程列表
for learn_node in learn_nodes:
course_url = learn_node.css("::attr(href)").extract_first()
# 拼接課程詳情頁地址
course_url = urlparse.urljoin(response.url, course_url)
# 課程地址
item[`course_url`] = course_url
# 課程圖片
item[`image`] = learn_node.css(
"img.course-banner::attr(src)").extract_first()
# 進入課程詳情頁面
yield scrapy.Request(
url=course_url, callback=self.parse_learn, meta=item)
# 下一頁地址
next_page_url = response.css(
u`div.page a:contains("下一頁")::attr(href)`).extract_first()
if next_page_url:
yield scrapy.Request(
url=urlparse.urljoin(response.url, next_page_url),
callback=self.parse)
def parse_learn(self, response):
item = response.meta
# 課程標題
item[`title`] = response.xpath(
`//h2[@class="l"]/text()`).extract_first()
# 課程簡介
item[`brief`] = response.xpath(
`//div[@class="course-brief"]/p/text()`).extract_first()
yield item
這裡用到了scrapyDemo目錄下ImoocCourseItem類,下面我就說一下。
Item資料容器
在scrapyDemo目錄下建立ImoocCourseItem.py,這個類就是我們用了儲存資料的容器,我們定義了標題、圖片、簡介、地址。
scrapyDemo目錄下ImoocCourseItem類:
# -*- coding: utf-8 -*-
# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html
import scrapy
class ImoocCourseItem(scrapy.Item):
# define the fields for your item here like:
title = scrapy.Field()
# cate = scrapy.Field()
image = scrapy.Field()
# desc = scrapy.Field()
brief = scrapy.Field()
# cate = scrapy.Field()
course_url = scrapy.Field()
pass
Pipeline管道
Pipeline是用來處理抓取到的資料,我們在scrapyDemo目錄下建立ScrapydemoPipeline.py類
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don`t forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
from scrapyDemo.db.dbhelper import DBHelper
class ScrapydemoPipeline(object):
# 連線資料庫
def __init__(self):
self.db = DBHelper()
def process_item(self, item, spider):
# 插入資料庫
self.db.insert(item)
return item
別忘了在配置檔案中開啟管道哦,scrapyDemo目錄下的settings.py檔案中,找到下ITEM_PIPELINES,修改為
ITEM_PIPELINES = {
`scrapyDemo.pipelines.ScrapydemoPipeline`: 300,
}
資料庫操作
這裡面我們用到了資料庫的操作DBHelper類,那麼我們在scrapyDemo/db目錄下建立dbhelper.py 模組,記得再建立一個__init__.py哦。
# -*- coding: utf-8 -*-
import pymysql
from twisted.enterprise import adbapi
from scrapy.utils.project import get_project_settings #匯入seetings配置
import time
class DBHelper():
```這個類也是讀取settings中的配置,自行修改程式碼進行操作```
def __init__(self):
settings = get_project_settings() #獲取settings配置,設定需要的資訊
dbparams = dict(
host=settings[`MYSQL_HOST`], #讀取settings中的配置
db=settings[`MYSQL_DBNAME`],
user=settings[`MYSQL_USER`],
passwd=settings[`MYSQL_PASSWD`],
charset=`utf8`, #編碼要加上,否則可能出現中文亂碼問題
cursorclass=pymysql.cursors.DictCursor,
use_unicode=False,
)
#**表示將字典擴充套件為關鍵字引數,相當於host=xxx,db=yyy....
dbpool = adbapi.ConnectionPool(`pymysql`, **dbparams)
self.dbpool = dbpool
def connect(self):
return self.dbpool
#建立資料庫
def insert(self, item):
sql = "insert into tech_courses(title,image,brief,course_url,created_at) values(%s,%s,%s,%s,%s)"
#呼叫插入的方法
query = self.dbpool.runInteraction(self._conditional_insert, sql, item)
#呼叫異常處理方法
query.addErrback(self._handle_error)
return item
#寫入資料庫中
def _conditional_insert(self, tx, sql, item):
item[`created_at`] = time.strftime(`%Y-%m-%d %H:%M:%S`,
time.localtime(time.time()))
params = (item["title"], item[`image`], item[`brief`],
item[`course_url`], item[`created_at`])
tx.execute(sql, params)
#錯誤處理方法
def _handle_error(self, failue):
print(`--------------database operation exception!!-----------------`)
print(failue)
這裡用到了pymysql和adbapi,adbapi是python的資料庫連線池,可以pip安裝:
pip install pymysql
pip install Twisted
這裡面還用到了get_project_settings方法,意思是從配置檔案settings.py裡邊獲取資料庫配置資訊,我們在scrapyDemo目錄下的settings.py檔案最後加入資料庫資訊
#Mysql資料庫的配置資訊
MYSQL_HOST = `192.168.6.1`
MYSQL_DBNAME = `scrapy_demo_db` #資料庫名字,請修改
MYSQL_USER = `root` #資料庫賬號,請修改
MYSQL_PASSWD = `abc-123` #資料庫密碼,請修改
MYSQL_PORT = 3306 #資料庫埠,在dbhelper中使用
建表語句如下:
DROP TABLE IF EXISTS `tech_courses`;
CREATE TABLE `tech_courses` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`title` varchar(255) DEFAULT NULL,
`image` varchar(255) DEFAULT NULL,
`brief` varchar(255) DEFAULT NULL,
`course_url` varchar(255) DEFAULT NULL,
`created_at` timestamp NULL DEFAULT NULL ON UPDATE CURRENT_TIMESTAMP,
PRIMARY KEY (`id`)
) ENGINE=InnoDB AUTO_INCREMENT=0 DEFAULT CHARSET=utf8mb4;
大功告成
我們在命令列執行專案
F: echleepythonscrapyDemo>scrapy crawl imooc
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapyDemo)
2017-10-25 23:29:18 [scrapy.utils.log] INFO: Overridden settings: {`BOT_NAME`: `scrapyDemo`, `NEWSPIDER_MODULE`: `scrapyDemo.spiders`, `ROBOTSTXT_OBEY`: True, `SPIDER_MODULES`: [`scrapyDemo.spiders`]}
2017-10-25 23:29:19 [scrapy.middleware] INFO: Enabled extensions:
[`scrapy.extensions.corestats.CoreStats`,
……
2017-10-26 00:06:48 [scrapy.core.engine] DEBUG: Crawled (200) <GET http://www.imooc.com/learn/127> (referer: http://www.imooc.com/course/list?page=26)
2017-10-26 00:06:48 [scrapy.core.scraper] DEBUG: Scraped from <200 http://www.imooc.com/learn/127>
{`course_url`: `http://www.imooc.com/learn/127`, `image`: `//img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg`, `depth`: 26, `download_timeout`: 180.0, `download_slot`: `www.imooc.com`, `retry_times`: 1, `download_latency`: 0.24331021308898926, `title`: `玩兒轉Swift`, `brief`: `簡介:我們期望使用者在看完這套教程後,對swift語言的瞭解能達到中上水平。這意味著在接觸Cocoa Touch將一點兒都不費勁,對一些高階概念,諸如閉包 、協議、泛型、記憶體管理都能有所理解並且有所實踐。這套教程一定比市面上普遍看到的Swift中文教程深入,並且演示示例更豐富。`}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Closing spider (finished)
2017-10-26 00:06:48 [scrapy.statscollectors] INFO: Dumping Scrapy stats:
{`downloader/exception_count`: 24,
`downloader/exception_type_count/twisted.internet.error.TimeoutError`: 24,
`downloader/request_bytes`: 359595,
`downloader/request_count`: 836,
`downloader/request_method_count/GET`: 836,
`downloader/response_bytes`: 8680952,
`downloader/response_count`: 812,
`downloader/response_status_count/200`: 812,
`finish_reason`: `finished`,
`finish_time`: datetime.datetime(2017, 10, 25, 16, 6, 48, 884826),
`item_scraped_count`: 779,
`log_count/DEBUG`: 1616,
`log_count/INFO`: 18,
`log_count/WARNING`: 1,
`request_depth_max`: 32,
`response_received_count`: 812,
`retry/count`: 24,
`retry/reason_count/twisted.internet.error.TimeoutError`: 24,
`scheduler/dequeued`: 835,
`scheduler/dequeued/memory`: 835,
`scheduler/enqueued`: 835,
`scheduler/enqueued/memory`: 835,
`start_time`: datetime.datetime(2017, 10, 25, 15, 55, 43, 289328)}
2017-10-26 00:06:48 [scrapy.core.engine] INFO: Spider closed (finished)
如果沒有報錯,我們的資料庫是不是有資料了呢
779 玩兒轉Swift //img1.mukewang.com/53966c2c00018bed06000338-240-135.jpg 簡介:我們期望使用者在看完這套教程後,對swift語言的瞭解能達到中上水平。這意味著在接觸Cocoa Touch將一點兒都不費勁,對一些高階概念,諸如閉包、協議、泛型、記憶體管理都能有所理解並且有所實踐。這套教程一定比市面上普遍看到的Swift中文教程深入,並且演示示例更豐富。 http://www.imooc.com/learn/127 2017-10-26 00:06:48
778 iOS9那些神坑 //img1.mukewang.com/576b7a6a0001573206000338-240-135.jpg 簡介:為啥我用iOS9開發的應用無法進行網路請求?為啥多出了一個Bitcode編譯選項?什麼又是白名單呢?這些都是iOS9的一些新特性,在我們的這門課程中都會為大家一一介紹。
http://www.imooc.com/learn/609 2017-10-26 00:06:08
777 Cocos2d-x坦克大戰--上 //img4.mukewang.com/570763d20001662806000338-240-135.jpg 簡介:FC上的坦克大戰相信大家都玩過~有逃學玩坦克的可以自己默默的扣一個1了~我們現在長大了,學習遊戲開發了。有沒有想過將小時候玩過的遊戲復刻出來了?不為了彰顯自己的技術,只為了小時候因為玩遊戲而逃學捱過的打。由資深遊戲開發者徐波老師為大家復刻的FC坦克大戰吧
http://www.imooc.com/learn/610 2017-10-26 00:06:08
776 快速入門ThinkPHP 5.0 --模型篇 //img2.mukewang.com/594cf6120001ddaf06000338-240-135.jpg 簡介:一個標準的網站一定離不開資料庫的操作,在本套課程中我和你一起來揭開ThinkPHP5 資料操作的神祕面紗,和你一起愉快的使用 ThinkPHP5 運算元據庫,讓資料庫操作變的更愉悅。 http://www.imooc.com/learn/854 2017-10-26 00:06:08
775 MongoDB Day 2015 深圳 //img4.mukewang.com/56779555000160d106000338-240-135.jpg 簡介:本次年度大會由來自MongoDB內部的專家以及各行業MongoDB大牛關於資料安全、wiredtiger內部機制、OpsManager以及在其它行業方面的成功案例。大會吸引了200多位MongoDB愛好者,會場內座無虛席! http://www.imooc.com/learn/562 2017-10-26 00:06:08
774 web安全之SQL隱碼攻擊 //img1.mukewang.com/5991489e00019f5c06000338-240-135.jpg 簡介:SQL隱碼攻擊自從WEB和資料庫發展以來就一直存在,而且給WEB應用帶來很大的安全問題,會造成使用者隱私資料的洩露,資料庫版本資訊洩露和資料庫攻擊等,給業務帶來很大的損失和不好的社會影響。所以對於我們WEB開發人員來說,專案開發過程中一定要培養一定的安全意識,瞭解SQL隱碼攻擊的定義,產生的原理、具體的一些攻擊手法和相應的預防措施,為了更好的增加開發專案的健壯性和安全性 http://www.imooc.com/learn/883 2017-10-26 00:06:07
773 那些年你遇到的錯誤與異常 //img3.mukewang.com/572b06f40001d1c806000338-240-135.jpg 簡介:本課程主要講解兩部分內容,先從PHP中的錯誤模組談起,講解了PHP中常見的錯誤型別,剖析了PHP中的錯誤處理。接著又講解了PHP5物件導向過程中新的錯誤處理方式--異常模組,由淺入深,講解異常及異常的實戰應用等。 http://www.imooc.com/learn/380 2017-10-26 00:06:07
772 基於Websocket的火拼俄羅斯(基礎) //img3.mukewang.com/59ed96eb0001fe3606000338-240-135.jpg 簡介:本課程主要帶領大家瞭解要實現火拼俄羅斯的基礎知識WebSocket,以及socket.io,為後續實現火拼俄羅斯打下基礎。 http://www.imooc.com/learn/861 2017-10-26 00:06:07
771 Java定時任務排程工具詳解之Quartz篇 //img1.mukewang.com/5940992d0001cae906000338-240-135.jpg 簡介:本課程是系列課程Java定時任務排程工具詳解中的Quartz篇,本系列課程旨在通過詳細講述Java定時排程工具的基本概念、工具,和這些工具裡面包含的各個元件之間的關係,以及如何使用這些工具來實現定時排程功能,讓學生能夠對Java定時排程工具有一個清晰而準確的認識。然後結合一些經典的使用場景通過手把手的命令列操作進行教學,使同學們得心用手地使用這些定時排程工具來實現自己想要的功能。講師實戰課程已經上線,詳情:http://coding.imooc.com/learn/list/144.html http://www.imooc.com/learn/846 2017-10-26 00:06:07