scrapy爬蟲成長日記之將抓取內容寫入mysql資料庫

weixin_34391854發表於2015-06-12

原文網址 : https://blog.csdn.net/weixin_34391854/article/details/85729873

　　前面小試了一下scrapy抓取部落格園的部落格（您可在此檢視scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料），但是前面抓取的資料時儲存為json格式的文字檔案中的。這很顯然不滿足我們日常的實際應用，接下來看下如何將抓取的內容儲存在常見的mysql資料庫中吧。

　　說明：所有的操作都是在“scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料”的基礎上完成，如果您錯過了這篇文章可以移步這裡檢視scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料

　　環境：mysql5.1.67-log

　　操作步驟：

　　1、檢查python是否支援mysql

[root@bogon ~]# python
Python 2.7.10 (default, Jun  5 2015, 17:56:24) 
[GCC 4.4.4 20100726 (Red Hat 4.4.4-13)] on linux2
Type "help", "copyright", "credits" or "license" for more information.
>>> import MySQLdb
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: No module named MySQLdb

　　如果出現：ImportError: No module named MySQLdb則說明python尚未支援mysql，需要手工安裝，請參考步驟2；如果沒有報錯，請調到步驟3

　　2、python安裝mysql支援

[root@bogon ~]# pip install mysql-python
Collecting mysql-python
  Downloading MySQL-python-1.2.5.zip (108kB)
    100% |████████████████████████████████| 110kB 115kB/s 
Building wheels for collected packages: mysql-python
  Running setup.py bdist_wheel for mysql-python
  Stored in directory: /root/.cache/pip/wheels/8c/0d/11/d654cad764b92636ce047897dd2b9e1b0cd76c22f813c5851a
Successfully built mysql-python
Installing collected packages: mysql-python
Successfully installed mysql-python-1.2.5

　　安裝完以後再次執行步驟1，檢查python是否已經支援mysql

　　如果還有問題您可以嘗試：LC_ALL=C pip install mysql-python
　　如果依然報錯：error: Python.h: No such file or directory
　　您可以嘗試先安裝python-devel：

yum install python-devel

　　3、建立資料庫和表

CREATE DATABASE cnblogsdb DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci;
CREATE TABLE `cnblogsinfo` (
  `linkmd5id` char(32) NOT NULL COMMENT 'url md5編碼id',
  `title` text COMMENT '標題',
  `description` text COMMENT '描述',
  `link` text  COMMENT 'url連結',
  `listUrl` text  COMMENT '分頁url連結',
  `updated` datetime DEFAULT NULL  COMMENT '最後更新時間',
  PRIMARY KEY (`linkmd5id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;

　　注意：

　　　　a)、建立資料庫的時候加上DEFAULT CHARACTER SET utf8 COLLATE utf8_general_ci，這樣才不至於出現亂碼。我就因為這個問題折騰了很久。

　　　　b)、資料庫表的編碼為utf8

　　4、設定mysql配置資訊

　　根據前面的文章（scrapy爬蟲成長日記之建立工程-抽取資料-儲存為json格式的資料）我們可以知道，最終scrapy是通過pipelines.py對抓取的結果進行處理的。很顯然要儲存到mysql資料庫中的話，修改pipelines.py這個檔案是在所難免的了。然而在進行mysql操作的時候，我們需要先連上資料庫，這時候就設計到資料庫連線字串的問題了。我們可以直接寫死在pipelines.py檔案中，但是這樣又不利於程式的維護，因此我們可以考慮將配置資訊寫在專案的配置檔案settings.py中。

　　settings.py中新增如下配置項

# start MySQL database configure setting
MYSQL_HOST = 'localhost'
MYSQL_DBNAME = 'cnblogsdb'
MYSQL_USER = 'root'
MYSQL_PASSWD = 'root'
# end of MySQL database configure setting

　　5、修改pipelines.py

　　修改完的結果如下，需要注意的pipelines.py中定義了兩個類。JsonWithEncodingCnblogsPipeline是寫入json檔案用的，而MySQLStoreCnblogsPipeline（需要記住，後面會用到哦！）才是寫入資料庫用的。

　　MySQLStoreCnblogsPipeline類做的主要功能有

　　　　a)、讀取資料庫配置檔案，並生成資料庫例項，主要通過類方法from_settings實現，

　　　　b)、如果url不存在則直接寫入，如果url存在則更新，通過自定義的方法_do_upinsert實現，

　　　　c)、確保url唯一性的md5函式_get_linkmd5id 。

[root@bogon cnblogs]# more pipelines.py
# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html

from scrapy import signals
import json
import codecs
from twisted.enterprise import adbapi
from datetime import datetime
from hashlib import md5
import MySQLdb
import MySQLdb.cursors

class JsonWithEncodingCnblogsPipeline(object):
    def __init__(self):
        self.file = codecs.open('cnblogs.json', 'w', encoding='utf-8')
    def process_item(self, item, spider):
        line = json.dumps(dict(item), ensure_ascii=False) + "\n"
        self.file.write(line)
        return item
    def spider_closed(self, spider):
        self.file.close()

class MySQLStoreCnblogsPipeline(object):
    def __init__(self, dbpool):
        self.dbpool = dbpool
    
    @classmethod
    def from_settings(cls, settings):
        dbargs = dict(
            host=settings['MYSQL_HOST'],
            db=settings['MYSQL_DBNAME'],
            user=settings['MYSQL_USER'],
            passwd=settings['MYSQL_PASSWD'],
            charset='utf8',
            cursorclass = MySQLdb.cursors.DictCursor,
            use_unicode= True,
        )
        dbpool = adbapi.ConnectionPool('MySQLdb', **dbargs)
        return cls(dbpool)

    #pipeline預設呼叫
    def process_item(self, item, spider):
        d = self.dbpool.runInteraction(self._do_upinsert, item, spider)
        d.addErrback(self._handle_error, item, spider)
        d.addBoth(lambda _: item)
        return d
    #將每行更新或寫入資料庫中
    def _do_upinsert(self, conn, item, spider):
        linkmd5id = self._get_linkmd5id(item)
        #print linkmd5id
        now = datetime.utcnow().replace(microsecond=0).isoformat(' ')
        conn.execute("""
                select 1 from cnblogsinfo where linkmd5id = %s
        """, (linkmd5id, ))
        ret = conn.fetchone()

        if ret:
            conn.execute("""
                update cnblogsinfo set title = %s, description = %s, link = %s, listUrl = %s, updated = %s where linkmd5id = %s
            """, (item['title'], item['desc'], item['link'], item['listUrl'], now, linkmd5id))
            #print """
            #    update cnblogsinfo set title = %s, description = %s, link = %s, listUrl = %s, updated = %s where linkmd5id = %s
            #""", (item['title'], item['desc'], item['link'], item['listUrl'], now, linkmd5id)
        else:
            conn.execute("""
                insert into cnblogsinfo(linkmd5id, title, description, link, listUrl, updated) 
                values(%s, %s, %s, %s, %s, %s)
            """, (linkmd5id, item['title'], item['desc'], item['link'], item['listUrl'], now))
            #print """
            #    insert into cnblogsinfo(linkmd5id, title, description, link, listUrl, updated)
            #    values(%s, %s, %s, %s, %s, %s)
            #""", (linkmd5id, item['title'], item['desc'], item['link'], item['listUrl'], now)
    #獲取url的md5編碼
    def _get_linkmd5id(self, item):
        #url進行md5處理，為避免重複採集設計
        return md5(item['link']).hexdigest()
    #異常處理
    def _handle_error(self, failue, item, spider):
        log.err(failure)

　　6、啟用MySQLStoreCnblogsPipeline類，讓它工作起來

　　修改setting.py配置檔案，新增MySQLStoreCnblogsPipeline的支援

ITEM_PIPELINES = {
    'cnblogs.pipelines.JsonWithEncodingCnblogsPipeline': 300,
    'cnblogs.pipelines.MySQLStoreCnblogsPipeline': 300,
}

　　至此，所有的需要修改的檔案都修改好了，下面測試看結果如何。

　　7、測試

[root@bogon cnblogs]# scrapy crawl CnblogsSpider

　　檢視資料庫結果：

　　至此，scrapy抓取網頁內容寫入資料庫的功能就已經實現了。然而這個爬蟲的功能還太弱小了，最基本的檔案下載、分散式抓取等都功能都還不具備；同時也試想一下現在很多網站的反爬蟲抓取的，萬一碰到這樣的網站我們要怎麼處理呢？接下來的一段時間裡我們來逐一解決這些問題吧。隨便暢想一下，如果爬蟲足夠強，內容足夠多；我們是不是可以打造一個屬於自己的垂直搜尋引擎呢？想想就興奮，盡情YY去吧！！！

　　最後原始碼更新至此：https://github.com/jackgitgz/CnblogsSpider

儲存資料到MySql資料庫——我用scrapy寫爬蟲（二）
2019-02-16
MySql資料庫爬蟲
Python網路爬蟲抓取動態網頁並將資料存入資料庫MYSQL
2019-01-04
Python爬蟲網頁資料庫MySql
Python爬蟲入門教程 33-100 《海王》評論資料抓取 scrapy
2019-02-14
Python爬蟲
python爬蟲利器 scrapy和scrapy-redis 詳解一入門demo及內容解析
2020-10-29
Python爬蟲Redis
Python爬蟲，抓取淘寶商品評論內容!
2018-06-24
Python爬蟲
爬蟲原理與資料抓取
2020-12-17
爬蟲
Scrapy爬蟲：實習僧網最新招聘資訊抓取
2021-09-09
爬蟲
爬蟲抓取網頁資料原理
2021-12-06
爬蟲網頁
python爬蟲之 scrapy框架採集2000期彩票資料
2020-12-02
Python爬蟲框架
ScienceDirect內容爬蟲
2021-07-21
爬蟲
如何將 winston log 庫記錄的日誌寫入 mongo DB 資料庫
2021-10-27
Go資料庫
爬蟲--Scrapy簡易爬蟲
2020-10-07
爬蟲
手把手教你寫網路爬蟲（4）：Scrapy入門
2018-05-05
爬蟲
scrapy爬蟲框架呼叫百度地圖api資料存入資料庫
2021-04-30
爬蟲框架地圖API資料庫
Python爬蟲入門實戰之貓眼電影資料抓取(理論篇)
2019-04-06
Python爬蟲
Python爬蟲入門實戰之貓眼電影資料抓取（實戰篇）
2019-04-07
Python爬蟲
使用scrapy框架把資料非同步寫入資料庫
2018-07-16
框架非同步資料庫
快速上手——我用scrapy寫爬蟲（一）
2019-02-16
爬蟲
python excel 內容寫入mysql
2021-09-09
PythonExcelMySql
爬蟲技術抓取網站資料方法
2021-09-11
爬蟲網站
Scrapy爬蟲-草稿
2018-09-08
爬蟲
Scrapy爬蟲框架
2024-11-13
爬蟲框架
python——將excel檔案寫入mysql資料庫中
2018-08-14
PythonExcelMySql資料庫
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
網路爬蟲之抓取郵箱
2018-06-18
爬蟲
爬蟲，可用於增加訪問量和抓取網站全頁內容
2018-09-08
爬蟲網站
Python爬蟲抓取股票資訊
2021-01-03
Python爬蟲
Python學習筆記——爬蟲之Scrapy專案實戰
2018-09-03
Python筆記爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
為什麼使用Scrapy框架來寫爬蟲？
2018-12-19
框架爬蟲
scrapy入門教程()部署爬蟲專案
2018-09-27
爬蟲
Python網路爬蟲4 - scrapy入門
2018-05-29
Python爬蟲
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
【爬蟲】將 Scrapy 部署到 k8s
2022-01-12
爬蟲K8S
Mysql增量寫入Hdfs（一） --將Mysql資料寫入Kafka Topic
2018-12-08
MySqlKafka
爬蟲（9） - Scrapy框架(1) | Scrapy 非同步網路爬蟲框架
2022-07-05
爬蟲框架非同步
如何將 EXCEL 資料寫入資料庫
2020-06-16
Excel資料庫
Python Scrapy 爬蟲（二）：scrapy 初試
2018-08-13
Python爬蟲
python爬蟲Scrapy框架
2018-11-21
Python爬蟲框架

scrapy爬蟲成長日記之將抓取內容寫入mysql資料庫

相關文章