使用Scrapy爬取圖片入庫,並儲存在本地

大夢不黑發表於2019-06-27

原文網址 : https://www.cnblogs.com/wudameng/p/11094772.html

使用Scrapy爬取圖片入庫,並儲存在本地

上

篇部落格已經簡單的介紹了爬取資料流程,現在讓我們繼續學習scrapy

目標:

爬取愛卡汽車標題,價格以及圖片存入資料庫,並存圖到本地

好了不多說,讓我們實現下效果

我們仍用scrapy框架來編寫我們的專案:

1.首先用命令建立一個爬蟲專案(結合上篇部落格),併到你的專案裡如圖所示

2.先到你的settings.py中配置 ,這裡需要注意要爬圖(配置一個爬圖管道 ImagesPipeline 為系統中下載圖片的管道),

同時還有存圖地址(在專案中建立一個為images的資料夾),

存圖有多種方式,本人只是列舉其中一種,大家可採取不同的方法

3.然後開啟你的爬蟲檔案(即:car.py)開始編寫你要爬取的資料,這裡需要注意，要將start_urls[] 改為我們要爬取的Url 地址，然後根據xpath爬取圖片
（這裡程式碼得自己寫，不要複製)

4.爬取的欄位要跟 items.py裡的一致

5.在命令列輸入啟動爬蟲命令 scrapy crawl car 執行就能看到爬到圖片存放在本地如下

6.最後入庫,看你要入那個庫,這裡可入mysql和mongdb

mysql: 需提前創好庫以及表,表中欄位

import pymysql
# class NewcarPipeline(object):
    # 連線mysql改為你的使用者密碼以及自己的庫
    # def __init__(self):
    #     self.conn = pymysql.connect(host='127.0.0.1',user='root', password='123456', db='zou')
        # 建立cursor物件
    #     self.cursor = self.conn.cursor()
    #
        # 傳值
    # def process_item(self, item, spider):
    #     name = item['name']
    #     content = item['content']
    #     price = item['price']
    #     image = item['image_urls']
    #
        # insert into 你的表名,括號裡面是你的欄位要一一對應
        
    #     sql = "insert into zou(name,content,price) values(%s,%s,%s)"
    #     self.cursor.execute(sql, (name,content,price))
    #     self.conn.commit()
    #     return item
    #關閉爬蟲
    # def close_spider(self, spider):
    #     self.conn.close()

mongdb: 不用提前建好庫,表

from pymongo import MongoClient
# class NewcarPipeline(object):
#     def open_spider(self, spider):
#         #     連埠 ip
#         self.con = MongoClient(host='127.0.0.1', port=27017)
#         #     庫
#         db = self.con['p1']
#         # 授權
#         self.con = db.authenticate(name='wumeng', password='123456', source='admin')
#         #     集合
#         self.coll = db[spider.name]

#     def process_item(self, item, spider):
#         # 新增資料
#         self.coll.insert_one(dict(item))
#         return item

#     def close_spider(self):
#         # 關閉
#         self.con.close()

7.執行 啟動爬蟲命令 scrapy crawl car 就可在庫中看到資料.

至此爬蟲專案做完了,這只是一個簡單的爬蟲,僅供參考,如遇其他方面的問題,可參考本人部落格!盡情期待!

python入門012～使用requests爬取網路圖片並儲存到本地
2021-09-09
Python
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Scrapy框架爬取海量妹子圖
2018-08-30
框架
對html進行截圖並儲存為本地圖片
2018-11-14
HTML地圖
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Excel 讀取圖片並獲取儲存路徑
2021-01-12
Excel
scrapy 也能爬取妹子圖？（5）
2018-12-14
使用 Scrapy 爬取股票程式碼
2019-02-25
爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片
2019-02-16
MySql
讀取本地圖片
2024-08-23
地圖
Scrapy框架的使用之Scrapy爬取新浪微博
2018-05-23
框架
Python中scrapy下載儲存圖片
2021-08-09
Python
NFT 誤解：JPEG圖片並不儲存在區塊鏈上
2021-11-09
區塊鏈
python爬取鬥圖啦表情包並下載到本地
2018-12-25
Python
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
微信小程式--通過canvas生成圖片並儲存到本地
2018-09-13
微信小程式Canvas
AotucCrawler 快速爬取圖片
2021-11-25
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
scrapy 爬取空值
2020-10-03
獲取本地圖片/視訊
2018-08-17
地圖
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
生成二維碼，並且儲存，指定位置的view成圖片，並且儲存到本地相簿
2022-04-12
View
如何用 Scrapy 爬取網站資料並在 Easysearch 中進行儲存檢索分析
2024-09-12
網站
java+pgsql實現儲存圖片到資料庫，以及讀取資料庫儲存的圖片
2020-11-13
JavaSQL資料庫
scrapy入門：豆瓣電影top250爬取
2019-02-16
Scrapy使用入門及爬蟲代理配置
2020-11-11
爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
js實現canvas儲存圖片為png格式並下載到本地
2018-05-22
JSCanvas
安卓上傳圖片到伺服器並儲存到電腦本地
2020-09-28
安卓伺服器
使用Java將圖片生成sequence file並儲存到HBase
2020-08-13
Java
Android儲存多張圖片到本地
2019-06-13
Android
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Scrapy使用隨機User-Agent爬取網站
2018-08-31
隨機網站
C# 截圖並儲存為圖片
2024-04-16
C#
爬取愛套圖網上的圖片
2018-03-28

使用Scrapy爬取圖片入庫,並儲存在本地

使用Scrapy爬取圖片入庫,並儲存在本地

相關文章