scrapy 採集常用的Pipeline(輸出檔案、圖片下載)
scrapy 採集常用的pipeline,備份一下
import json import pymysql from scrapy import Request from twisted.enterprise import adbapi from scrapy.exceptions import DropItem from scrapy.pipelines.images import ImagesPipeline class YwnamePipeline: def process_item(self, item, spider): return item class myEncoder(json.JSONEncoder): def default(self, obj): if isinstance(obj, bytes): return str(obj,encoding='utf-8') return json.JSONEncoder.default(self, obj) class FilePipeline(object): def __init__(self): self.f = open("ywname.json", "w",encoding='utf-8') self.f.write("[") def process_item(self, item, spider): # dict 列表轉成字典,再轉成json text = json.dumps(dict(item), ensure_ascii=False, cls=myEncoder) + ",\n" # text = json.dumps(dict(item), ensure_ascii=False) + "\n" self.f.write(text) return item def close_spider(self, spider): self.f.write("]") self.f.close() class DownimagesPipeline(ImagesPipeline): def file_path(self, request, response=None, info=None): url = request.url file_name = "https://haotingde.com/"url.split('/')[-1] return file_name def item_completed(self, results, item, info): image_paths = [x['path'] for ok, x in results if ok] if not image_paths: raise DropItem('Image Downloaded Failed') return item def get_media_requests(self, item, info): yield Request(item['url'])
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29699285/viewspace-2724859/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python中scrapy下載儲存圖片Python
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Yii2 輸出檔案下載響應
- 教你一鍵下載微博相簿的所有圖片,自動批量採集微博相簿所有圖片
- Scrapy:根據目錄來下載github上的檔案Github
- ServletOutputStream在nginx轉發下輸出檔案下載的一種方法ServletNginx
- 圖片的採集自動同步方案
- fastadmin匯出圖片zip檔案AST
- 純JS生成並下載各種文字檔案或圖片JS
- Spring Boot MVC 單張圖片和多張圖片上傳 和通用檔案下載Spring BootMVC
- 圖片下載
- Java 輸出某路徑下的所有檔案Java
- 輕鬆採集又拍相簿裡的大量圖片,自動批量採集
- Spring Websocket實現文字、圖片、聲音、檔案下載及推送、接收及顯示(叢集模式)SpringWeb模式
- JS 下載檔案方法分享(解決圖片檔案無法直接下載和 IE相容問題)JS
- Linux 下的檔案管理&管理系統中的輸出輸入Linux
- 什麼採集器可整頁批次解析下載天貓電器城全部圖片
- python:檔案的輸入與輸出Python
- 圖片顯示慢,檔案下載不完全,竟然是Nginx的鍋!Nginx
- 排序,檔案輸入輸出排序
- Python 下載圖片Python
- cordova圖片下載
- Jenkins叢集下的pipeline實戰Jenkins
- scrapy-redis非多網址採集的使用Redis
- 使用ABAP批量下載Markdown原始檔裡的圖片到本地
- Scrapy框架的使用之Item Pipeline的用法框架
- python對英雄皮膚進行圖片採集~Python
- 圖片下載框架概述框架
- 地圖採集車的那些事 | 載車篇地圖
- 地圖資料採集,包括百度地圖採集,高德地圖採集,360地圖採集地圖
- excel檔案裡的圖片怎麼壓縮?excel檔案裡圖片的壓縮方法Excel
- 如何將一個PDF檔案裡的圖片批量匯出
- 【Nginx】圖片顯示過慢,檔案下載不完全,竟然是Nginx的鍋!!Nginx
- 第10章 對檔案的輸入輸出
- 檔案下載
- Scrapy之pipeline&擴充套件套件
- Java爬蟲之批量下載LibreStock圖片(可輸入關鍵詞查詢下載)Java爬蟲REST
- 批量採集多款商品主圖 並將主圖的下載地址一同儲存