scrapy 採集常用的Pipeline(輸出檔案、圖片下載)
scrapy 採集常用的pipeline,備份一下
import json import pymysql from scrapy import Request from twisted.enterprise import adbapi from scrapy.exceptions import DropItem from scrapy.pipelines.images import ImagesPipeline class YwnamePipeline: def process_item(self, item, spider): return item class myEncoder(json.JSONEncoder): def default(self, obj): if isinstance(obj, bytes): return str(obj,encoding='utf-8') return json.JSONEncoder.default(self, obj) class FilePipeline(object): def __init__(self): self.f = open("ywname.json", "w",encoding='utf-8') self.f.write("[") def process_item(self, item, spider): # dict 列表轉成字典,再轉成json text = json.dumps(dict(item), ensure_ascii=False, cls=myEncoder) + ",\n" # text = json.dumps(dict(item), ensure_ascii=False) + "\n" self.f.write(text) return item def close_spider(self, spider): self.f.write("]") self.f.close() class DownimagesPipeline(ImagesPipeline): def file_path(self, request, response=None, info=None): url = request.url file_name = "https://haotingde.com/"url.split('/')[-1] return file_name def item_completed(self, results, item, info): image_paths = [x['path'] for ok, x in results if ok] if not image_paths: raise DropItem('Image Downloaded Failed') return item def get_media_requests(self, item, info): yield Request(item['url'])
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29699285/viewspace-2724859/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python中scrapy下載儲存圖片Python
- 教你一鍵下載微博相簿的所有圖片,自動批量採集微博相簿所有圖片
- Scrapy框架之利用ImagesPipeline下載圖片框架
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Java Socket圖片檔案傳輸Java
- Yii2 輸出檔案下載響應
- oracle 載入圖片檔案Oracle
- ServletOutputStream在nginx轉發下輸出檔案下載的一種方法ServletNginx
- Scrapy:根據目錄來下載github上的檔案Github
- 什麼採集器可整頁批次解析下載天貓電器城全部圖片
- Linux下輸出excel檔案LinuxExcel
- 輕鬆採集又拍相簿裡的大量圖片,自動批量採集
- 純JS生成並下載各種文字檔案或圖片JS
- VC從檔案中載入圖片
- scrapy下載圖片報[scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt:錯誤ORB
- 上傳圖片和檔案出錯!!!
- Java 輸出某路徑下的所有檔案Java
- JS 下載檔案方法分享(解決圖片檔案無法直接下載和 IE相容問題)JS
- java匯出圖片,拼接多個圖片, 拼接文字和圖片 到一個圖片檔案Java
- Spring Websocket實現文字、圖片、聲音、檔案下載及推送、接收及顯示(叢集模式)SpringWeb模式
- 地圖資料採集,包括百度地圖採集,高德地圖採集,360地圖採集地圖
- scrapy-redis非多網址採集的使用Redis
- 圖片顯示慢,檔案下載不完全,竟然是Nginx的鍋!Nginx
- Linux 下的檔案管理&管理系統中的輸出輸入Linux
- 排序,檔案輸入輸出排序
- 檔案操作-輸入輸出
- 地圖採集車的那些事 | 載車篇地圖
- 圖片下載框架概述框架
- Python 下載圖片Python
- 獲取SDWebImage下載的圖片Web
- 使用ABAP批量下載Markdown原始檔裡的圖片到本地
- python:檔案的輸入與輸出Python
- 批量採集多款商品主圖 並將主圖的下載地址一同儲存
- C輸入輸出與檔案
- [外掛擴充套件]百度圖片採集套件
- python對英雄皮膚進行圖片採集~Python
- 採集網站特殊檔案Meta資訊網站
- 圖片檔案上傳