python:scrapy學習demo分享
推薦一個比較容易上手的Python 框架scrapy。
開發環境搭建
Python安裝
下載地址:官網
這裡我下載的是3.8.0的版本(我的安裝目錄是:D:\python\Python38-32)
安裝完後設定環境變數:在path中追加:D:\python\Python38-32; D:\python\Python38-32\Scripts
升級pip
輸入命令:
python -m pip install --upgrade pip
安裝scrapy依賴的模組
安裝wheel
進入cmd執行命令命令:
> pip install wheel
安裝pywin32
下載地址:github
由於我安裝的Python是32位的,估選擇win32-py3.8版本,下載後雙擊安裝即可
安裝 lxml
執行命令:
> pip install lxml
安裝Twisted
由於直接使用命令線上安裝一直報下載超時,估採用離線安裝的方式
執行命令:
> pip install Twisted-19.10.0-cp38-cp38-win32.whl
安裝scrapy
執行命令:
> pip install scrapy
到目前為止就完成了scrapy環境的搭建,相對簡單
編寫demo
準備內容
被爬網站
選擇百度圖片首頁:http://image.baidu.com/
規則分析
首先想到的是透過xpath的方式來爬取圖片,xpath語句://div[@class=“imgrow”]/a/img/@src。但是在編寫爬蟲(Spiders)的時候發現http://image.baidu.com/請求並沒有將圖片的URL直接返回,而是透過後面的非同步請求獲取,而且返回的是一個json字串,估xpath方式行不通。
更換非同步請求的URL為被爬網站:http://image.baidu.com/search/acjson?tn=resultjson_com&catename=pcindexhot&ipn=rj&ct=201326592&is=&fp=result&queryWord=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=pcindexhot&face=0&istype=2&qc=&nc=1&fr=&pn=0&rn=30
建立scrapy專案 ImagesRename
執行命令:
> scrapy startproject ImagesRename
執行完後生成專案的目錄結構如圖:
其中:
spiders目錄:用於放置爬蟲檔案
items.py:用於儲存所抓取的資料的容器,其儲存方式類似於 Python 的字典
pipelines.py:核心處理器,對爬取到的內容進行相應的操作,如:下載,儲存等
settings.py:配置檔案,修改USER_AGENT、儲存目錄等資訊
scrapy.cfg:專案的配置檔案
編寫item容器 items.py
import scrapy
class ImagesrenameItem(scrapy.Item):
# define the fields for your item here like:
# name = scrapy.Field()
imgurl = scrapy.Field()
pass 鄭州專業婦科醫院
建立蜘蛛檔案ImgsRename.py
# -*- coding: utf-8 -*-
import scrapy
import json
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ImagesRename.items import ImagesrenameItem
class ImgsRenameSpider(CrawlSpider):
name = 'ImgsRename'
allowed_domains = ['image.baidu.com']
#http://image.baidu.com/ 並沒有返回圖片連結,而是透過非同步請求介面獲取的,爬取的URL必須是非同步請求的連結
start_urls = ['http://image.baidu.com/search/acjson?tn=resultjson_com&catename=pcindexhot&ipn=rj&ct=201326592&is=&fp=result&queryWord=&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=-1&z=&ic=0&word=pcindexhot&face=0&istype=2&qc=&nc=1&fr=&pn=0&rn=30',]
def parse(self, response):
# 例項化item
item = ImagesrenameItem()
#解析非同步請求返回的json字串
#經過分析需要的圖片連結儲存在json——》data——》hoverURL
jsonString = json.loads(response.text)
data = jsonString["data"]
imgUrls = []
#迴圈將圖片URL儲存到陣列中
for d in data:
if d:
hov = d["hoverURL"]
imgUrls.append(hov)
item['imgurl'] = imgUrls
yield item
編寫核心處理器圖片下載中介軟體pipelines.py
# -*- coding: utf-8 -*-
# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See:
import re
from scrapy.pipelines.images import ImagesPipeline
from scrapy import Request
class ImagesrenamePipeline(ImagesPipeline):
def get_media_requests(self, item, info):
# 迴圈每一張圖片地址下載
for image_url in item['imgurl']:
#發起圖片下載的請求
yield Request(image_url)
修改配置檔案settings.py
# -*- coding: utf-8 -*-
# Scrapy settings for ImagesRename project
BOT_NAME = 'ImagesRename'
SPIDER_MODULES = ['ImagesRename.spiders']
NEWSPIDER_MODULE = 'ImagesRename.spiders'
# Crawl responsibly by identifying yourself (and your website) on the user-agent
#USER_AGENT = 'ImagesRename (+)'
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False
ITEM_PIPELINES = {
'ImagesRename.pipelines.ImagesrenamePipeline': 300,
}
# 設定圖片儲存目錄
IMAGES_STORE = 'E:\圖片'
啟動程式下載圖片
執行命令:
scrapy crawl ImgsRename
到目前為止就已經完成了一個簡單的圖片爬取程式,結果如圖:
當然這些下載的檔名稱是一個隨機數,如果需要按照一個格式的檔名儲存則可以重新ImagesPipeline類的file_path方法即可,這裡就不做詳細的介紹
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69945560/viewspace-2666803/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Python 爬蟲 (六) -- Scrapy 框架學習Python爬蟲框架
- Python scrapy爬蟲學習筆記01Python爬蟲筆記
- 學習demo
- Python爬蟲之Scrapy學習(基礎篇)Python爬蟲
- scrapy學習筆記筆記
- python Scrapy 從零開始學習筆記(二)Python筆記
- python Scrapy 從零開始學習筆記(一)Python筆記
- python爬蟲利器 scrapy和scrapy-redis 詳解一 入門demo及內容解析Python爬蟲Redis
- Scrapy 框架 (學習筆記-1)框架筆記
- Python學習筆記——爬蟲之Scrapy專案實戰Python筆記爬蟲
- Access和Python學哪個好?學習分享!Python
- Python學習常見問題分享!Python
- 【學習分享篇】Python有哪些庫?Python
- Ajax學習筆記demo筆記
- python 基礎之scrapy 原理練習Python
- 0基礎新手該如何學習Python?分享學習技巧!Python
- python爬蟲學習筆記 4.2 (Scrapy入門案例(建立專案))Python爬蟲筆記
- Node學習記錄: nodemon
- Megacity Unity Demo工程學習Unity
- Python培訓分享:學習Python後有哪些用途?Python
- 【EasyUI學習-1】MyEclipse+easyui學習官方DemoUIEclipse
- 小豬的Python學習之旅 —— 4.Scrapy爬蟲框架初體驗Python爬蟲框架
- 零基礎學習Python的學習路線及教程!附19最新python學習資料分享Python
- Python Scrapy 爬蟲(二):scrapy 初試Python爬蟲
- Python技術分享:Python學習的一些小技巧!Python
- 高效學習習慣分享
- Python經典面試題之前端和框架!Python學習分享Python面試題前端框架
- Python的8種文字處理工具合集!Python學習分享Python
- Python進階學習分享之迴圈設計Python
- 用Python爬取實習資訊(Scrapy初體驗)Python
- wasm 學習筆記,寫個求和demoASM筆記
- React學習分享(二)React
- 用Python做資料分析有哪些優勢?Python學習分享!Python
- cookie和session有什麼區別?Python學習分享CookieSessionPython
- python爬蟲Scrapy框架Python爬蟲框架
- 【Python篇】scrapy爬蟲Python爬蟲
- Python爬蟲—Scrapy框架Python爬蟲框架
- 整合學習demo(3) oob_bagging