蘇寧易購網址爬蟲爬取商品資訊及圖片
# -*- coding: utf-8 -*-
import scrapy
import time
import re
import json
import jsonpath
import urllib.parse
from Suning.items import SuningItem
class SuningSpider(scrapy.Spider):
name = 'suning'
allowed_domains = ['search.suning.com/']
keyword = input(" 請輸入商品: ")
temp_data = urllib.parse.quote(keyword)
temp_url = "{}/"
val_url = temp_url.format(temp_data)
start_urls = [val_url]
def __init__(self, name=None, **kwargs):
super().__init__(name=None, **kwargs)
self.page_num = 0
def parse(self, response):
# content = response.body.decode("utf-8")
# with open("./file/ 蘇寧 .html", "w", encoding="utf-8") as file:
# file.write(content)
li_elements = response.xpath("//div[@id='product-list']/ul[@class='general clearfix']/li")
# print(len(li_elements))
for li_element in li_elements:
title_elements = li_element.xpath(
".//div[@class='res-info']/div[@class='title-selling-point']/a//text()").extract()
title_list = []
for temp_title in title_elements:
temp_title = re.sub(r"\s", "", temp_title)
if len(temp_title) > 0:
temp_title = temp_title.replace(",", " , ")
title_list.append(temp_title)
title = "-".join(title_list)
store_name = li_element.xpath(
".//div[@class='res-info']/div[@class='store-stock']/a/@title").extract_first()
# print(store_name)
# print(title)
temp_image_url = li_element.xpath(
".//div[@class='img-block']/a[@class='sellPoint']/img/@src").extract_first()
image_url = "https:" + temp_image_url
# print(image_url)
temp_product_url = li_element.xpath(
".//div[@class='img-block']/a[@class='sellPoint']/@href").extract_first()
src_args = re.findall(r"com/(.*?).html", temp_product_url)[0]
key0 = src_args.split("/")[0]
key1 = src_args.split("/")[-1]
price_src =外匯跟單gendan5.com " + key1 + "_0000000" + key1 + "_" + key0 + "_190_755_7550199_500353_1000051_9051_10346_Z001___R9006372_0.91_1___00031F072____0___750.0_2__500363_500519__.html?callback=pcData&_=1630468559926"
# price_src = " + key1 + "_0000000" + key1 + "_" + key0 + "_250_029_0290199_20089_1000257_9254_12006_Z001___R1901001_0.5_0___000060864___.html?callback=pcData&_=1630466740130"
# print(price_src)
item = {"title": title, "store_name": store_name, "image_url": image_url}
yield scrapy.Request(price_src, callback=self.get_price, dont_filter=True, meta=item)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69946337/viewspace-2795581/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- node:爬蟲爬取網頁圖片爬蟲網頁
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Java爬蟲批量爬取圖片Java爬蟲
- Python爬蟲爬取淘寶,京東商品資訊Python爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- 爬蟲---xpath解析(爬取美女圖片)爬蟲
- Python爬蟲實戰:爬取淘寶的商品資訊Python爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python 爬蟲獲取網易雲音樂歌手資訊Python爬蟲
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- Python爬蟲實戰詳解:爬取圖片之家Python爬蟲
- Java爬蟲-爬取疫苗批次資訊Java爬蟲
- 淘寶商品資訊爬取
- Python爬蟲實踐--爬取網易雲音樂Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- Python爬蟲入門【4】:美空網未登入圖片爬取Python爬蟲
- Python爬蟲新手教程: 知乎文章圖片爬取器Python爬蟲
- Python爬蟲遞迴呼叫爬取動漫美女圖片Python爬蟲遞迴
- 爬蟲例項-淘寶頁面商品資訊獲取爬蟲
- python爬蟲——爬取大學排名資訊Python爬蟲
- python爬蟲--爬取鏈家租房資訊Python爬蟲
- 爬蟲實踐之獲取網易雲評論資料資訊爬蟲
- Python爬蟲訓練:爬取酷燃網視訊資料Python爬蟲
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- 如何用Python網路爬蟲爬取網易雲音樂歌曲Python爬蟲
- 小白學 Python 爬蟲(25):爬取股票資訊Python爬蟲
- Node JS爬蟲:爬取瀑布流網頁高清圖JS爬蟲網頁
- 使用正則編寫簡單的爬蟲爬取某網站的圖片爬蟲網站
- python爬蟲:瞭解JS加密爬取網易雲音樂Python爬蟲JS加密
- 爬蟲--Scrapy簡易爬蟲爬蟲
- Python爬蟲入門【9】:圖蟲網多執行緒爬取Python爬蟲執行緒
- Python爬蟲入門教程 4-100 美空網未登入圖片爬取Python爬蟲