爬蟲第二彈：千圖網電商淘寶模板圖片下載

歡喜yu發表於2018-06-14

原文網址 : https://blog.csdn.net/qq_39677320/article/details/80688931

爬蟲第二彈：千圖網電商淘寶模板圖片下載

一、功能分析：
1、下載千圖網電商淘寶的所有模板圖片要求是高清版本；
2、並按照主頁面將圖片歸類資料夾。

二、思路分析：
1、利用scrapy構建scrapy startproject qtpjt，搭建專案，並通過scrapy genspider -t basic qtspd 58pic.com構建基本的爬蟲檔案；
2、通過item.py構建所有資料項;
3、setting.py將爬蟲協議關閉,開啟ITEM_PIPELINES的元件
4、通過爬蟲檔案qtspd.py 做到提取需要錄入資料庫所有資料項的資訊；
5、通過pipelines工具對資料項進行進一步的處理後下載圖片到相應資料夾;

三、具體實現：
1、資料夾的實現：
1.1、通過在item建立picfolder資料項，並通過在主頁面item["picfolder"]=response.xpath("//em[@class='text-green-b']/text()").extract()獲取資料夾名稱資訊。
1.2、並通過以下語句構建資料夾
folder = os.path.exists(

'C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' + '\\' + item["picfolder"][0])
if not folder:
os.mkdir('C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' + '\\' + item["picfolder"][0])
2、遍歷的實現
2.1主頁面遍歷
for i in range(2,3):
#構造出下一頁圖片列表頁的網址
nexturl="http://www.58pic.com/piccate/3-0-0-default-0_2_0_0_default_0-"+str(i)+".html"
yield Request(nexturl, callback=self.parse)
2.2對圖片的連結的爬取：

首先通過item["link"]=response.xpath("//a[@class='thumb-box']/@href").extract() 獲取每個圖片主題的子連結；

然後通過該連結，順利爬取高清模板圖片的連結

headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")opener = urllib.request.build_opener()
opener.addheaders = [headers]
# 將opener安裝為全域性
urllib.request.install_opener(opener)
for m in range(0, len(item["link"])):
  data = urllib.request.urlopen(item["link"][m]).read()
  paturl = '<img src="(http.*?)".*?show-area-pic'
  item["picurl"] = re.compile(paturl).findall(str(data))
  yield item

3、圖片的下載工作，該工作主要在pipelines.py下完成，主要利用urllib.request.urlretrieve()完成

class QtpjtPipeline(object):
def process_item(self, item, spider):
for j in range(0, len(item["picurl"])):

picurl = item["picurl"][j]

trueurl=picurl

patlocal = "http://pic.qiantucdn.com/58pic/.*?/.*?/.*?/(.*?).jpg"

picid=re.compile(patlocal).findall(str(trueurl))[0] + "-" + str(j)

localpath="C:/Users/leishen/Documents/anaconda3/scrapy/master python scrapy/chapter 19/pic/" +item["picfolder"][0]+"/"+str(picid)+ ".jpg"

urllib.request.urlretrieve(trueurl, filename=localpath)

return item

四、專案總結
本專案主要學習兩點，1圖片的下載方法，2通過python語言自動構建資料夾。

【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
第二彈！python爬蟲批量下載高清大圖
2019-10-06
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
ReactPHP 爬蟲實戰：下載整個網站的圖片
2019-01-20
ReactPHP爬蟲網站
堆糖網爬蟲(根據關鍵字下載圖片)
2021-10-24
爬蟲
python 爬蟲下載百度美女圖片
2024-04-18
Python爬蟲
Python資料爬蟲學習筆記（11）爬取千圖網圖片資料
2018-09-18
Python爬蟲筆記
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
爬蟲福利----妹子圖網MM批量下載
2020-01-06
爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
圖片抓取_千圖網圖片抓取
2021-01-13
python網路爬蟲--爬取淘寶聯盟
2018-07-17
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python 爬蟲目標：千圖網VIP高清無水印下載即用
2020-03-29
Python爬蟲
京東商品圖片自動下載抓取 c# 爬蟲
2020-09-30
C#爬蟲
如何關鍵字搜尋下載敦煌網、淘寶等平臺的商品圖片
2020-10-21
爬蟲福利二之妹子圖網MM批量下載
2020-01-11
爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
python爬蟲系列(4.5-使用urllib模組方式下載圖片)
2018-11-09
Python爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
一個實現批量抓取淘女郎寫真圖片的爬蟲
2018-03-14
爬蟲
Android 淘寶爬蟲學習
2019-03-18
Android爬蟲
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
淘寶直播：2022直播電商白皮書（附下載）
2023-04-25
圖片彈窗和下載彈窗wordpress外掛下載-Facebox download
2018-07-11
怎樣從天堂圖片網上批量下載高清圖片到電腦？
2021-11-18
如何用Python爬蟲實現百度圖片自動下載？
2019-03-01
Python爬蟲
Java爬蟲之批量下載LibreStock圖片（可輸入關鍵詞查詢下載）
2019-02-19
Java爬蟲REST
圖片隱寫題解第二彈
2020-11-18
實用爬蟲-03-爬取視訊教程課程名+連結+下載圖片
2018-10-29
爬蟲
Win10淘寶網站圖片無法顯示如何解決_Win10淘寶網圖片不顯示的解決步驟
2020-07-27
Win10網站
圖片下載
2018-03-17
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲入門【8】：蜂鳥網圖片爬取之三
2019-07-31
Python爬蟲
Python爬蟲入門【6】：蜂鳥網圖片爬取之一
2019-07-30
Python爬蟲

爬蟲第二彈：千圖網電商淘寶模板圖片下載

相關文章