爬蟲第二彈:千圖網電商淘寶模板圖片下載
爬蟲第二彈:千圖網電商淘寶模板圖片下載
一、功能分析:
1、下載千圖網電商淘寶的所有模板圖片要求是高清版本;
2、並按照主頁面將圖片歸類資料夾。
二、思路分析:
1、利用scrapy構建scrapy startproject qtpjt,搭建專案,並通過scrapy genspider -t basic qtspd 58pic.com構建基本的爬蟲檔案;
2、通過item.py構建所有資料項;
3、setting.py將爬蟲協議關閉,開啟ITEM_PIPELINES的元件
4、通過爬蟲檔案qtspd.py 做到提取需要錄入資料庫所有資料項的資訊;
5、通過pipelines工具對資料項進行進一步的處理後下載圖片到相應資料夾;
1、下載千圖網電商淘寶的所有模板圖片要求是高清版本;
2、並按照主頁面將圖片歸類資料夾。
二、思路分析:
1、利用scrapy構建scrapy startproject qtpjt,搭建專案,並通過scrapy genspider -t basic qtspd 58pic.com構建基本的爬蟲檔案;
2、通過item.py構建所有資料項;
3、setting.py將爬蟲協議關閉,開啟ITEM_PIPELINES的元件
4、通過爬蟲檔案qtspd.py 做到提取需要錄入資料庫所有資料項的資訊;
5、通過pipelines工具對資料項進行進一步的處理後下載圖片到相應資料夾;
三、具體實現:
1、資料夾的實現:
1.1、通過在item建立picfolder資料項,並通過在主頁面item["picfolder"]=response.xpath("//em[@class='text-green-b']/text()").extract()獲取資料夾名稱資訊。
1.2、並通過以下語句構建資料夾
folder = os.path.exists(
if not folder:
os.mkdir('C:\\Users\\leishen\\Documents\\anaconda3\\scrapy\\master python scrapy\\chapter 19\\pic' + '\\' + item["picfolder"][0])
2、遍歷的實現
2.1主頁面遍歷
for i in range(2,3):
#構造出下一頁圖片列表頁的網址
nexturl="http://www.58pic.com/piccate/3-0-0-default-0_2_0_0_default_0-"+str(i)+".html"
yield Request(nexturl, callback=self.parse)
2.2對圖片的連結的爬取:
首先通過item["link"]=response.xpath("//a[@class='thumb-box']/@href").extract() 獲取每個圖片主題的子連結;
然後通過該連結,順利爬取高清模板圖片的連結
headers = ("User-Agent","Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0")opener = urllib.request.build_opener()
opener.addheaders = [headers]
# 將opener安裝為全域性
urllib.request.install_opener(opener)
for m in range(0, len(item["link"])):
data = urllib.request.urlopen(item["link"][m]).read()
paturl = '<img src="(http.*?)".*?show-area-pic'
item["picurl"] = re.compile(paturl).findall(str(data))
yield item
opener.addheaders = [headers]
# 將opener安裝為全域性
urllib.request.install_opener(opener)
for m in range(0, len(item["link"])):
data = urllib.request.urlopen(item["link"][m]).read()
paturl = '<img src="(http.*?)".*?show-area-pic'
item["picurl"] = re.compile(paturl).findall(str(data))
yield item
3、圖片的下載工作,該工作主要在pipelines.py下完成,主要利用urllib.request.urlretrieve()完成
class QtpjtPipeline(object):
def process_item(self, item, spider):
for j in range(0, len(item["picurl"])):
def process_item(self, item, spider):
for j in range(0, len(item["picurl"])):
picurl = item["picurl"][j]
trueurl=picurl
picid=re.compile(patlocal).findall(str(trueurl))[0] + "-" + str(j)
localpath="C:/Users/leishen/Documents/anaconda3/scrapy/master python scrapy/chapter 19/pic/" +item["picfolder"][0]+"/"+str(picid)+ ".jpg"
urllib.request.urlretrieve(trueurl, filename=localpath)
return item
四、專案總結
本專案主要學習兩點,1圖片的下載方法,2通過python語言自動構建資料夾。
本專案主要學習兩點,1圖片的下載方法,2通過python語言自動構建資料夾。
相關文章
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- 第二彈!python爬蟲批量下載高清大圖Python爬蟲
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- ReactPHP 爬蟲實戰:下載整個網站的圖片ReactPHP爬蟲網站
- 堆糖網爬蟲(根據關鍵字下載圖片)爬蟲
- python 爬蟲 下載百度美女圖片Python爬蟲
- Python資料爬蟲學習筆記(11)爬取千圖網圖片資料Python爬蟲筆記
- node:爬蟲爬取網頁圖片爬蟲網頁
- 使用Python爬蟲實現自動下載圖片Python爬蟲
- 爬蟲福利----妹子圖網MM批量下載爬蟲
- python 爬蟲之requests爬取頁面圖片的url,並將圖片下載到本地Python爬蟲
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 圖片抓取_千圖網圖片抓取
- python網路爬蟲--爬取淘寶聯盟Python爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- Python 爬蟲 目標:千圖網VIP高清無水印下載即用Python爬蟲
- 京東商品圖片 自動下載 抓取 c# 爬蟲C#爬蟲
- 如何關鍵字搜尋下載敦煌網、淘寶等平臺的商品圖片
- 爬蟲福利二 之 妹子圖網MM批量下載爬蟲
- Java爬蟲批量爬取圖片Java爬蟲
- python爬蟲系列(4.5-使用urllib模組方式下載圖片)Python爬蟲
- 爬蟲---xpath解析(爬取美女圖片)爬蟲
- 一個實現批量抓取淘女郎寫真圖片的爬蟲爬蟲
- Android 淘寶 爬蟲 學習Android爬蟲
- 自學python網路爬蟲,從小白快速成長,分別實現靜態網頁爬取,下載meiztu中圖片;動態網頁爬取,下載burberry官網所有當季新品圖片。Python爬蟲網頁
- 淘寶直播:2022直播電商白皮書(附下載)
- 圖片彈窗和下載彈窗wordpress外掛下載-Facebox download
- 怎樣從天堂圖片網上批量下載高清圖片到電腦?
- 如何用Python爬蟲實現百度圖片自動下載?Python爬蟲
- Java爬蟲之批量下載LibreStock圖片(可輸入關鍵詞查詢下載)Java爬蟲REST
- 圖片隱寫題解第二彈
- 實用爬蟲-03-爬取視訊教程課程名+連結+下載圖片爬蟲
- Win10淘寶網站圖片無法顯示如何解決_Win10淘寶網圖片不顯示的解決步驟Win10網站
- 圖片下載
- Python爬蟲入門【7】: 蜂鳥網圖片爬取之二Python爬蟲
- Python爬蟲入門【8】: 蜂鳥網圖片爬取之三Python爬蟲
- Python爬蟲入門【6】:蜂鳥網圖片爬取之一Python爬蟲