Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

Zhengyh@Smart3S發表於2018-09-18

Python爬蟲筆記

需求：在千圖網http://www.58pic.com中的某一板塊中，將一定頁數的高清圖片素材爬取到一個指定的資料夾中。

分析：以數碼電器板塊為例

1.檢視該板塊的每一頁的URL：

注意到第一頁是“0-1.html”，第二頁是“0-2.html”，由此可找到規律。

2.檢視縮圖片的URL，使用F12開發者工具，通過element選項卡中的工具對網頁div進行不斷展開，找到圖片真正的地址：

例如：

3.檢視高清圖的URL：進入圖片詳情介面，直接右鍵點選圖片檢視圖片地址，如：

為：

比較縮圖與高清圖的URL對應關係，即可得出結論，高清圖URL=至“.jpg!”的縮圖URL+“一陀程式碼”

4.編寫程式碼：

import urllib.request
import re
import urllib.error
for i in range(1,10):
    pageurl="http://www.58pic.com/piccate/3-151-615-default-0_2_0_0_default_0-"+str(i)+".html"
    data=urllib.request.urlopen(pageurl).read().decode("utf-8","ignore")
    pat='</div></div><img  src="(.*?)qt'
    imglist=re.compile(pat).findall(data)
    for j in range(0,len(imglist)):
        try:
            thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a0"
            #被網站強行裁剪的一小部分
            #thisimg=imglist[j]+"/fw/1024/watermark/url/L2ltYWdlcy93YXRlcm1hcmsvZGF0dS5wbmc=/repeat/true/crop/0x1024a0a1024"
            file="F:/result/"+str(i)+str(j)+".jpg"
            urllib.request.urlretrieve(thisimg,filename=file)
            print("第"+str(i)+"頁第"+str(j)+"個圖片爬取成功")
        except urllib.error.URLError as e:
            if hasattr(e,"code"):
                print(e.code)
            if hasattr(e,"reason"):
                print(e.reason)
        except Exception as e:
            print(e)

遇到的問題：

1）千圖網需登入才能看到高清大圖的URL。

2）千圖網為對高清大圖進行了裁剪，可能分為了多個小部分圖片。

3）檢視網頁原始碼的縮圖URL與Python爬取的URL可能會不一致，具體原因可能是因為登入導致的。

結果：

【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲學習筆記（三、儲存資料）
2020-10-03
Python爬蟲筆記
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
蘇寧易購網址爬蟲爬取商品資訊及圖片
2021-10-12
爬蟲
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
Python爬蟲框架：scrapy爬取高考派大學資料
2019-10-07
Python爬蟲框架
房產資料爬取、智慧財產權資料爬取、企業工商資料爬取、抖音直播間資料python爬蟲爬取
2024-07-11
Python爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Python爬蟲訓練：爬取酷燃網視訊資料
2020-10-23
Python爬蟲
python網路爬蟲（7）爬取靜態資料詳解
2019-06-07
Python爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
python爬蟲—學習筆記-4
2024-04-23
Python爬蟲筆記
python爬蟲—學習筆記-2
2024-04-10
Python爬蟲筆記
Python爬蟲學習筆記(三)
2021-01-30
Python爬蟲筆記
python爬蟲學習筆記（二）
2020-11-24
Python爬蟲筆記
教你用Python爬取圖蟲網
2019-02-26
Python
不會Python爬蟲？教你一個通用爬蟲思路輕鬆爬取網頁資料
2019-01-08
Python爬蟲網頁
python爬蟲——爬取大學排名資訊
2019-08-02
Python爬蟲
爬取微博圖片資料存到Mysql中遇到的各種坑mysql儲存圖片爬取微博圖片
2019-02-16
MySql
python爬蟲獲取天氣網實時資料
2022-11-29
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
爬蟲學習筆記：練習爬取多頁天涯帖子
2019-02-16
爬蟲筆記
【Python學習】爬蟲爬蟲爬蟲爬蟲~
2018-05-03
Python爬蟲

Python資料爬蟲學習筆記（11）爬取千圖網圖片資料

相關文章