使用Python爬蟲實現自動下載圖片

daxuesheng發表於2021-09-11

使用Python爬蟲實現自動下載圖片

python爬蟲支援模組多、程式碼簡潔、開發效率高 ,是我們進行網路爬蟲可以選取的好工具。對於一個個的爬取下載,勢必會消耗我們大量的時間,使用Python爬蟲就可以解決這個問題,即可以實現自動下載。本文向大家介紹python爬蟲的實戰練習之進行自動下載圖片的爬取過程。

一、自動下載圖片流程

1、總結網址規律,以便根據網址訪問網頁;

2、根據網址規律,迴圈爬取並返回網頁;

3、利用正規表示式提取並返回圖片。

二、使用實現自動下載圖片步驟

1、匯入相關包

import requests
import importlib
import urllib
import re
import os
import sys
importlib.reload(sys)

2、定義網頁訪問函式

獲得方式:正常訪問此頁面,滑鼠右鍵檢查或F12-在Network處檢視自己的cookie,由於cookie很長且每個使用者的cookie不同,故程式碼中將cookie省略了,讀者可檢視自己瀏覽器的cookie,將其加入程式碼中。

def askURL(url):
    head = {   
        "Accept": "image/webp,image/apng,image/*,*/*;q=0.8",
        "Accept-Language": "zh-CN,zh;q=0.9",
        "Connection": "keep-alive",
        "Cookie": " ",
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/
        71.0.3578.98 Safari/537.36"
    }
    s = quote(url, safe=string.printable)    # 中文轉utf8字元,否則會報ascii錯
    print(s)
    request = urllib.request.Request(s, headers=head)
    html = ""
    try:
        response = urllib.request.urlopen(request)
        html = response.read().decode("utf-8")
        print(html)
    except urllib.error.URLError as e:
        if hasattr(e, "code"):
            print(e.code)
        if hasattr(e, "reason"):
            print(e.reason)
    return html

3、提取圖片並返回

根據返回的html網頁可以看到,網頁中包含圖片的url共有四種型別,分別是objURL、middleURL、hoverURL和thumbURL,故利用正規表示式返回四種型別的連結併合並。

i = 1

def savePic(url):
    global i  # 
    html = askURL(url)
    pic_url = re.findall('"objURL":"(.*?)",', html, re.S)  # re.S表示讓換行符包含在字元中
    pic_url2 = re.findall('"middleURL":"(.*?)",', html, re.S)
    pic_url3 = re.findall('"hoverURL":"(.*?)",', html, re.S)
    pic_url4 = re.findall('"thumbURL":"(.*?)",', html, re.S)
    result = pic_url2 + pic_url + pic_url4 + pic_url3

    for item in result:
        print("已下載" + str(i) + "張圖片")
        # 定義異常控制
        try:
            pic = requests.get(item, timeout=5)
        except Exception:  
            print("當前圖片無法下載")
            continue 

        #  儲存圖片
        string = 'D:/MyData/Python爬蟲/圖片/'+word+"/"+str(i)+".jpg"
        fp = open(string, 'wb')
        fp.write(pic.content)
        fp.close()
        i += 1

4、定義主函式

if __name__ == '__main__':  # 主程式
    word = input("請輸入想要下載的圖片:")

    #  根據搜尋的關鍵字判斷存放該類別的資料夾是否存在,不存在則建立
    road = "D:/MyData/Python爬蟲/圖片下載器/" + word
    if not os.path.exists(road):
        os.mkdir(road)

    #  根據輸入的內容構建url列表,此處只訪問了四頁驗證效果
    urls = [
        'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word='
        + word '.format(str(i)) for i in range(0, 40, 10)]

    for url in urls:
        print(url)
        downloadPic(url)

    print("下載完成!")

以上就是使用Python爬蟲實現自動下載圖片的過程,大家可以嘗試練習一下哦~

如果大家想嘗試爬取資料,可以嘗試,免費測試提供1000個爬蟲專用ip地址,希望對大家有所幫助!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4692/viewspace-2830987/,如需轉載,請註明出處,否則將追究法律責任。

相關文章