Python爬蟲入門-爬取pexels高清圖片

weixin_34120274發表於2017-09-24

原文網址 : https://blog.csdn.net/weixin_34120274/article/details/86792220

先上張圖片：

小姐姐.png

首先開啟網址：https://www.pexels.com/,然後下來會發現下面的圖片是慢慢的載入出來的，也就是通過Ajax請求得到的。在搜尋框中輸入關鍵字：beauty,開啟F12，重新整理，選中XHR,然後一直下拉下拉:

分析2.png

會發現左側中的URL只有一個page是在發生變化的，在通過對URL中引數的分析我嘗試的將URL中的引數js和format去掉，構造出類似於：https://www.pexels.com/search/beauty/?page=2
其中page代表的是頁數是會發生變化的，然後複製到瀏覽器中可以開啟圖片，改變page的值也沒有問題。
以https://www.pexels.com/search/beauty/?page=2為例，在瀏覽器中開啟，再開啟F12重新整理，切換到Preview選項卡：

分析3.png

這裡面就有當前頁面一張張圖片的資訊，我們可以通過請求這個頁面，將相關圖片的連結解析出來，就可以拿到我們想要的圖片了。
我們開啟其中一張美女圖片，點選右側的下載按鈕，頁面進行跳轉：

分析4.png

從瀏覽器中發現圖片的地址為:
https://static.pexels.com/photos/220423/pexels-photo-220423.jpeg
這個與上圖中的 data-pin-media 屬性的值很像有沒有，多開啟幾張大圖重複這個過程真是的圖片的高清地址是將data-pin-media中的images替換為static即可。
下面就可以開始寫程式碼了：
打算使用PyQuery庫進行解析，練習一下這種用法：

import requests
from requests.exceptions import RequestException
from pyquery import PyQuery as pq

keyword='beauty'
headers={
 'accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'accept-encoding':'gzip, deflate,sdch,br',
 'cookie':'__cfduid=d3e43ad7f4bb07152deb3e9b4ca571b271505889614; locale=en; _ga=GA1.2.127776053.1505890636; _gid=GA1.2.783458515.1505890636; _gat=1',
 'user-agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36'
}

def get_index(url):
    response=requests.get(url,headers=headers)
    try:
        if response.status_code==200:
            return response.text
        return None
    except RequestException:
        return None

def parse_index(html):
    doc=pq(html)
    links=doc('.photos .photo-item a img')
    for link in links:
        # title=link.attr('alt').replace(',','')
        url=link.attr('data-pin-media').replace('images','static').split('?')[0]
        yield url

def main(page):
    url = 'https://www.pexels.com/search/'+keyword+'/?page='+str(page)
    html=get_index(url)
    if html:
        urls=parse_index(html)
        print(urls)

if __name__=='__main__':
      main(1)

執行這個程式，沒有跑起來，發生報錯：
沒有attr這個屬性，還有

報錯01.png

Google一下：

報錯1-Google.png

發現PyQuery的寫法好像有問題，小白就是這樣經常在一個基礎的地方踩上坑，於是：
將url=link.attr('data-pin-media').replace('images','static').split('?')[0],改成：url=pq(link).attr('data-pin-media').replace('images','static').split('?')[0]
可以跑起來了。
然後就是儲存圖片：

def download_img(url):
    response=requests.get(url)
    try:
        if response.status_code==200:
            return response.content
        return None
    except RequestException:
        return None

def save_image(content):
    path_name='{0}/{1}.{2}'.format(os.getcwd(),md5(content).hexdigest(),'jpg')
        if not os.path.exists(path_name):
            with open(path_name,'wb') as f:
                f.write(content)
                f.close()

def main(page):
    url = 'https://www.pexels.com/search/'+keyword+'/?page='+str(page)
    html=get_index(url)
    if html:
        urls=parse_index(html)
        for url in urls:
            print('正在下載:%r'%url)
            content=download_img(url)
            save_image(content)
            print('下載完成:%r'%url)
            time.sleep(3)

執行結果如下：

執行結果.png

但是這個下載速度實在是蛋疼的很啊（誰讓這個圖片這麼大呢），開了多程式也一樣，而且一開始程式一直卡著我一直以為自己的程式碼有什麼問題跑不起來了，瞎捉摸了老半天也找不出原因，後面去洗澡了，洗完後發現下載了幾張圖片下來了：

照片.png

所以我在想要是能寫個下載進度條就好了，可以方便檢視下載的進度，特別是對於這種大圖片的下載，等以後學習了，可以再做些修改。

Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲入門教程 4-100 美空網未登入圖片爬取
2018-12-17
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
Python爬蟲入門【11】：半次元COS圖爬取
2019-07-31
Python爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
Python爬蟲入門【8】：蜂鳥網圖片爬取之三
2019-07-31
Python爬蟲
Python爬蟲入門【6】：蜂鳥網圖片爬取之一
2019-07-30
Python爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
Python爬蟲入門教程 50-100 Python3爬蟲爬取VIP視訊-Python爬蟲6操作
2019-02-14
Python爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
Python爬蟲入門
2020-11-30
Python爬蟲
Node JS爬蟲：爬取瀑布流網頁高清圖
2018-05-17
JS爬蟲網頁
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
Python爬蟲入門【3】：美空網資料爬取
2019-07-30
Python爬蟲
Python爬取王者榮耀英雄皮膚高清圖片
2018-11-07
Python
Python爬蟲入門教程 8-100 蜂鳥網圖片爬取之三
2018-12-20
Python爬蟲
【爬蟲】python爬蟲從入門到放棄
2018-12-20
爬蟲Python
python-爬蟲入門
2024-09-22
Python爬蟲
什麼是Python爬蟲？python爬蟲入門難嗎？
2021-12-27
Python爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
Python爬蟲入門教程 18-100 煎蛋網XXOO圖片抓取
2019-01-04
Python爬蟲
Python爬蟲入門【10】：電子書多執行緒爬取
2019-07-31
Python爬蟲執行緒
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
爬蟲入門基礎-Python
2020-05-09
爬蟲Python
python3 爬蟲入門
2021-09-09
Python爬蟲
Python爬蟲入門，8個常用爬蟲技巧盤點
2018-12-12
Python爬蟲

Python爬蟲入門-爬取pexels高清圖片

相關文章