爬蟲福利二之妹子圖網MM批量下載

Nick Peng發表於2020-01-11

原文網址 : https://blog.csdn.net/PY0312/article/details/101087356

爬蟲

爬蟲福利一：27報網MM批量下載點選

看了本文，相信大家對爬蟲一定會產生強烈的興趣，激勵自己去學習爬蟲，在這裡提前祝：大家學有所成！

目標網站：妹子圖網

環境：Python3.x

相關第三方模組：requests、beautifulsoup4

Re：各位在測試時只需要將程式碼裡的變數 path 指定為你當前系統要儲存的路徑，使用 python xxx.py 或IDE執行即可。

完整原始碼如下：（文末有更大的福利，希望親們喜歡。。。）

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
import os

all_url = 'https://www.mzitu.com'

# http請求頭
Hostreferer = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer': 'http://www.mzitu.com'
}
# 此請求頭Referer破解盜圖連結
Picreferer = {
    'User-Agent': 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)',
    'Referer': 'http://i.meizitu.net'
}

# 對mzitu主頁all_url發起請求，將返回的HTML資料儲存，便於解析
start_html = requests.get(all_url, headers=Hostreferer)

# Linux儲存地址
# path = '/home/Nick/Desktop/mzitu/'

# Windows儲存地址
path = 'E:/mzitu/'

# 獲取最大頁數
soup = BeautifulSoup(start_html.text, "html.parser")
page = soup.find_all('a', class_='page-numbers')
max_page = page[-2].text


# same_url = 'http://www.mzitu.com/page/'   # 主頁預設最新圖片
# 獲取每一類MM的網址
same_url = 'https://www.mzitu.com/mm/page/'     # 也可以指定《qingchun MM系列》

for n in range(1, int(max_page) + 1):
    # 拼接當前類MM的所有url
    ul = same_url + str(n)

    # 分別對當前類每一頁第一層url發起請求
    start_html = requests.get(ul, headers=Hostreferer)

    # 提取所有MM的標題
    soup = BeautifulSoup(start_html.text, "html.parser")
    all_a = soup.find('div', class_='postlist').find_all('a', target='_blank')

    # 遍歷所有MM的標題
    for a in all_a:
        # 提取標題文字，作為資料夾名稱
        title = a.get_text()
        if(title != ''):
            print("準備扒取：" + title)

            # windows不能建立帶？的目錄，新增判斷邏輯
            if(os.path.exists(path + title.strip().replace('?', ''))):
                # print('目錄已存在')
                flag = 1
            else:
                os.makedirs(path + title.strip().replace('?', ''))
                flag = 0
            # 切換到上一步建立的目錄
            os.chdir(path + title.strip().replace('?', ''))

            # 提取第一層每一個MM的url，併發起請求
            href = a['href']
            html = requests.get(href, headers=Hostreferer)
            mess = BeautifulSoup(html.text, "html.parser")

            # 獲取第二層最大頁數
            pic_max = mess.find_all('span')
            pic_max = pic_max[9].text
            if(flag == 1 and len(os.listdir(path + title.strip().replace('?', ''))) >= int(pic_max)):
                print('已經儲存完畢，跳過')
                continue

            # 遍歷第二層每張圖片的url
            for num in range(1, int(pic_max) + 1):
                # 拼接每張圖片的url
                pic = href + '/' + str(num)

                # 發起請求
                html = requests.get(pic, headers=Hostreferer)
                mess = BeautifulSoup(html.text, "html.parser")
                pic_url = mess.find('img', alt=title)
                print(pic_url['src'])
                html = requests.get(pic_url['src'], headers=Picreferer)

                # 提取圖片名字
                file_name = pic_url['src'].split(r'/')[-1]

                # 儲存圖片
                f = open(file_name, 'wb')
                f.write(html.content)
                f.close()
            print('完成')
    print('第', n, '頁完成')

扒圖步驟分析：（送給有興趣的朋友）

1、獲取網頁原始碼

開啟mzitu網址，用瀏覽器的F12可以看到網頁的請求過程及原始碼

該步驟程式碼如下：

#coding=utf-8

import requests

url = 'http://www.mzitu.com'

#設定headers，網站會根據這個判斷你的瀏覽器及作業系統，很多網站沒有此資訊將拒絕你訪問
header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

#用get方法開啟url併傳送headers
html = requests.get(url,headers = header)

#列印結果 .text是列印出文字資訊即原始碼
print(html.text)

返回的響應，如果沒問題的話結果和下面類似，這些就是網頁的原始碼了。

<html>
<body>

......

        $("#index_banner_load").find("div").appendTo("#index_banner");
        $("#index_banner").css("height", 90);
        $("#index_banner_load").remove();
});
</script>
</body>
</html>

2、提取所需資訊

將獲取的原始碼轉換為BeautifulSoup物件
使用find搜尋需要的資料，儲存到容器中

該步驟程式碼如下：

#coding=utf-8

import requests
from bs4 import BeautifulSoup

url = 'http://www.mzitu.com'
header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

html = requests.get(url,headers = header)

#使用自帶的html.parser解析，速度慢但通用
soup = BeautifulSoup(html.text,'html.parser')

#實際上是第一個class = 'postlist'的div裡的所有a 標籤是我們要找的資訊
all_a = soup.find('div',class_='postlist').find_all('a',target='_blank')

for a in all_a:
    title = a.get_text() #提取文字
    print(title)

如下就找到了當頁所有套圖的標題：

注意：BeautifulSoup()返回的型別是<class 'bs4.BeautifulSoup'>
find()返回的型別是<class 'bs4.element.Tag'>
find_all()返回的型別是<class 'bs4.element.ResultSet'>
<class 'bs4.element.ResultSet'>不能再進項find/find_all操作

3、進入第二層頁面，進行下載操作

點進一個套圖之後，發現他是每個頁面顯示一個圖片，這時我們需要知道他的總頁數，比如：http://www.mzitu.com/26685是某個套圖的第一頁，後面的頁數都是再後面跟/和數字http://www.mzitu.com/26685/2 (第二頁)，那麼很簡單了，我們只需要找到他一共多少頁，然後用迴圈組成頁數就OK了。

該步驟程式碼如下：

#coding=utf-8

import requests
from bs4 import BeautifulSoup

url = 'http://www.mzitu.com/26685'
header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

html = requests.get(url,headers = header)
soup = BeautifulSoup(html.text,'html.parser')

#最大頁數在span標籤中的第10個
pic_max = soup.find_all('span')[10].text
print(pic_max)

#輸出每個圖片頁面的地址
for i in range(1,int(pic_max) + 1):
    href = url+'/'+str(i)
    print(href)

那麼我們接下來就是進行尋找圖片地址，儲存下來；右鍵MM圖片，點選檢查可以發現如圖：

<img src="https://i5.meizitu.net/2019/07/01b56.jpg" alt="xxxxxxxxxxxxxxxxxxxxxxxxx" width="728" height="485">

如圖所示，上面就是我們MM圖片的具體地址了，儲存它即可。

該步驟程式碼如下：

#coding=utf-8

import requests
from bs4 import BeautifulSoup

url = 'http://www.mzitu.com/26685'
header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.102 UBrowser/6.1.2107.204 Safari/537.36'}

html = requests.get(url,headers = header)
soup = BeautifulSoup(html.text,'html.parser')

#最大頁數在span標籤中的第10個
pic_max = soup.find_all('span')[10].text

#找標題
title = soup.find('h2',class_='main-title').text

#輸出每個圖片頁面的地址
for i in range(1,int(pic_max) + 1):
    href = url+'/'+str(i)
    html = requests.get(href,headers = header)
    mess = BeautifulSoup(html.text,"html.parser")


    #圖片地址在img標籤alt屬性和標題一樣的地方
    pic_url = mess.find('img',alt = title)

    html = requests.get(pic_url['src'],headers = header)

    #獲取圖片的名字方便命名
    file_name = pic_url['src'].split(r'/')[-1]

    #圖片不是文字檔案，以二進位制格式寫入，所以是html.content
    f = open(file_name,'wb')
    f.write(html.content)
    f.close()

到此分析結束，完整程式碼見文章開頭......

福利三：完善後的程式碼已打包成軟體，在這裡也送給親們...

百度網盤連結：https://pan.baidu.com/s/1tuxrsZMB3g_0sbxA6w47MA 提取碼：z19p

爬蟲福利----妹子圖網MM批量下載
2020-01-06
爬蟲
第二彈！python爬蟲批量下載高清大圖
2019-10-06
Python爬蟲
Java爬蟲之批量下載LibreStock圖片（可輸入關鍵詞查詢下載）
2019-02-19
Java爬蟲REST
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
爬蟲第二彈：千圖網電商淘寶模板圖片下載
2018-06-14
爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
Golang福利爬蟲
2018-08-02
Golang爬蟲
ReactPHP 爬蟲實戰：下載整個網站的圖片
2019-01-20
ReactPHP爬蟲網站
堆糖網爬蟲(根據關鍵字下載圖片)
2021-10-24
爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
分散式爬蟲的部署之Scrapyd批量部署
2018-06-04
分散式爬蟲
python 爬蟲下載百度美女圖片
2024-04-18
Python爬蟲
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
【python--爬蟲】彼岸圖網高清桌布爬蟲
2019-07-21
Python爬蟲
使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
python爬蟲之js逆向（二）
2019-11-05
Python爬蟲JS
Python爬蟲入門【7】：蜂鳥網圖片爬取之二
2019-07-31
Python爬蟲
中小學教材下載爬蟲
2020-07-24
爬蟲
Scrapy框架爬取海量妹子圖
2018-08-30
框架
網路爬蟲大型教程(二)
2018-05-14
爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
Python爬蟲全網搜尋並下載音樂
2021-02-14
Python爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
scrapy 也能爬取妹子圖？（5）
2018-12-14
Python Selenium+PhantomJs 爬煎蛋妹子圖
2020-04-06
PythonJS
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
京東商品圖片自動下載抓取 c# 爬蟲
2020-09-30
C#爬蟲
自學python網路爬蟲，從小白快速成長，分別實現靜態網頁爬取，下載meiztu中圖片；動態網頁爬取，下載burberry官網所有當季新品圖片。
2020-02-06
Python爬蟲網頁
Java爬蟲爬取bing必應每日一圖背景圖下載到本地(HttpClient+Jsoup+Jackson)
2020-10-20
Java爬蟲HTTPclientJS
反爬蟲之字型反爬蟲
2019-06-27
爬蟲
Python爬蟲——批次爬取douyin影片，下載到本地
2024-12-06
Python爬蟲
GB標準文件爬蟲下載程式
2024-04-11
爬蟲
如何用python爬蟲下載小說？
2021-09-11
Python爬蟲
Python爬蟲入門【9】：圖蟲網多執行緒爬取
2019-07-31
Python爬蟲執行緒
教你用Python爬取妹子圖APP
2018-08-30
PythonAPP

爬蟲福利二 之 妹子圖網MM批量下載

爬蟲福利一：27報網MM批量下載 點選

完整原始碼如下：（文末有更大的福利，希望親們喜歡。。。）

扒圖步驟分析：（送給有興趣的朋友）

福利三：完善後的程式碼已打包成軟體，在這裡也送給親們...

相關文章

爬蟲福利二之妹子圖網MM批量下載

爬蟲福利一：27報網MM批量下載點選