三十行程式碼教你批量爬取某網站妹紙圖

Mr.Q*發表於2020-11-30

原文網址 : https://lj-0cas1.blog.csdn.net/article/details/110359635

行程網站

檔案目錄

寫在前面

晚上逛B站的時候，看到這個視訊，我啪的一下就點進去了，很快啊。於是重新復現了功能並做了些小優化，今天分享給大家。還是老規矩在文末會附上完整程式碼，需要的小夥伴自取就好了，能幫助到你的話別忘了點贊關注喔~

鄭重宣告:本人目前僅在CSDN這一個平臺釋出文章，其他小夥伴如果想轉載或者引用請註明引用來源，未經許可不得直接搬運，請尊重創作人的勞動成果，謝謝！

在這裡插入圖片描述

一、需求分析

爬取網站的小姐姐圖片，並儲存在指定目錄

網站連結: https://www.vmgirls.com/13344.html

效果圖如下：

在這裡插入圖片描述

二、程式設計思路

在爬取網頁時首先要的就是對網頁進行分析，這裡我主要需要的是兩個部分，一個是這組圖的名稱，用來做檔名；另一個是圖片連結，用來下載圖片。

通過對原始碼觀察我發現組圖的名稱在這個<h1>的標籤裡<h1 class="post-title h1">少女情懷總是詩</h1>，圖片連結的話在這個<a>標籤中<a href="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" alt="少女情懷總是詩" title="少女情懷總是詩"><img alt="少女情懷總是詩-唯美女生" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" data-src="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" data-nclazyload=true data-pagespeed-lsc-url="https://static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg"></a>好了找到要爬取內容的所在地之後那麼就很簡單了，因為我比較擅長re庫，所以這裡用正規表示式來進行網頁解析，完整程式碼在下邊給出。

三、完整程式碼

import requests
import re
import time
import os

#獲取網頁
kv = {'user-agent':'Mozilla/5.0'}
response = requests.get("https://www.vmgirls.com/13344.html" , headers = kv)
html = response.text

#解析網頁
dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1] #作為檔名
if not os.path.exists(dir_name):
    os.mkdir(dir_name)

urls = re.findall('<a href="(.*?)" alt="少女情懷總是詩".*?</a>',html)
#print(urls)

#儲存圖片到指定檔案
num = 1
for url in urls:
    time.sleep(1) #設定爬取時間間隔為1s
    #定義圖片的名字
    file_name = url.split('/')[-1]
    response = requests.get('https:' + url , headers = kv) #制定並獲取圖片連結
    with open(dir_name + '/' + file_name,'wb') as f:
        f.write(response.content) #因為圖片是二進位制所以用content寫入
    print("正在爬取第%d張圖片"%(num))
    num = num + 1

f.close()
print("爬取完畢")

然後就可以看到一張張圖片被下載到本地啦，還在等什麼，趕緊試試吧~

在這裡插入圖片描述

引用源自

B站Python學習者 連結：https://www.bilibili.com/video/BV1qJ411S7F6

本篇完，如有錯誤歡迎指出~

爬取某網站寫的python程式碼
2019-11-29
網站Python
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
使用正則編寫簡單的爬蟲爬取某網站的圖片
2018-06-06
爬蟲網站
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
教你用Python爬取圖蟲網
2019-02-26
Python
某網站加密返回資料加密_爬取過程
2024-06-08
網站加密
Python網路爬蟲3 – 生產者消費者模型爬取某金融網站資料
2019-02-28
Python爬蟲模型網站
Python網路爬蟲3 - 生產者消費者模型爬取某金融網站資料
2018-05-01
Python爬蟲模型網站
爬取網站新聞
2020-09-24
網站
手把手教你利用爬蟲爬網頁（Python程式碼）
2019-05-14
爬蟲網頁Python
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
python爬取網圖
2019-10-15
Python
JB的Python之旅-爬取phizhub網站（原始碼）
2019-03-01
Python網站原始碼
利用Python爬取攝影網站圖片，切勿商用
2018-12-18
Python網站
教你用Python爬取妹子圖APP
2018-08-30
PythonAPP
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
動態網站的爬取
2018-08-29
網站
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
教你用python爬蟲爬blibili網站彈幕！
2021-03-22
Python爬蟲網站
網路爬蟲——Urllib模組實戰專案（含程式碼）爬取你的第一個網站
2020-02-12
爬蟲網站
前端妹紙的進階之路——redux原始碼分析
2018-06-04
前端Redux原始碼
爬蟲福利----妹子圖網MM批量下載
2020-01-06
爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
使用 Python 爬取網站資料
2024-07-27
Python網站
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
網路爬蟲有什麼用？怎麼爬？手把手教你爬網頁（Python程式碼）
2019-04-24
爬蟲網頁Python
Linux下批量ping某個網段ip的指令碼
2018-05-22
Linux指令碼
網站爬取時出現亂碼-強行轉碼第二招
2020-09-10
網站
程式設計師最愛的網站克隆爬取工具- HTTrack
2020-03-25
程式設計師網站
JB的Python之旅-爬取phizhub網站
2019-02-21
Python網站
快速爬取登入網站資料
2020-11-20
網站
手把手教你網路爬蟲（爬取豆瓣電影top250，附帶原始碼）
2023-03-04
爬蟲原始碼
爬蟲福利二之妹子圖網MM批量下載
2020-01-11
爬蟲
「無程式碼」高效的爬取網頁資料神器
2021-10-18
網頁
爬取網站總是被封？大神教你搭建Cookies池，以後遠離IP被封
2018-12-17
網站Cookie

三十行程式碼教你批量爬取某網站妹紙圖

檔案目錄

寫在前面

一、需求分析

二、程式設計思路

三、完整程式碼

引用源自

相關文章