三十行程式碼教你批量爬取某網站妹紙圖
寫在前面
晚上逛B站的時候,看到這個視訊,我啪的一下就點進去了,很快啊。於是重新復現了功能並做了些小優化,今天分享給大家。還是老規矩在文末會附上完整程式碼,需要的小夥伴自取就好了,能幫助到你的話別忘了點贊關注喔~
鄭重宣告:本人目前僅在CSDN這一個平臺釋出文章,其他小夥伴如果想轉載 或者引用請註明引用來源,未經許可不得直接搬運,請尊重創作人的勞動成果,謝謝!
一、需求分析
爬取網站的小姐姐圖片,並儲存在指定目錄
網站連結: https://www.vmgirls.com/13344.html
效果圖如下:
二、程式設計思路
在爬取網頁時首先要的就是對網頁進行分析,這裡我主要需要的是兩個部分,一個是這組圖的名稱,用來做檔名;另一個是圖片連結,用來下載圖片。
通過對原始碼觀察我發現組圖的名稱在這個<h1>的標籤裡<h1 class="post-title h1">少女情懷總是詩</h1>
,圖片連結的話在這個<a>標籤中<a href="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" alt="少女情懷總是詩" title="少女情懷總是詩"><img alt="少女情懷總是詩-唯美女生" src="data:image/gif;base64,R0lGODlhAQABAIAAAAAAAP///yH5BAEAAAAALAAAAAABAAEAAAIBRAA7" data-src="//static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg" data-nclazyload=true data-pagespeed-lsc-url="https://static.vmgirls.com/image/2019/12/2019122210292813-scaled.jpeg"></a>
好了找到要爬取內容的所在地之後那麼就很簡單了,因為我比較擅長re庫,所以這裡用正規表示式來進行網頁解析,完整程式碼在下邊給出。
三、完整程式碼
import requests
import re
import time
import os
#獲取網頁
kv = {'user-agent':'Mozilla/5.0'}
response = requests.get("https://www.vmgirls.com/13344.html" , headers = kv)
html = response.text
#解析網頁
dir_name = re.findall('<h1 class="post-title h1">(.*?)</h1>',html)[-1] #作為檔名
if not os.path.exists(dir_name):
os.mkdir(dir_name)
urls = re.findall('<a href="(.*?)" alt="少女情懷總是詩".*?</a>',html)
#print(urls)
#儲存圖片到指定檔案
num = 1
for url in urls:
time.sleep(1) #設定爬取時間間隔為1s
#定義圖片的名字
file_name = url.split('/')[-1]
response = requests.get('https:' + url , headers = kv) #制定並獲取圖片連結
with open(dir_name + '/' + file_name,'wb') as f:
f.write(response.content) #因為圖片是二進位制所以用content寫入
print("正在爬取第%d張圖片"%(num))
num = num + 1
f.close()
print("爬取完畢")
然後就可以看到一張張圖片被下載到本地啦,還在等什麼,趕緊試試吧~
引用源自
B站Python學習者 連結:https://www.bilibili.com/video/BV1qJ411S7F6
本篇完,如有錯誤歡迎指出~
相關文章
- 爬取某網站寫的python程式碼網站Python
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- 使用正則編寫簡單的爬蟲爬取某網站的圖片爬蟲網站
- Java爬蟲批量爬取圖片Java爬蟲
- 爬蟲:HTTP請求與HTML解析(爬取某乎網站)爬蟲HTTPHTML網站
- 教你用Python爬取圖蟲網Python
- 某網站加密返回資料加密_爬取過程網站加密
- Python網路爬蟲3 – 生產者消費者模型爬取某金融網站資料Python爬蟲模型網站
- Python網路爬蟲3 - 生產者消費者模型爬取某金融網站資料Python爬蟲模型網站
- 爬取網站新聞網站
- 手把手教你利用爬蟲爬網頁(Python程式碼)爬蟲網頁Python
- Python爬蟲入門教程 2-100 妹子圖網站爬取Python爬蟲網站
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- python爬取網圖Python
- JB的Python之旅-爬取phizhub網站(原始碼)Python網站原始碼
- 利用Python爬取攝影網站圖片,切勿商用Python網站
- 教你用Python爬取妹子圖APPPythonAPP
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- 動態網站的爬取網站
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- 教你用python爬蟲爬blibili網站彈幕!Python爬蟲網站
- 網路爬蟲——Urllib模組實戰專案(含程式碼)爬取你的第一個網站爬蟲網站
- 前端妹紙的進階之路——redux原始碼分析前端Redux原始碼
- 爬蟲福利----妹子圖網MM批量下載爬蟲
- node:爬蟲爬取網頁圖片爬蟲網頁
- 使用 Python 爬取網站資料Python網站
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- 網路爬蟲有什麼用?怎麼爬?手把手教你爬網頁(Python程式碼)爬蟲網頁Python
- Linux下批量ping某個網段ip的指令碼Linux指令碼
- 網站爬取時出現亂碼-強行轉碼第二招網站
- 程式設計師最愛的網站克隆爬取工具- HTTrack程式設計師網站
- JB的Python之旅-爬取phizhub網站Python網站
- 快速爬取登入網站資料網站
- 手把手教你網路爬蟲(爬取豆瓣電影top250,附帶原始碼)爬蟲原始碼
- 爬蟲福利二 之 妹子圖網MM批量下載爬蟲
- 「無程式碼」高效的爬取網頁資料神器網頁
- 爬取愛套圖網上的圖片