Python實現簡單網頁圖片抓取完整程式碼例項
Python實現簡單網頁圖片抓取完整程式碼例項
分類專欄: python
文章標籤: 程式語言 python java 大資料
版權宣告:本文為博主原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處連結和本宣告。
本文連結:https://blog.csdn.net/chengxun03/article/details/106321564
收起
@本文來源於公眾號:csdn2299,喜歡可以關注公眾號 程式設計師學府
這篇文章主要介紹了Python實現簡單網頁圖片抓取完整程式碼例項,具有一定借鑑價值,需要的朋友可以參考下。
利用python抓取網路圖片的步驟是:
1、根據給定的網址獲取網頁原始碼
2、利用正規表示式把原始碼中的圖片地址過濾出來
3、根據過濾出來的圖片地址下載網路圖片
以下是比較簡單的一個抓取某一個百度貼吧網頁的圖片的實現:
# -*- coding: utf-8 -*-
# feimengjuan
import re
import urllib
import urllib2
#抓取網頁圖片
#根據給定的網址來獲取網頁詳細資訊,得到的html就是網頁的原始碼
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
#利用正規表示式把原始碼中的圖片地址過濾出來
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = imgre.findall(html) #表示在整個網頁中過濾出所有圖片的地址,放在imglist中
x = 0
for imgurl in imglist:
urllib.urlretrieve(imgurl,'%s.jpg' %x) #開啟imglist中儲存的圖片網址,並下載圖片儲存在本地
x = x + 1
html = getHtml(")#獲取該網址網頁詳細資訊,得到的html就是網頁的原始碼
getImg(html)#從網頁原始碼中分析並下載儲存圖片
進一步對程式碼進行了整理,在本地建立了一個“圖片”資料夾來儲存圖片
# -*- coding: utf-8 -*-
# feimengjuan
import re
import urllib
import urllib2
import os
#抓取網頁圖片
#根據給定的網址來獲取網頁詳細資訊,得到的html就是網頁的原始碼
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
#建立儲存圖片的資料夾
def mkdir(path):
path = path.strip()
# 判斷路徑是否存在
# 存在 True
# 不存在 Flase
isExists = os.path.exists(path)
if not isExists:
print u'新建了名字叫做',path,u'的資料夾'
# 建立目錄操作函式
os.makedirs(path)
return True
else:
# 如果目錄存在則不建立,並提示目錄已經存在
print u'名為',path,u'的資料夾已經建立成功'
return False
# 輸入檔名,儲存多張圖片
def saveImages(imglist,name):
number = 1
for imageURL in imglist:
splitPath = imageURL.split('.')
fTail = splitPath.pop()
if len(fTail) > 3:
fTail = 'jpg'
fileName = name + "/" + str(number) + "." + fTail
# 對於每張圖片地址,進行儲存
try:
u = urllib2.urlopen(imageURL)
data = u.read()
f = open(fileName,'wb+')
f.write(data)
print u'正在儲存的一張圖片為',fileName
f.close()
except urllib2.URLError as e:
print (e.reason)
number += 1
#獲取網頁中所有圖片的地址
def getAllImg(html):
#利用正規表示式把原始碼中的圖片地址過濾出來
reg = r'src="(.+?\.jpg)" pic_ext'
imgre = re.compile(reg)
imglist = imgre.findall(html) #表示在整個網頁中過濾出所有圖片的地址,放在imglist中
return imglist
#建立本地儲存資料夾,並下載儲存圖片
if __name__ == '__main__':
html = getHtml(")#獲取該網址網頁詳細資訊,得到的html就是網頁的原始碼
path = u'圖片'
mkdir(path) #建立本地資料夾
imglist = getAllImg(html) #獲取圖片的地址列表
saveImages(imglist,path) # 儲存圖片
結果在“圖片”資料夾下儲存了幾十張圖片,如截圖:
非常感謝你的閱讀
大學的時候選擇了自學python,工作了發現吃了計算機基礎不好的虧,學歷不行這是
沒辦法的事,只能後天彌補,於是在編碼之外開啟了自己的逆襲之路,不斷的學習python核心知識,深
入的研習計算機基礎知識,整理好了,我放在我們的微信公眾號《程式設計師學府》,如果你也不甘平庸,
那就與我一起在編碼之外,不斷成長吧!
————————————————
版權宣告:本文為CSDN博主「程式設計師牡蠣」的原創文章,遵循CC 4.0 BY-SA版權協議,轉載請附上原文出處連結及本宣告。
原文連結: https://blog.csdn.net/chengxun03/article/details/106321564
:
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69971700/viewspace-2694552/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- html實現簡單ListViews效果的例項程式碼HTMLView
- python 單一程式例項 實現Python
- 網頁引用百度地圖例項程式碼網頁地圖
- 圖片抓取_千圖網圖片抓取
- 例項:使用puppeteer headless方式抓取JS網頁JS網頁
- HTML 使用表單標籤實現註冊頁面的例項程式碼HTML
- Python訪問小程式簡單方法程式碼例項詳解Python
- 網頁中嵌入百度地圖程式碼例項網頁地圖
- 例項程式碼分享Python實現Linux監控PythonLinux
- 【深度學習基礎-11】簡單線性迴歸(下)--例項及python程式碼實現深度學習Python
- 透過程式碼例項簡單瞭解Python sys模組Python
- 淡入淡出效果簡單程式碼例項
- 實現簡單的輪播圖(單張圖片、多張圖片)
- 127 PHP獲取網頁標題的3種實現方法程式碼例項PHP網頁
- 關於CSS中@support實現漸進式網頁設計例項程式碼CSS網頁
- go語言實現簡單爬蟲獲取頁面圖片Go爬蟲
- python多工抓取圖片Python
- 基於Python PIL實現簡單圖片格式轉化器Python
- PHP 完整表單例項PHP單例
- Python物件導向多型實現原理及程式碼例項Python物件多型
- 網頁倒數計時跳轉程式碼例項網頁
- django 網站實現簡單分頁Django網站
- 騰牛網抓取(單頁)
- Python併發程式設計:提高網頁抓取效率實踐指南Python程式設計網頁
- 簡單的python程式碼實現語音朗讀Python
- 為javaweb的頁面、html新增網站圖示簡單程式碼JavaWebHTML網站
- vuejs實現新增tag標籤程式碼例項VueJS
- 5種PHP生成圖片驗證碼例項PHP
- 【例項】使用GD庫生成圖片驗證碼
- 使用chromedriver抓取網頁截圖Chrome網頁
- 簡單介紹正規表示式拆分url例項程式碼
- js圖片切換例項JS
- python類例項化如何實現Python
- 【Python】Python抓取分享頁面的原始碼示例Python原始碼
- Python簡單函式迴圈綜合例項Python函式
- 完整的python專案例項-Python例項練手專案彙總(附原始碼)Python原始碼
- JavaScript 表單驗證程式碼例項JavaScript
- MyCat分片:水平拆分例項解析和程式碼實現!