使用正則編寫簡單的爬蟲爬取某網站的圖片
思路:簡單的爬蟲實際上主要是通過檢視頁面原始碼,檢視圖片標籤的表示格式,然後在編寫正則進行匹配。
import urllib.request
import codecs
import hashlib
import time
import re
# 使用codecs實現檔案自動編碼
def parseHtml(url):
webPage = urllib.request.urlopen(url)
data = webPage.read()
data = data.decode('utf-8')
reg = r'(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')'
htmlre = re.compile(reg)
htmllist = re.findall(htmlre, data)
getImg(data)
return set(htmllist)
# 獲得圖片地址
def getImg(html):
reg = r'src="(http://*.*?\.jpg)"' # 定義一個正則來匹配頁面當中的圖片
imgre = re.compile(reg) # 為了讓正則更快,給它來個編譯
#這個時候做個測試,把匹配的資料都給列印出來
imglist = re.findall(imgre, html) # 通過正則返回所有資料列表
# 把這個地址一個一個的拿下來進行下載
x = 0
for imgurl in imglist:
m=hashlib.md5()
m.update(url.encode('utf-8'))
m.update(str(time.time()).encode('utf-8'))
filename=r'%s.jpg'% m.hexdigest()
try:
urllib.request.urlretrieve(imgurl,'C:/Users/GuiRunning/Desktop/hello/%s' %(filename))
except BaseException as e:
continue
x+=1
print('爬蟲完成,爬到%s張圖片' %(x))
url='http://www.nipic.com/photo'
list=parseHtml(url)
for item in list:
print(item)
if(item.find("http://") == -1):
item='http://www.nipic.com'+item
try:
parseHtml(item)
except urllib.error.HTTPError as e:
continue
print('爬蟲結束')
爬取結果:
相關文章
- Python爬蟲—爬取某網站圖片Python爬蟲網站
- 簡單的爬蟲:爬取網站內容正文與圖片爬蟲網站
- 最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取爬蟲
- python爬蟲---網頁爬蟲,圖片爬蟲,文章爬蟲,Python爬蟲爬取新聞網站新聞Python爬蟲網頁網站
- node:爬蟲爬取網頁圖片爬蟲網頁
- 【Python爬蟲】正則爬取趕集網Python爬蟲
- 爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例爬蟲網站
- Java爬蟲批量爬取圖片Java爬蟲
- 爬取某網站寫的python程式碼網站Python
- 網路爬蟲---從千圖網爬取圖片到本地爬蟲
- Golang爬蟲,Go&&正則爬取資料,槓桿的Golang爬蟲
- 爬蟲:HTTP請求與HTML解析(爬取某乎網站)爬蟲HTTPHTML網站
- 爬蟲---xpath解析(爬取美女圖片)爬蟲
- python 爬蟲 mc 皮膚站 little skin 的簡單爬取Python爬蟲
- 爬蟲 Scrapy框架 爬取圖蟲圖片並下載爬蟲框架
- 用PYTHON爬蟲簡單爬取網路小說Python爬蟲
- Python網路爬蟲2 - 爬取新浪微博使用者圖片Python爬蟲
- 教你如何編寫第一個簡單的爬蟲爬蟲
- 使用JavaScript編寫的爬蟲程式JavaScript爬蟲
- Python爬蟲學習(5): 簡單的爬取Python爬蟲
- 蘇寧易購網址爬蟲爬取商品資訊及圖片爬蟲
- Python 爬蟲入門 (二) 使用Requests來爬取圖片Python爬蟲
- python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用Python爬蟲
- 爬蟲Selenium+PhantomJS爬取動態網站圖片資訊(Python)爬蟲JS網站Python
- Python爬蟲爬取美劇網站Python爬蟲網站
- 新手爬蟲教程:Python爬取知乎文章中的圖片爬蟲Python
- C語言爬蟲程式編寫的爬取APP通用模板C語言爬蟲APP
- 【python--爬蟲】千圖網高清背景圖片爬蟲Python爬蟲
- go語言實現簡單爬蟲獲取頁面圖片Go爬蟲
- 爬蟲學習之一個簡單的網路爬蟲爬蟲
- 寫爬蟲,不會正則怎麼行?爬蟲
- 使用nodeJS寫一個簡單的小爬蟲NodeJS爬蟲
- Python爬蟲入門【5】:27270圖片爬取Python爬蟲
- Python爬蟲學習(6): 爬取MM圖片Python爬蟲
- Python3 大型網路爬蟲實戰 003 — scrapy 大型靜態圖片網站爬蟲專案實戰 — 實戰:爬取 169美女圖片網 高清圖片Python爬蟲網站
- 如何使用robots禁止各大搜尋引擎爬蟲爬取網站爬蟲網站
- 基於RxJava2實現的簡單圖片爬蟲RxJava爬蟲
- ReactPHP 爬蟲實戰:下載整個網站的圖片ReactPHP爬蟲網站