使用正則編寫簡單的爬蟲爬取某網站的圖片

weixin_34236497發表於2018-06-06

原文網址 : https://blog.csdn.net/weixin_34236497/article/details/87256815

思路:簡單的爬蟲實際上主要是通過檢視頁面原始碼，檢視圖片標籤的表示格式，然後在編寫正則進行匹配。

import urllib.request
import codecs
import hashlib
import time
import re
# 使用codecs實現檔案自動編碼
def parseHtml(url):
    webPage = urllib.request.urlopen(url)
    data = webPage.read()
    data = data.decode('utf-8')
    reg = r'(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')' 
    htmlre = re.compile(reg)
    htmllist = re.findall(htmlre, data)
    getImg(data)
    return set(htmllist)
    
# 獲得圖片地址
def getImg(html):
        reg = r'src="(http://*.*?\.jpg)"'        # 定義一個正則來匹配頁面當中的圖片
        imgre = re.compile(reg)         # 為了讓正則更快，給它來個編譯
        #這個時候做個測試，把匹配的資料都給列印出來
        imglist = re.findall(imgre, html)                       # 通過正則返回所有資料列表
        # 把這個地址一個一個的拿下來進行下載
        x = 0   
        for imgurl in imglist:
            m=hashlib.md5()
            m.update(url.encode('utf-8'))
            m.update(str(time.time()).encode('utf-8'))
            filename=r'%s.jpg'% m.hexdigest()
            try:
                urllib.request.urlretrieve(imgurl,'C:/Users/GuiRunning/Desktop/hello/%s' %(filename))
            except BaseException as e:
                continue
            x+=1
        print('爬蟲完成,爬到%s張圖片' %(x))
url='http://www.nipic.com/photo'    
list=parseHtml(url)
for item in list:
    print(item)
    if(item.find("http://") == -1):
        item='http://www.nipic.com'+item        
        try:
            parseHtml(item)
        except urllib.error.HTTPError as e:
            continue
print('爬蟲結束')

爬取結果：

image.png

Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
簡單的爬蟲：爬取網站內容正文與圖片
2021-09-09
爬蟲網站
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
最簡單的網路圖片的爬取 --Pyhon網路爬蟲與資訊獲取
2020-04-04
爬蟲
【Python爬蟲】正則爬取趕集網
2020-12-24
Python爬蟲
node：爬蟲爬取網頁圖片
2019-02-16
爬蟲網頁
爬取某網站寫的python程式碼
2019-11-29
網站Python
爬蟲搭建代理池、爬取某網站影片案例、爬取新聞案例
2023-03-16
爬蟲網站
python 爬蟲 mc 皮膚站 little skin 的簡單爬取
2019-08-02
Python爬蟲
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
網路爬蟲---從千圖網爬取圖片到本地
2019-09-03
爬蟲
爬蟲Selenium+PhantomJS爬取動態網站圖片資訊（Python）
2018-03-24
爬蟲JS網站Python
爬蟲：HTTP請求與HTML解析（爬取某乎網站）
2021-05-19
爬蟲HTTPHTML網站
爬蟲---xpath解析（爬取美女圖片）
2020-12-23
爬蟲
Golang爬蟲，Go&&正則爬取資料，槓桿的
2022-01-13
Golang爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
教你如何編寫第一個簡單的爬蟲
2020-02-16
爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
用PYTHON爬蟲簡單爬取網路小說
2021-09-11
Python爬蟲
使用JavaScript編寫的爬蟲程式
2023-11-07
JavaScript爬蟲
使用nodeJS寫一個簡單的小爬蟲
2018-12-25
NodeJS爬蟲
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
python爬蟲:爬蟲的簡單介紹及requests模組的簡單使用
2022-02-24
Python爬蟲
使用 Kotlin DSL 編寫網路爬蟲
2024-03-26
Kotlin爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
C語言爬蟲程式編寫的爬取APP通用模板
2024-01-17
C語言爬蟲APP
新手爬蟲教程：Python爬取知乎文章中的圖片
2019-01-17
爬蟲Python
go語言實現簡單爬蟲獲取頁面圖片
2022-11-14
Go爬蟲
Node.js爬取妹子圖-crawler爬蟲的使用
2018-04-04
Node.js爬蟲
寫爬蟲，不會正則怎麼行？
2019-08-16
爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
如何使用robots禁止各大搜尋引擎爬蟲爬取網站
2018-08-28
爬蟲網站
ReactPHP 爬蟲實戰：下載整個網站的圖片
2019-01-20
ReactPHP爬蟲網站
Python爬蟲入門教程 2-100 妹子圖網站爬取
2018-12-13
Python爬蟲網站
Python網路爬蟲（正則, 內涵段子，貓眼電影, 鏈家爬取）
2018-10-30
Python爬蟲
簡單的爬蟲程式
2024-03-24
爬蟲
爬取愛套圖網上的圖片
2018-03-28
Python爬蟲入門【4】：美空網未登入圖片爬取
2019-07-30
Python爬蟲

使用正則編寫簡單的爬蟲爬取某網站的圖片

相關文章