Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

肖朋偉發表於2019-06-16

原文網址 : https://www.cnblogs.com/xpwi/p/11029392.html

Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

其實沒太大用，就是方便一些，因為現在各個平臺之間的圖片都不能共享，比如說在 CSDN 不能用簡書的圖片，在部落格園不能用 CSDN 的圖片。
當前想到的方案就是：先把 CSDN 上的圖片都下載下來，再手動更新吧。
所以簡單寫了一個爬蟲用來下載 CSDN 平臺上的圖片，用於在其他平臺上更新圖片時用

更多內容，請看程式碼註釋

效果演示

Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

Python 原始碼

提示：需要先下載 BeautifulSoup 哦，可以用 pip，也可以直接在 PyCharm 中安裝
簡單的方法：

Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

# coding:utf-8
'''
使用爬蟲下載圖片：
1.使用 CSDN 部落格
2.獲取圖片連線，並下載圖片
3.可去除水印

作者：java997.com
'''

import re
from urllib import request
from bs4 import BeautifulSoup
import datetime


# 構造無水印純連結陣列
def get_url_array(all_img_href):
    img_urls = []
    for h in all_img_href:
        # 去掉水印
        if re.findall("(.*?)\?", h[1]):
            h = re.findall("(.*?)\?", h[1])
            # 因為這裡匹配就只有 src 了, 所以直接用 0
            img_urls.append(h[0])
        else:
            # 因為這裡還沒有處理有 alt 的情況, 所以直接用 1
            img_urls.append(h[1])

    return img_urls


# 構建新目錄的方法
def mkdir(path):
    # 引入模組
    import os

    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符號
    path = path.rstrip("\\")

    # 判斷路徑是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)

    # 判斷結果
    if not isExists:
        # 如果不存在則建立目錄
        # 建立目錄操作函式
        os.makedirs(path)

        print('目錄 ' + path + ' 建立成功')
        return True
    else:
        # 如果目錄存在則不建立，並提示目錄已存在
        print('目錄 ' + path + ' 已存在')
        return False


if __name__ == '__main__':

    # url = input("請貼上部落格連結")
    url = "https://blog.csdn.net/qq_40147863/article/details/90484190"

    # 獲取頁面 html
    rsp = request.urlopen(url)
    all_html = rsp.read()

    # 一鍋清湯
    soup = BeautifulSoup(all_html, 'lxml')

    # bs 自動解碼
    content = soup.prettify()

    # 獲取標題
    tags = soup.find_all(name='title')
    for i in tags:
        # .string 是去掉標籤, 只列印內容
        print(i.string)

    # 獲取正文部分
    article = soup.find_all(name='article')
    # print(article[0])

    # 獲取圖片的連結
    all_img_href = re.findall('<img(.*?)src="(.*?)"', str(article))

    # 呼叫函式, 獲取去掉水印後的連結陣列
    img_urls = get_url_array(all_img_href);

    # 用當前之間為目錄名, 建立新目錄
    now_time = datetime.datetime.now()
    now_time_str = datetime.datetime.strftime(now_time, '%Y_%m_%d_%H_%M_%S')
    mkdir(now_time_str)

    print("----------下載圖片-------------")
    i = 0
    for m in img_urls:
        # 由於沒有精確匹配，並不是所有連線都是我們要的課程的連線，排出第一張圖片
        print('正在下載第' + str(i) + '張：' + m)

        # 爬取每個網頁圖片的連線
        img_url = request.urlopen(m).read()

        # img 目錄【必須手動建立好】
        fp = open(now_time_str+'\\' + str(i) + '.jpg', 'wb')

        # 寫入本地檔案
        fp.write(img_url)

        # 目前沒有想到更好的方式，暫時只能寫一次，關閉一次，如果有更好的歡迎討論
        fp.close()
        i += 1

使用Python爬蟲實現自動下載圖片
2021-09-11
Python爬蟲
Python 爬蟲目標：千圖網VIP高清無水印下載即用
2020-03-29
Python爬蟲
Python爬取CSDN部落格資料
2019-01-03
Python
如何去除CSDN部落格圖片水印
2020-04-08
Python爬蟲之BeautifulSoup
2019-02-16
Python爬蟲
Python爬蟲之BeautifulSoup庫
2020-12-14
Python爬蟲
python爬蟲：使用BeautifulSoup修改網頁內容
2020-04-05
Python爬蟲網頁
python 小爬蟲 DrissionPage+BeautifulSoup
2024-06-16
Python爬蟲
爬蟲 Scrapy框架爬取圖蟲圖片並下載
2018-08-27
爬蟲框架
python 爬蟲下載百度美女圖片
2024-04-18
Python爬蟲
Python爬蟲實戰詳解：爬取圖片之家
2020-11-04
Python爬蟲
【python--爬蟲】千圖網高清背景圖片爬蟲
2019-05-21
Python爬蟲
01、部落格爬蟲
2019-04-11
爬蟲
python爬蟲系列(4.5-使用urllib模組方式下載圖片)
2018-11-09
Python爬蟲
python爬蟲之 BeautifulSoup庫入門
2019-12-09
Python爬蟲
如何轉載CSDN部落格
2018-04-27
python爬蟲---網頁爬蟲，圖片爬蟲，文章爬蟲，Python爬蟲爬取新聞網站新聞
2019-01-04
Python爬蟲網頁網站
Python爬蟲—爬取某網站圖片
2020-11-19
Python爬蟲網站
如何用Python爬蟲實現百度圖片自動下載？
2019-03-01
Python爬蟲
python爬蟲常用庫之BeautifulSoup詳解
2018-04-01
Python爬蟲
用雲函式快速實現圖片爬蟲
2018-11-02
函式爬蟲
[雪峰磁針石部落格]python爬蟲cookbook1爬蟲入門
2018-09-10
Python爬蟲
python 爬蟲之requests爬取頁面圖片的url，並將圖片下載到本地
2019-06-12
Python爬蟲
Python爬蟲入門【5】：27270圖片爬取
2019-07-30
Python爬蟲
部落格圖片
2020-11-18
Python爬蟲實戰一：爬取csdn學院所有課程名、價格和課時
2018-06-23
Python爬蟲
實用爬蟲-03-爬取視訊教程課程名+連結+下載圖片
2018-10-29
爬蟲
【爬蟲工具】下載部落格轉成Markdown的形式
2019-02-16
爬蟲
Python網路爬蟲2 - 爬取新浪微博使用者圖片
2018-04-10
Python爬蟲
實現爬取csdn個人部落格並匯出資料
2020-09-24
ReactPHP 爬蟲實戰：下載整個網站的圖片
2019-01-20
ReactPHP爬蟲網站
Python3爬取CSDN個人部落格相關資料--新增GUI圖形化介面
2020-12-11
PythonGUI
Python爬蟲新手教程：知乎文章圖片爬取器
2019-07-20
Python爬蟲
Python爬蟲遞迴呼叫爬取動漫美女圖片
2020-10-19
Python爬蟲遞迴
Java爬蟲批量爬取圖片
2021-09-24
Java爬蟲
python網路爬蟲應用_python網路爬蟲應用實戰
2020-12-29
Python爬蟲
python爬去百度美女吧圖片
2018-04-01
Python
11.18爬蟲學習（BeautifulSoup類）
2024-11-18
爬蟲

Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

Python 實用爬蟲-04-使用 BeautifulSoup 去水印下載 CSDN 部落格圖片

效果演示

Python 原始碼

相關文章