爬取部落格園文章

noneplus發表於2020-07-31

原文網址 : https://www.cnblogs.com/noneplus/p/13412934.html

一直想整個爬蟲玩玩，之前用Java試過...的確是術業有專攻啊，Python寫起爬蟲來更加方便

今天的成果：

main檔案

主要的方法都封裝在了spider-cnblogs裡了，這裡主要傳遞一個url，待會程式碼貼在後邊

spider-cnblogs

大致的思路是這樣的，先用requests傳送請求，然後使用BeautifulSoup進行html解析，（推薦使用CSS選擇器的方式獲取想要的內容），解析完成後持久化到資料庫，這裡使用了阿里雲的ECS，裡面安裝了一個MySQL。

程式碼

main.py

from black_fish.cnblogs.spider_cnblogs import Cnblogs

if __name__ == '__main__':
    # index,48,候選
    Cnblogs.executeSpider("https://www.cnblogs.com")
    Cnblogs.executeSpider("https://www.cnblogs.com/aggsite/topviews")
    Cnblogs.executeSpider("https://www.cnblogs.com/candidate/")

spider-cnblogs

import requests
from bs4 import BeautifulSoup
import pymysql

class Cnblogs:
    def __init__(self, id, title, href, date, star_num, comment_num, view_num):
        self.id = id
        self.title = title
        self.href = href
        self.date = date
        self.star_num = star_num
        self.view_num = view_num
        self.comment_num = comment_num

    def print(self):
        print(self.id, self.title, self.href, self.date, self.star_num, self.comment_num, self.view_num)

    def executeSpider(cnblogs_url):
        response = requests.get(cnblogs_url);

        bs = BeautifulSoup(response.text);

        # 獲取標題&連結
        mainItems = bs.select(".post-item-title");

        # 獲取釋出日期，點贊數，評論數，瀏覽量
        timeItems = bs.select(".post-item-foot>.post-meta-item span");

        t_list = []

        for t_index, timeItem in enumerate(timeItems):
            t_list.append(timeItem.string)

        db = pymysql.connect("47.103.6.247", "username", "password", "black_fish_db")

        cursor = db.cursor()

        sql = "insert into cnblogs(title, href, date, star_num, comment_num, view_num) value(%s,%s,%s,%s,%s,%s)"

        for m_index, main_item in enumerate(mainItems):
            cnblog = Cnblogs(0, main_item.string, main_item.attrs['href'],
                             t_list[m_index * 4], int(t_list[m_index * 4 + 1]), int(t_list[m_index * 4 + 2]),
                             int(t_list[m_index * 4 + 3]))
            val = (cnblog.title, cnblog.href, cnblog.date, cnblog.star_num, cnblog.comment_num, cnblog.view_num)
            print(val)
            cursor.execute(sql, val)
        db.commit()

        db.close()

諮詢部落格園文章如何維權
2018-06-10
Go秒爬部落格園100頁新聞
2018-08-01
Go
部落格園文章自動新增目錄-3級
2020-06-06
【轉載】如何轉發部落格園中的文章
2024-10-29
本站部落格園首頁頭條推薦文章
2021-09-09
Python爬取CSDN部落格資料
2019-01-03
Python
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址（1）
2018-12-26
爬蟲Python
部落格園記錄：汽車引數爬蟲
2024-11-06
爬蟲
文章部落格
2024-10-05
部落格園，部落格園，念念不忘，必有迴響
2024-07-29
部落格園，你好！
2024-10-08
部落格園美化
2024-09-02
部落格園部落格記錄備份
2024-10-12
部落格園部落格重修計劃2024
2024-07-21
Java Profilers探查器使用指南-部落格園文章連結
2024-10-10
Java
部落格美化&typora編寫部落格攻略（部落格園版）
2020-10-13
04、部落格文章
2019-04-11
【Typora + 部落格園】如何高效的在部落格園上編寫MD格式的部落格
2020-12-05
部落格園美化教程
2024-04-10
初入部落格園
2024-04-09
重回部落格園
2024-08-28
Python爬蟲-部落格園首頁推薦部落格排行(整合詞雲+郵件傳送)
2019-05-14
Python爬蟲
部落格園皮膚-我的部落格園皮膚設定教程
2019-05-09
關於百度蜘蛛機器人爬取部落格園次數異常的猜想.
2024-07-15
機器人
部落格文章彙總
2018-04-11
自定義部落格園部落格的背景圖片
2021-02-18
【爬蟲】利用Python爬蟲爬取小麥苗itpub部落格的所有文章的連線地址並寫入Excel中（2）
2018-12-27
爬蟲PythonExcel
部落格園使用小技巧
2024-05-03
部落格園主題&美化
2024-04-05
SimpleMemory部落格園皮膚
2020-09-24
部落格園樣式美化
2020-04-28
部落格園主題美化
2024-08-28
修改部落格園主題
2024-10-28
Python爬蟲入門教程 40-100 部落格園Python相關40W部落格抓取 scrapy
2019-02-25
Python爬蟲
部落格園之自定義部落格(美化+播放器)
2021-05-09
播放器
01、部落格爬蟲
2019-04-11
爬蟲
爬取網頁文章
2021-09-29
網頁
部落格園cnblog部落格遷移到Hexo(提供格式轉換)
2024-04-10
Hexo

爬取部落格園文章

main檔案

spider-cnblogs

程式碼

相關文章