Python爬取個人部落格，帶你製作高逼格的資料聚合雲圖

中興開發者社群發表於2017-11-13

Python

點選上方“中興開發者社群”，關注我們

每天讀一篇一線開發者原創好文

本文出自方誌朋的部落格

連結：http://blog.csdn.net/forezp/article/details/70198541

一時興起，想用Python爬爬自己的部落格，通過資料聚合，製作高逼格的雲圖(對詞彙出現頻率視覺上的展示)，看看最近我到底寫了啥文章。

一、直接上幾張我的部落格資料的雲圖

1.1 爬取文章的標題的聚合

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

640?wx_fmt=jpeg

1.2 爬取文章的摘要的聚合

640?wx_fmt=jpeg

1.3 爬取文章的標題+摘要的聚合

640?wx_fmt=jpeg

我最近寫了SpringCloud系列教程，還有一些微服務架構方面，從雲圖上看，基本吻合。你若不信，可以進我的部落格看看，資料還是非常準確的

二、技術棧

開發工具: pycharm
爬蟲技術：bs64、requsts、jieba
分析工具：wordArt

三、爬蟲構架設計

640?wx_fmt=png

整個爬蟲架構非常簡單：

爬取我的部落格：http://blog.csdn.net/forezp
獲取資料
將資料用“結巴”庫，分詞。
將得到的資料在在artword上製作雲圖。
將製作出來的雲圖展示給使用者。

四、具體實現

先根據部落格地址爬去資料：

url = 'http://blog.csdn.net/forezp'   titles=set()   

def download(url):   
    if url is None:   
        return None   
    try:   
        response = requests.get(url, headers={   
            'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',   
        })   
        if (response.status_code == 200):   
            return response.content   
        return None   
    except:   
        return None

解析標題

def parse_title(html):   
    if html is None:   
        return None   
    soup = BeautifulSoup(html, "html.parser")   
    links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))   
    for link in links:   

        titles.add(link.get_text())

解析摘要：

def parse_descrtion(html):   
    if html is None:   
        return None   
    soup=BeautifulSoup(html, "html.parser")   
    disciptions=soup.find_all('div',attrs={'class': 'article_description'})   
    for link in disciptions:   

        titles.add(link.get_text())

用“結巴”分詞，”激8”分詞怎麼用，看這裡：https://github.com/fxsjy/jieba/

def jiebaSet():   
    strs=''   
    if titles.__len__()==0:   
        return   
    for item in titles:   
        strs=strs+item;   

    tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)   
    for item in tags:   
        print(item[0] + '\t' + str(int(item[1] * 1000)))

因為資料比較少，所以我直接列印在控制檯，並把它複製下來，更好的方法是存在MongoDB中。

製作雲圖：

用 artword線上工具，地址：https://wordart.com

首先：

匯入從控制檯複製過來的資料：

640?wx_fmt=png

令人尷尬的是，這個網站在繪製圖的時候不支援中文，需要你從c:/windows/fonts下選擇一個支援中文的字型，mac 使用者從windows拷下資料夾也可以，或者在網上下。

640?wx_fmt=png

然後點選Visulize就可以生成高逼格的雲圖了。講解完畢，有什麼需要改進的請大家留言。

原始碼下載：

https://github.com/forezp/ZhihuSpiderMan/tree/master/blogspider

640?wx_fmt=jpeg

Python爬取CSDN部落格資料
2019-01-03
Python
常規部落格看膩了，使用openlayers製作旅行地圖的個人部落格?
2023-09-18
地圖
實現爬取csdn個人部落格並匯出資料
2020-09-24
React製作個人部落格小結
2018-07-09
React
Python3爬取CSDN個人部落格相關資料--新增GUI圖形化介面
2020-12-11
PythonGUI
python爬蟲爬取csdn部落格專家所有部落格內容
2015-08-27
Python爬蟲
[python爬蟲] 正規表示式使用技巧及爬取個人部落格例項
2017-10-18
Python爬蟲
自己動手搭建有逼格的部落格
2017-12-19
個人部落格資料庫設計
2019-03-23
資料庫
你的個人部落格還沒有搭建圖床嗎？PicGo搭建部落格圖床教程+阿里雲OSS/騰訊雲COS 保姆級教程
2020-04-15
圖床PicGo阿里
個人部落格圖片儲存推薦--又拍雲
2019-02-23
Python爬蟲-部落格園首頁推薦部落格排行(整合詞雲+郵件傳送)
2019-05-14
Python爬蟲
部落格經濟–資料資訊圖
2012-08-14
個人部落格程式
2019-05-11
個人部落格分享
2019-05-11
個人部落格地址
2018-02-06
個人技術部落格
2017-11-10
個人技術部落格（α）
2017-11-16
搭建個人部落格
2024-04-06
個人部落格配置
2024-08-14
使用Hexo搭建個人部落格的終極資料
2018-09-07
Hexo
Hexo 個人部落格 SEO 優化（3）：改造你的部落格，提升搜尋引擎排名
2018-05-01
Hexo優化
01、部落格爬蟲
2019-04-11
爬蟲
Python爬取CSDN部落格專家系列——移動開發
2015-08-11
Python移動開發
分享我的個人部落格
2021-12-10
PS教程：教你製作一個高逼格人物主題復古海報
2015-12-10
自定義部落格園部落格的背景圖片
2021-02-18
Python——個人部落格專案開發
2019-01-26
Python
個人部落格搭建( wordpress )
2019-01-31
!!! 個人部落格地址更改
2024-04-27
新個人部落格地址，本部落格不再更新，謝謝！
2011-10-31
不可思議的hexo，五分鐘教你免費搭一個高逼格技術部落格
2020-04-04
Hexo
部落格寫作API
2008-06-27
API
一篇部落格帶你學會MyBatis
2023-03-11
MyBatis
把Github當作資料庫，搭建部落格
2021-04-08
Github資料庫
我的個人部落格搭建之旅
2019-06-28
ThinkPHP5+LayUI雲易部落格系統-自動同步CSDN網站的部落格資料
2019-05-11
PHPUI網站
DDGScreenShot —圖片加各種濾鏡高逼格操作
2018-05-01

Python爬取個人部落格，帶你製作高逼格的資料聚合雲圖

一、直接上幾張我的部落格資料的雲圖

1.1 爬取文章的標題的聚合

1.2 爬取文章的摘要的聚合

1.3 爬取文章的標題+摘要的聚合

二、技術棧

三、爬蟲構架設計

四、具體實現

相關文章