Python爬取個人部落格,帶你製作高逼格的資料聚合雲圖
點選上方“中興開發者社群”,關注我們
每天讀一篇一線開發者原創好文
本文出自方誌朋的部落格
連結:http://blog.csdn.net/forezp/article/details/70198541
一時興起,想用Python爬爬自己的部落格,通過資料聚合,製作高逼格的雲圖(對詞彙出現頻率視覺上的展示),看看最近我到底寫了啥文章。
一、直接上幾張我的部落格資料的雲圖
1.1 爬取文章的標題的聚合
1.2 爬取文章的摘要的聚合
1.3 爬取文章的標題+摘要的聚合
我最近寫了SpringCloud系列教程,還有一些微服務架構方面,從雲圖上看,基本吻合。你若不信,可以進我的部落格看看,資料還是非常準確的
二、技術棧
-
開發工具: pycharm
-
爬蟲技術:bs64、requsts、jieba
-
分析工具:wordArt
三、爬蟲構架設計
整個爬蟲架構非常簡單:
-
爬取我的部落格:http://blog.csdn.net/forezp
-
獲取資料
-
將資料用“結巴”庫,分詞。
-
將得到的資料在在artword上製作雲圖。
-
將製作出來的雲圖展示給使用者。
四、具體實現
先根據部落格地址爬去資料:
url = 'http://blog.csdn.net/forezp' titles=set()
def download(url):
if url is None:
return None
try:
response = requests.get(url, headers={
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.143 Safari/537.36',
})
if (response.status_code == 200):
return response.content
return None
except:
return None
解析標題
def parse_title(html):
if html is None:
return None
soup = BeautifulSoup(html, "html.parser")
links = soup.find_all('a', href=re.compile(r'/forezp/article/details'))
for link in links:
titles.add(link.get_text())
解析摘要:
def parse_descrtion(html):
if html is None:
return None
soup=BeautifulSoup(html, "html.parser")
disciptions=soup.find_all('div',attrs={'class': 'article_description'})
for link in disciptions:
titles.add(link.get_text())
用“結巴”分詞,”激8”分詞怎麼用,看這裡:https://github.com/fxsjy/jieba/
def jiebaSet():
strs=''
if titles.__len__()==0:
return
for item in titles:
strs=strs+item;
tags = jieba.analyse.extract_tags(strs, topK=100, withWeight=True)
for item in tags:
print(item[0] + '\t' + str(int(item[1] * 1000)))
因為資料比較少,所以我直接列印在控制檯,並把它複製下來,更好的方法是存在MongoDB中。
製作雲圖:
用 artword線上工具,地址:https://wordart.com
首先:
匯入從控制檯複製過來的資料:
令人尷尬的是,這個網站在繪製圖的時候不支援中文,需要你從c:/windows/fonts下選擇一個支援中文的字型,mac 使用者從windows拷下資料夾也可以,或者在網上下。
然後點選Visulize就可以生成高逼格的雲圖了。講解完畢,有什麼需要改進的請大家留言。
原始碼下載:
https://github.com/forezp/ZhihuSpiderMan/tree/master/blogspider
相關文章
- Python爬取CSDN部落格資料Python
- 常規部落格看膩了,使用openlayers製作旅行地圖的個人部落格?地圖
- 實現爬取csdn個人部落格並匯出資料
- React製作個人部落格小結React
- Python3爬取CSDN個人部落格相關資料--新增GUI圖形化介面PythonGUI
- python爬蟲爬取csdn部落格專家所有部落格內容Python爬蟲
- [python爬蟲] 正規表示式使用技巧及爬取個人部落格例項Python爬蟲
- 自己動手搭建有逼格的部落格
- 個人部落格資料庫設計資料庫
- 你的個人部落格還沒有搭建圖床嗎?PicGo搭建部落格圖床教程+阿里雲OSS/騰訊雲COS 保姆級教程圖床PicGo阿里
- 個人部落格圖片儲存推薦--又拍雲
- Python爬蟲-部落格園首頁推薦部落格排行(整合詞雲+郵件傳送)Python爬蟲
- 部落格經濟–資料資訊圖
- 個人部落格程式
- 個人部落格分享
- 個人部落格地址
- 個人技術部落格
- 個人技術部落格(α)
- 搭建個人部落格
- 個人部落格配置
- 使用Hexo搭建個人部落格的終極資料Hexo
- Hexo 個人部落格 SEO 優化(3):改造你的部落格,提升搜尋引擎排名Hexo優化
- 01、部落格爬蟲爬蟲
- Python爬取CSDN部落格專家系列——移動開發Python移動開發
- 分享我的個人部落格
- PS教程:教你製作一個高逼格人物主題復古海報
- 自定義部落格園部落格的背景圖片
- Python——個人部落格專案開發Python
- 個人部落格搭建( wordpress )
- !!! 個人部落格地址更改
- 新個人部落格地址,本部落格不再更新,謝謝!
- 不可思議的hexo,五分鐘教你免費搭一個高逼格技術部落格Hexo
- 部落格寫作APIAPI
- 一篇部落格帶你學會MyBatisMyBatis
- 把Github當作資料庫,搭建部落格Github資料庫
- 我的個人部落格搭建之旅
- ThinkPHP5+LayUI雲易部落格系統-自動同步CSDN網站的部落格資料PHPUI網站
- DDGScreenShot —圖片加各種濾鏡高逼格操作