Python 詞雲系列

lhrbest發表於2019-05-22

原文網址 : http://blog.itpub.net/26736162/viewspace-2645216/

https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html

詞雲又叫文字雲，是對文字資料中出現頻率較高的“關鍵詞”在視覺上的突出呈現，形成關鍵詞的渲染形成類似雲一樣的彩色圖片，從而一眼就可以領略文字資料的主要表達意思。

摘要：當我們手中有一篇文件，比如書籍、小說、電影劇本，若想快速瞭解其主要內容是什麼，那麼可以通過繪製WordCloud 詞雲圖，通過關鍵詞（高頻詞）就視覺化直觀地展示出來，非常方便。

環境搭建

1.基本環境

本文預設讀者已經安裝好如下包：matplotlib、numpy、PIL等庫檔案。使用的IDE可根據讀者的喜好去用，此篇文章中，作者使用的是Anaconda下的spyder，Anaconda的安裝與使用可以參見本部落格作者的另一篇，Anaconda的安裝與基本使用的教程，這裡不在贅述。

github:https://github.com/amueller/word_cloud ；

官方地址:https://amueller.github.io/word_cloud/

2.wordcloud包的安裝

安裝whl檔案：移步於此：https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud，點選下載與自己python環境版本相同的檔案；

Python 中的詞雲用的是 wordcloud 包，安裝方法：

pip install wordcloud
conda install -c conda-forge wordcloud

wordcloud 類的定義如下所示：

class WordCloud(object):
    def __init__(self, font_path=None, width=400, height=200, margin=2,
             ranks_only=None, prefer_horizontal=.9, mask=None, scale=1,
             color_func=None, max_words=200, min_font_size=4,
             stopwords=None, random_state=None, background_color='black',
             max_font_size=None, font_step=1, mode="RGB",
             relative_scaling=.5, regexp=None, collocations=True,
             colormap=None, normalize_plurals=True):
          pass

常用的引數含義：

font_path : string //字型路徑，需要展現什麼字型就把該字型路徑+字尾名寫上，如：font_path = '黑體.ttf'
width : int (default=400) //輸出的畫布寬度，預設為400畫素
height : int (default=200) //輸出的畫布高度，預設為200畫素
prefer_horizontal : float (default=0.90) //詞語水平方向排版出現的頻率，預設 0.9 （所以詞語垂直方向排版出現頻率為 0.1 ）
mask : nd-array or None (default=None) //如果引數為空，則使用二維遮罩繪製詞雲。如果 mask 非空，設定的寬高值將被忽略，遮罩形狀被 mask 取代。除全白（#FFFFFF）的部分將不會繪製，其餘部分會用於繪製詞雲。如：bg_pic = imread('讀取一張圖片.png')，背景圖片的畫布一定要設定為白色（#FFFFFF），然後顯示的形狀為不是白色的其他顏色。可以用ps工具將自己要顯示的形狀複製到一個純白色的畫布上再儲存，就ok了。
scale : float (default=1) //按照比例進行放大畫布，如設定為1.5，則長和寬都是原來畫布的1.5倍。
min_font_size : int (default=4) //顯示的最小的字型大小
font_step : int (default=1) //字型步長，如果步長大於1，會加快運算但是可能導致結果出現較大的誤差。
max_words : number (default=200) //要顯示的詞的最大個數
stopwords : set of strings or None //設定需要遮蔽的詞，如果為空，則使用內建的STOPWORDS
background_color : color value (default=”black”) //背景顏色，如  background_color='white',背景顏色為白色。
max_font_size : int or None (default=None) //顯示的最大的字型大小
mode : string (default=”RGB”) //當引數為“RGBA”並且background_color不為空時，背景為透明。
relative_scaling : float (default=.5) //詞頻和字型大小的關聯性
color_func : callable, default=None //生成新顏色的函式，如果為空，則使用 self.color_func
regexp : string or None (optional) //使用正規表示式分隔輸入的文字
collocations : bool, default=True //是否包括兩個詞的搭配
colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機分配顏色，若指定color_func，則忽略該方法。
fit_words(frequencies)  //根據詞頻生成詞雲
generate(text)  //根據文字生成詞雲
generate_from_frequencies(frequencies[, ...])   //根據詞頻生成詞雲
generate_from_text(text)    //根據文字生成詞雲
process_text(text)  //將長文字分詞並去除遮蔽詞（此處指英語，中文分詞還是需要自己用別的庫先行實現，使用上面的   fit_words(frequencies) ）
recolor([random_state, color_func, colormap])   //對現有輸出重新著色。重新上色會比重新生成整個詞雲快很多。
to_array()  //轉化為 numpy array
to_file(filename)   //輸出到檔案

中文文字需要通過分詞獲得單個的詞語，對中文分詞還會用到一個包 jieba ， jieba 是優秀的中文分詞第三方庫，需要額外安裝：

pip install jieba

如果要生成中文詞雲，那麼還需要加字型 “ font_path= r'C:\Windows\Fonts\simfang.ttf' ”。

#!/usr/bin/env python
"""
Minimal Example
===============
使用預設引數根據美國憲法生成方形的詞雲
"""
from os import path
from wordcloud import WordCloud
d = path.dirname(__file__)
# 讀取整個文字
text = open(path.join(d, './temp/constitution.txt')).read()
# 生成一個詞雲影像
wordcloud = WordCloud().generate(text)
# matplotlib的方式展示生成的詞雲影像
import matplotlib.pyplot as plt
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
#max_font_size設定生成詞雲中的文字最大大小
#width,height,margin可以設定圖片屬性
# generate 可以對全部文字進行自動分詞,但是他對中文支援不好
wordcloud = WordCloud(max_font_size=66).generate(text)
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

import os
from os import path
from wordcloud import WordCloud
from matplotlib import pyplot as plt
# 獲取單前檔案路徑
d = path.dirname(__file__) if "__file__" in locals() else os.getcwd()
# 獲取文字text
text = open(path.join(d, './temp/legend1900.txt')).read()
# 生成詞雲
wc = WordCloud(scale = 2, max_font_size = 100)
wc.generate_from_text(text)
# 顯示影像
plt.imshow(wc, interpolation = 'bilinear')
plt.axis('off')
plt.tight_layout()
# 儲存影像
wc.to_file('1900_basic.png')
# or
# plt.savefig('1900_basic.png', dpi = 200)
plt.show()

About Me

........................................................................................................................

● 本文作者：小麥苗，部分內容整理自網路，若有侵權請聯絡小麥苗刪除

● 本文在itpub（

http://blog.itpub.net/26736162

）、部落格園（

http://www.cnblogs.com/lhrbest

）和個人weixin公眾號（

xiaomaimiaolhr

）上有同步更新

● 本文itpub地址：

http://blog.itpub.net/26736162

● 本文部落格園地址：

http://www.cnblogs.com/lhrbest

● 本文pdf版、個人簡介及小麥苗雲盤地址：

http://blog.itpub.net/26736162/viewspace-1624453/

● 資料庫筆試面試題庫及解答：

http://blog.itpub.net/26736162/viewspace-2134706/

● DBA寶典今日頭條號地址：

http://www.toutiao.com/c/user/6401772890/#mid=1564638659405826

........................................................................................................................

● QQ群號：

230161599

（滿）

、618766405

● weixin群：可加我weixin，我拉大家進群，非誠勿擾

● 聯絡我請加QQ好友

（

646634621

）

，註明新增緣由

● 於 2019-05-01 06:00 ~ 2019-05-30 24:00 在魔都完成

● 最新修改時間：2019-05-01 06:00 ~ 2019-05-30 24:00

● 文章內容來源於小麥苗的學習筆記，部分整理自網路，若有侵權或不當之處還請諒解

● 版權所有，歡迎分享本文，轉載請保留出處

........................................................................................................................

● 

小麥苗的微店

：

https://weidian.com/s/793741433?wfr=c&ifr=shopdetail

● 

小麥苗出版的資料庫類叢書

：

http://blog.itpub.net/26736162/viewspace-2142121/

● 

小麥苗OCP、OCM、高可用網路班

：

http://blog.itpub.net/26736162/viewspace-2148098/

● 

小麥苗騰訊課堂主頁

：

https://lhr.ke.qq.com/

........................................................................................................................

使用

weixin客戶端

掃描下面的二維碼來關注小麥苗的weixin公眾號（

xiaomaimiaolhr

）及QQ群（DBA寶典）、新增小麥苗weixin，

學習最實用的資料庫技術。 

........................................................................................................................

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/26736162/viewspace-2645216/，如需轉載，請註明出處，否則將追究法律責任。

python分詞和生成詞雲圖
2020-12-08
Python分詞
如何用Python做詞雲？
2018-07-05
Python
python -wordcloudan雲詞安裝
2018-04-16
PythonCloud
Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
Python pyecharts繪製詞雲圖
2021-12-30
PythonEcharts
如何用Python 製作詞雲-對1000首古詩做詞雲分析
2020-12-15
Python
Python如何生成詞雲(詳細分析)
2018-05-31
Python
如何用python建立詞雲圖片
2021-09-11
Python
python讀取txt文字資料進行分詞並生成詞雲圖片
2020-11-21
Python分詞
Python視覺化-generate_from_frequencies給定詞頻畫詞雲圖（WordCloud）
2018-04-24
Python視覺化Cloud
Python詞雲庫wordcloud中文顯示問題詳解
2019-01-23
PythonCloud
Python自定義詞雲圖形狀和文字顏色
2019-01-20
Python
如何用Python做詞雲？（基礎篇視訊教程）
2018-06-28
Python
一步一步教你如何用Python做詞雲
2018-12-18
Python
Python 爬蟲獲取網易雲音樂歌手歌詞
2018-08-09
Python爬蟲
JB的Python之旅-資料分析篇-jieba&wordcloud(詞雲)
2018-06-12
PythonJiebaCloud
已知詞頻生成詞雲圖（資料庫到生成詞雲）--generate_from_frequencies（WordCloud）
2019-08-06
資料庫Cloud
Python爬蟲之js加密破解，抓取網易雲音樂評論生成詞雲
2020-10-22
Python爬蟲JS加密
利用Python網路爬蟲抓取網易雲音樂歌詞
2018-05-06
Python爬蟲
word_cloud 中文詞雲
2019-01-19
Cloud
深入JavaScript系列（一）：詞法環境
2019-03-03
JavaScript
純前端實現詞雲展示+附微博熱搜詞雲Demo程式碼
2021-11-13
前端
有道雲詞典--翻譯/螢幕取詞翻譯
2020-12-12
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
Python 英語單詞本
2021-12-28
Python
python如何統計詞頻
2021-09-11
Python
python的詞性標註
2020-12-24
Python詞性標註
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
【爬蟲+情感判定+Top10高頻詞+詞雲圖】"王心凌"熱門彈幕python輿情分析
2022-06-06
爬蟲Python
【爬蟲+情感判定+Top10高頻詞+詞雲圖】“劉畊巨集“熱門彈幕python輿情分析
2022-05-10
爬蟲Python
【爬蟲+情感判定+Top10高頻詞+詞雲圖】“谷愛凌”熱門彈幕python輿情分析
2022-05-08
爬蟲Python
[CentOS Python系列] 六.阿里雲搭建Django網站詳解
2018-03-13
CentOSPython阿里Django網站
Go編譯原理系列3（詞法分析）
2022-01-02
Go編譯原理詞法分析
SQL 改寫系列七：謂詞移動
2022-07-29
SQL
SQL 改寫系列六：謂詞推導
2022-07-18
SQL
政府工作報告詞雲
2020-05-22
如何實現一個詞雲
2021-09-23
python的requests_html庫和詞雲分析2018政府工作報告全文
2018-03-14
PythonHTML

Python 詞雲系列

相關文章