作者:xiaoyu
微信公眾號:Python資料科學
知乎:python資料分析師
詞雲的使用相信大家已經不陌生了,使用很簡單,直接呼叫wordcloud
包就可以了。它的主要功能是根據文字詞彙和詞彙頻率生成圖片,從中可以直觀的看出各個詞彙所佔比重。最近正好想做一個人的logo,於是乎決定使用詞雲來製作完成。
wordcloud安裝
pip install wordcloud
使用 pip 安裝你肯定會遇到一個坑,安裝過程中可能會報錯,提示你安裝 Microsoft Visual C++ 14.0,但是這個安裝過程很耗時。
有另一個方法可以解決,就是下載相應的whl
檔案安裝。下載連結:https://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
檔案下載後,cmd 進入whl
檔案所在資料夾下,然後輸入以下命令:
pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whl
wordcloud程式碼使用
安裝成功後我們馬上開始製作我們的圖片。
from os import path
from PIL import Image
import numpy as np
import matplotlib.pyplot as plt
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
d = path.dirname(__file__)
# 讀文字檔案
text = open(path.join(d, `data.txt`)).read()
# 讀取自定義圖片
alice_coloring = np.array(Image.open(path.join(d, "pic.jpg")))
# 你可以通過 mask 引數 來設定詞雲形狀
wc = WordCloud(background_color="white",max_words=2000,
mask=alice_coloring, max_font_size=60,random_state=102,scale=8,
font_path="C:WindowsFontsmsyhbd.ttf").generate(text)
wc.generate_from_text(text)
print(`開始載入文字`)
# 改變字型顏色
img_colors = ImageColorGenerator(alice_coloring)
# 字型顏色為背景圖片的顏色
wc.recolor(color_func=img_colors)
# 顯示詞雲圖
plt.imshow(wc, interpolation="bilinear")
# 是否顯示x軸、y軸下標
plt.axis(`off`)
plt.show()
# 獲得模組所在的路徑的
d = path.dirname(__file__)
# 將多個路徑組合後返回
wc.to_file(path.join(d, "h16.jpg"))
print(`生成詞雲成功!`)
上面 text 文字內容是通過爬蟲採集的,爬取的關於資料科學的一篇文章,有了文字源之後準備好你想要生成詞雲的圖片就行了。
配置 wordcloud
的引數對於圖片效果尤為重要,下面我們著重介紹一下wordcloud
的引數含義:
- font_path : string 字型路徑,需要展現什麼字型就把該字型路徑+字尾名寫上,如:font_path = `黑體.ttf`
- width : int (default=400) 輸出的畫布寬度,預設為400畫素
- height : int (default=200) 輸出的畫布高度,預設為200畫素
- prefer_horizontal : float (default=0.90) 詞語水平方向排版出現的頻率,預設 0.9
- mask : nd-array or None (default=None) 若引數為空,則正常繪製詞雲。如果 mask 非空,設定的寬高值將被忽略,形狀被 mask 取代。除白色的部分將不會繪製,其餘部分會用於繪製詞雲。
- scale : float (default=1) 按照比例進行放大畫布,如設定為2,則長和寬都是原來畫布的2倍。
- min_font_size : int (default=4) 顯示的最小的字型大小
- font_step : int (default=1) 字型步長,如果步長大於1,會加快運算但是可能導致結果出現較大的誤差。
- max_words : number (default=200) 要顯示的詞的最大個數
- stopwords : set of strings or None 設定需要遮蔽的詞,如果為空,則使用內建的STOPWORDS
- background_color : color value (default=”black”) 背景顏色,如background_color=`white`,背景顏色為白色。
- max_font_size : int or None (default=None) 顯示的最大的字型大小
- mode : string (default=”RGB”) 當引數為“RGBA”並且background_color不為空時,背景為透明。
- relative_scaling : float (default=.5) 詞頻和字型大小的關聯性
- color_func : callable, default=None 生成新顏色的函式,如果為空,則使用 self.color_func
- regexp : string or None (optional) 使用正規表示式分隔輸入的文字
- collocations : bool, default=True 是否包括兩個詞的搭配
- colormap : string or matplotlib colormap, default=”viridis” 給每個單詞隨機分配顏色,若指定color_func,則忽略該方法。
效果展示
使用的照片是博主自己的照片。
——————end——————
關注微信公眾號Python資料科學,獲取 120G
人工智慧 學習資料。