Python搭建環境實現中文分詞標籤雲(官方手冊稍作調整)

弈心逐夢發表於2018-01-27

本文參考連結:
https://zhuanlan.zhihu.com/p/20432734
https://www.cnblogs.com/Yiutto/p/5998262.html
細節參考官方手冊稍作調整,Python官方連結
https://pypi.python.org/pypi/jieba/
https://pypi.python.org/pypi/pytagcloud/

我的開發環境 Windows7 Python2.7.11

標籤雲環境搭建

pip install -U pytagcloud
pip install pygame

注:會因網路問題失敗,多試幾次總會有一次安裝成功的。

pip install simplejson

官網測試程式碼

vim test.py
from pytagcloud import create_tag_image, make_tags
from pytagcloud.lang.counter import get_tag_counts

YOUR_TEXT = "A tag cloud is a visual representation for text data, typically\
used to depict keyword metadata on websites, or to visualize free form text."

tags = make_tags(get_tag_counts(YOUR_TEXT), maxsize=120)

create_tag_image(tags, 'cloud_large.png', size=(900, 600), fontname='Lobster')

測試程式碼生成結果

python test.py

生成圖片cloud_large.png ,如下圖
這裡寫圖片描述

中文分詞

pip install jieba

官網測試程式碼

# encoding=utf-8
import jieba

seg_list = jieba.cut("我來到北京清華大學", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我來到北京清華大學", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精確模式

seg_list = jieba.cut("他來到了網易杭研大廈")  # 預設是精確模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明碩士畢業於中國科學院計算所,後在日本京都大學深造")  # 搜尋引擎模式
print(", ".join(seg_list))

測試結果
執行 python test_cutCN.py,結果如下:
這裡寫圖片描述

至此,中文分詞生成標籤雲的環境搭建完成。

相關文章