python讀取txt文字資料進行分詞並生成詞雲圖片
python對資料分詞,生成詞雲圖片
小編在日常生活工作中學習到的點,在此記錄一下,希望能夠幫助有需要的小夥伴。
前言
對文字資料內容有個直觀的感受,如小說哪些內容出現的最多,主要講述什麼事情等等。
提示:以下是本篇文章正文內容,下面案例可供參考
一、全部程式碼
import re # 正規表示式庫
import collections # 詞頻統計庫
import numpy as np # numpy資料處理庫
import jieba # 結巴分詞
import wordcloud # 詞雲展示庫
from PIL import Image # 影像處理庫
import matplotlib.pyplot as plt # 影像展示庫
# 讀取檔案
fn = open('result.txt','r',encoding='utf-8') # 開啟檔案
string_data = fn.read() # 讀出整個檔案
fn.close() # 關閉檔案
# 文字預處理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定義正規表示式匹配模式
string_data = re.sub(pattern, '', string_data) # 將符合模式的字元去除
# 文字分詞
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精確模式分詞
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'隨著', u'對於', u'對',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',
u'通常',u'如果',u'我們',u'需要'] # 自定義去除詞庫
for word in seg_list_exact: # 迴圈讀出每個分詞
if word not in remove_words: # 如果不在去除詞庫中
object_list.append(word) # 分詞追加到列表
# 詞頻統計
word_counts = collections.Counter(object_list) # 對分詞做詞頻統計
word_counts_top10 = word_counts.most_common(10) # 獲取前10最高頻的詞
print (word_counts_top10) # 輸出檢查
word_counts_top10 = str(word_counts_top10)
# 詞頻展示
mask = np.array(Image.open('image.jpg')) # 定義詞頻背景
wc = wordcloud.WordCloud(
font_path='simfang.ttf', # 設定字型格式
mask=mask, # 設定背景圖
max_words=200, # 最多顯示詞數
max_font_size=150, # 字型最大值
background_color='white',
width=800, height=600,
)
wc.generate_from_frequencies(word_counts) # 從字典生成詞雲
plt.imshow(wc) # 顯示詞雲
plt.axis('off') # 關閉座標軸
plt.show() # 顯示影像
wc.to_file('wordcloud.png')
注意:simfang.ttf檔案需要在網上下載放入本地中
選用的圖片和效果圖
注意:選用的圖片要以白色為底,如下圖
相關文章
- Python爬取微博資料生成詞雲圖片Python
- python分詞和生成詞雲圖Python分詞
- Python文字處理NLP:分詞與詞雲圖Python分詞
- 已知詞頻生成詞雲圖(資料庫到生成詞雲)--generate_from_frequencies(WordCloud)資料庫Cloud
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- 如何用python建立詞雲圖片Python
- jieba 詞性標註 & 並行分詞Jieba詞性標註並行分詞
- PHP讀取文字並計算單詞所在行列PHP
- 使用python進行漢語分詞Python分詞
- python 計算txt文字詞頻率Python
- Python實踐之合併WOS文獻資料,並對關鍵詞進行詞頻分析Python
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- Python自定義詞雲圖形狀和文字顏色Python
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- Python如何生成詞雲(詳細分析)Python
- NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,並行分詞,起止位置,文字挖掘,NLP WordEmbedding的概念和實現自然語言處理Jieba中文分詞詞性標註並行
- Python pyecharts繪製詞雲圖PythonEcharts
- 文字挖掘的分詞原理分詞
- python爬蟲學習:爬蟲QQ說說並生成詞雲圖,回憶滿滿Python爬蟲
- 用R讀取PDF並進行資料探勘
- ES 實現實時從Mysql資料庫中讀取熱詞,停用詞MySql資料庫
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 處理文字資料(上):詞袋
- 利用 JS 進行圖片處理並生成對應粒子圖JS
- Python 詞雲系列Python
- 【Python】Wordcloud 詞雲PythonCloud
- 10行python程式碼的詞雲Python
- 【Python】讀取excel並輸出到txtPythonExcel
- 【python資料探勘課程】十三.WordCloud詞雲配置過程及詞頻分析PythonCloud
- 筆記六:通過 Analyzer 進行分詞筆記分詞
- 有道雲詞典--翻譯/螢幕取詞翻譯
- Python資料展示 - 生成表格圖片Python
- asp.net 按行讀取包含中文的文字(txt)檔案並取得行數ASP.NET
- 【Python】jieba分詞模組PythonJieba分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- Java 讀取Word文字框中的文字/圖片/表格Java
- 網易雲歌詞爬取(java)Java
- 【python】爬取疫情資料並進行視覺化Python視覺化