python讀取txt文字資料進行分詞並生成詞雲圖片
python對資料分詞,生成詞雲圖片
小編在日常生活工作中學習到的點,在此記錄一下,希望能夠幫助有需要的小夥伴。
前言
對文字資料內容有個直觀的感受,如小說哪些內容出現的最多,主要講述什麼事情等等。
提示:以下是本篇文章正文內容,下面案例可供參考
一、全部程式碼
import re # 正規表示式庫
import collections # 詞頻統計庫
import numpy as np # numpy資料處理庫
import jieba # 結巴分詞
import wordcloud # 詞雲展示庫
from PIL import Image # 影像處理庫
import matplotlib.pyplot as plt # 影像展示庫
# 讀取檔案
fn = open('result.txt','r',encoding='utf-8') # 開啟檔案
string_data = fn.read() # 讀出整個檔案
fn.close() # 關閉檔案
# 文字預處理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定義正規表示式匹配模式
string_data = re.sub(pattern, '', string_data) # 將符合模式的字元去除
# 文字分詞
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精確模式分詞
object_list = []
remove_words = [u'的', u',',u'和', u'是', u'隨著', u'對於', u'對',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',
u'通常',u'如果',u'我們',u'需要'] # 自定義去除詞庫
for word in seg_list_exact: # 迴圈讀出每個分詞
if word not in remove_words: # 如果不在去除詞庫中
object_list.append(word) # 分詞追加到列表
# 詞頻統計
word_counts = collections.Counter(object_list) # 對分詞做詞頻統計
word_counts_top10 = word_counts.most_common(10) # 獲取前10最高頻的詞
print (word_counts_top10) # 輸出檢查
word_counts_top10 = str(word_counts_top10)
# 詞頻展示
mask = np.array(Image.open('image.jpg')) # 定義詞頻背景
wc = wordcloud.WordCloud(
font_path='simfang.ttf', # 設定字型格式
mask=mask, # 設定背景圖
max_words=200, # 最多顯示詞數
max_font_size=150, # 字型最大值
background_color='white',
width=800, height=600,
)
wc.generate_from_frequencies(word_counts) # 從字典生成詞雲
plt.imshow(wc) # 顯示詞雲
plt.axis('off') # 關閉座標軸
plt.show() # 顯示影像
wc.to_file('wordcloud.png')
注意:simfang.ttf檔案需要在網上下載放入本地中
選用的圖片和效果圖
注意:選用的圖片要以白色為底,如下圖
相關文章
- python分詞和生成詞雲圖Python分詞
- Python文字處理NLP:分詞與詞雲圖Python分詞
- 已知詞頻生成詞雲圖(資料庫到生成詞雲)--generate_from_frequencies(WordCloud)資料庫Cloud
- Python爬取豆瓣電影的短評資料並進行詞雲分析處理Python
- 如何用python建立詞雲圖片Python
- PHP讀取文字並計算單詞所在行列PHP
- jieba 詞性標註 & 並行分詞Jieba詞性標註並行分詞
- python 計算txt文字詞頻率Python
- Python實踐之合併WOS文獻資料,並對關鍵詞進行詞頻分析Python
- php迴圈讀取txt裡面關鍵詞並按頁數PHP
- 文字挖掘之語料庫、分詞、詞頻統計分詞
- Python自定義詞雲圖形狀和文字顏色Python
- Python如何生成詞雲(詳細分析)Python
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- Python pyecharts繪製詞雲圖PythonEcharts
- python爬蟲學習:爬蟲QQ說說並生成詞雲圖,回憶滿滿Python爬蟲
- ES 實現實時從Mysql資料庫中讀取熱詞,停用詞MySql資料庫
- 處理文字資料(上):詞袋
- 利用 JS 進行圖片處理並生成對應粒子圖JS
- Python資料展示 - 生成表格圖片Python
- Python 詞雲系列Python
- 【python】爬取疫情資料並進行視覺化Python視覺化
- Java 讀取Word文字框中的文字/圖片/表格Java
- 筆記六:通過 Analyzer 進行分詞筆記分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- Java 讀取PDF中的文字和圖片Java
- 有道雲詞典--翻譯/螢幕取詞翻譯
- python jieba庫,句子分詞PythonJieba分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- 在讀取資料時拼接圖片域名
- 文字資料分析——主題提取+詞向量化
- Excel 讀取圖片並獲取儲存路徑Excel
- python opencv讀取網路圖片PythonOpenCV
- phpSpreadsheet 讀取圖片並另存為檔案PHP
- Python視覺化-generate_from_frequencies給定詞頻畫詞雲圖(WordCloud)Python視覺化Cloud
- ES 筆記六:通過 Analyzer 進行分詞筆記分詞
- Java 讀取Word表格中的文字和圖片Java
- C# 掃描並讀取圖片中的文字C#