python讀取txt文字資料進行分詞並生成詞雲圖片

檸檬味的Cat發表於2020-11-21

原文網址 : https://blog.csdn.net/qq_42739591/article/details/109892870

Python分詞

python對資料分詞，生成詞雲圖片

小編在日常生活工作中學習到的點，在此記錄一下，希望能夠幫助有需要的小夥伴。

文章目錄

前言

對文字資料內容有個直觀的感受，如小說哪些內容出現的最多，主要講述什麼事情等等。

提示：以下是本篇文章正文內容，下面案例可供參考

一、全部程式碼

import re # 正規表示式庫
import collections # 詞頻統計庫
import numpy as np # numpy資料處理庫
import jieba # 結巴分詞
import wordcloud # 詞雲展示庫
from PIL import Image # 影像處理庫
import matplotlib.pyplot as plt # 影像展示庫

# 讀取檔案
fn = open('result.txt','r',encoding='utf-8') # 開啟檔案
string_data = fn.read() # 讀出整個檔案
fn.close() # 關閉檔案

# 文字預處理
pattern = re.compile(u'\t|\n|\.|-|:|;|\)|\(|\?|"') # 定義正規表示式匹配模式
string_data = re.sub(pattern, '', string_data) # 將符合模式的字元去除

# 文字分詞
seg_list_exact = jieba.cut(string_data, cut_all = False) # 精確模式分詞
object_list = []
remove_words = [u'的', u'，',u'和', u'是', u'隨著', u'對於', u'對',u'等',u'能',u'都',u'。',u' ',u'、',u'中',u'在',u'了',
                u'通常',u'如果',u'我們',u'需要'] # 自定義去除詞庫

for word in seg_list_exact: # 迴圈讀出每個分詞
    if word not in remove_words: # 如果不在去除詞庫中
        object_list.append(word) # 分詞追加到列表

# 詞頻統計
word_counts = collections.Counter(object_list) # 對分詞做詞頻統計
word_counts_top10 = word_counts.most_common(10) # 獲取前10最高頻的詞
print (word_counts_top10) # 輸出檢查
word_counts_top10 = str(word_counts_top10)

# 詞頻展示
mask = np.array(Image.open('image.jpg')) # 定義詞頻背景
wc = wordcloud.WordCloud(
    font_path='simfang.ttf', # 設定字型格式
    mask=mask, # 設定背景圖
    max_words=200, # 最多顯示詞數
    max_font_size=150, # 字型最大值
    background_color='white',
    width=800, height=600,
)

wc.generate_from_frequencies(word_counts) # 從字典生成詞雲
plt.imshow(wc) # 顯示詞雲
plt.axis('off') # 關閉座標軸
plt.show() # 顯示影像
wc.to_file('wordcloud.png')

注意：simfang.ttf檔案需要在網上下載放入本地中

選用的圖片和效果圖

注意：選用的圖片要以白色為底，如下圖
在這裡插入圖片描述

python分詞和生成詞雲圖
2020-12-08
Python分詞
Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
已知詞頻生成詞雲圖（資料庫到生成詞雲）--generate_from_frequencies（WordCloud）
2019-08-06
資料庫Cloud
Python爬取豆瓣電影的短評資料並進行詞雲分析處理
2019-01-05
Python
如何用python建立詞雲圖片
2021-09-11
Python
PHP讀取文字並計算單詞所在行列
2021-09-09
PHP
jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
python 計算txt文字詞頻率
2018-07-29
Python
Python實踐之合併WOS文獻資料，並對關鍵詞進行詞頻分析
2021-03-09
Python
php迴圈讀取txt裡面關鍵詞並按頁數
2024-11-02
PHP
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
Python自定義詞雲圖形狀和文字顏色
2019-01-20
Python
Python如何生成詞雲(詳細分析)
2018-05-31
Python
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
Python pyecharts繪製詞雲圖
2021-12-30
PythonEcharts
python爬蟲學習：爬蟲QQ說說並生成詞雲圖，回憶滿滿
2018-05-13
Python爬蟲
ES 實現實時從Mysql資料庫中讀取熱詞,停用詞
2020-09-13
MySql資料庫
處理文字資料（上）:詞袋
2022-06-03
利用 JS 進行圖片處理並生成對應粒子圖
2019-01-31
JS
Python資料展示 - 生成表格圖片
2022-04-09
Python
Python 詞雲系列
2019-05-22
Python
【python】爬取疫情資料並進行視覺化
2020-09-24
Python視覺化
Java 讀取Word文字框中的文字/圖片/表格
2021-03-05
Java
筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
Java 讀取PDF中的文字和圖片
2019-07-18
Java
有道雲詞典--翻譯/螢幕取詞翻譯
2020-12-12
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
在讀取資料時拼接圖片域名
2019-04-08
文字資料分析——主題提取+詞向量化
2020-10-20
Excel 讀取圖片並獲取儲存路徑
2021-01-12
Excel
python opencv讀取網路圖片
2019-03-04
PythonOpenCV
phpSpreadsheet 讀取圖片並另存為檔案
2020-12-14
PHP
Python視覺化-generate_from_frequencies給定詞頻畫詞雲圖（WordCloud）
2018-04-24
Python視覺化Cloud
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
Java 讀取Word表格中的文字和圖片
2021-07-02
Java
C# 掃描並讀取圖片中的文字
2021-06-21
C#

python讀取txt文字資料進行分詞並生成詞雲圖片

python對資料分詞，生成詞雲圖片

文章目錄

前言

一、全部程式碼

選用的圖片和效果圖

相關文章