python分析《三國演義》，誰才是這部書的絕對主角（包含統計指定角色的方法）

小貝書屋發表於2021-05-18

原文網址 : https://www.cnblogs.com/becks/p/14783258.html

Python

前面分析統計了金庸名著《倚天屠龍記》中人物按照出現次數並排序

https://www.cnblogs.com/becks/p/11421214.html

然後使用pyecharts，統計B站某視訊彈幕內容，並繪製成詞雲顯示

https://www.cnblogs.com/becks/p/14743080.html

這次，就用分析統計下《三國演義》這部書裡各角色出現的頻率，並繪製成詞雲顯示，看看誰是絕對的主角吧

首先，我們需要把這部書裡出現的人物都列舉出來，畢竟只統計角色資訊，不需要把非人物名也統計進來

角色 = {'劉備','諸葛亮','關羽','張飛','劉禪',"孫權",'趙雲','司馬懿','周瑜','曹操','袁紹','馬超','魏延',
        '黃忠','姜維','馬岱','龐德','孟獲','劉表','董卓','孫策',
        '魯肅','司馬昭','夏侯淵','王平','劉璋','袁術','呂蒙','甘寧','鄧艾','曹仁',
        '陸遜','許褚','龐統','曹洪','李典','曹丕','廖化','曹真','呂布'}

然後就是讀取實現準備好的《三國演義》書籍txt文件格式，使用jieba庫對文件內容進行處理

# -*-coding:utf8-*-
# encoding:utf-8

import jieba   #倒入jieba庫
import os
import sys
from collections import Counter#分詞後詞頻統計
from pyecharts.charts import WordCloud#詞雲

path = os.path.abspath(os.path.dirname(sys.argv[0]))
txt=open(path+'\\171182.txt',"r", encoding='utf-8').read()    #讀取三國演義文字

words=jieba.lcut(txt)   #jieba庫分析文字
counts={}

在就是統計指定角色姓名出現次數

for word in words:    
    if len(word)<=1:   
        continue
    elif word in 角色:
        counts[word]=counts.get(word,0)+1
    else:
        None

繪製詞雲

items=list(counts.items())#字典到列表
wordcloud = WordCloud()
wordcloud.add("",items,word_size_range=[15, 80],rotate_step=30,shape='cardioid')
wordcloud.render(path+'\\wordcloud.html')

執行指令碼後檢視生成檔案

曹操兩個字的顯示的最大，說明整部書裡出現的次數最多。這肯定不對，羅貫中是劉備粉啊，

後來想了下，在三國裡，直呼人姓名那是罵人，是損。那些所謂的正派人士都是有雅稱的，比如臥龍、諸葛等等

改了下程式碼，把這些人的雅稱也匹配進去

劉備 = {"玄德","玄德曰","先主","劉豫州","劉皇叔",'劉玄德','劉使君'}
諸葛亮 = {"孔明","孔明曰","臥龍","臥龍先生","諸葛先生",'孔明先生','諸葛丞相','諸葛'}
關羽 = {"關公","雲長","漢壽亭侯","關雲長"}
曹操 = {"孟德",'曹孟德','曹操'}
張飛 = {"張翼德",'翼德'}

同時，統計部分也作了處理

for word in words:    #篩選分析後的名詞
    if len(word)<=1:   #因為片語中的漢字數大於1個即認為是一個片語，所以通過continue結束掉讀取的漢字書為1的內容
        continue
    #elif word in exculdes:
        #continue
    #elif word in 諸葛亮 or word in 劉備 or word in 關羽 or word in 曹操:  
        #counts[word]=counts.get(word,0)+1
    elif word in 劉備:
        word ="劉備"
        counts[word]=counts.get(word,0)+1
    elif word in 諸葛亮:
        word ="諸葛亮"
        counts[word]=counts.get(word,0)+1
    elif word in 曹操:
        word ="曹操"
        counts[word]=counts.get(word,0)+1  
    elif word in 關羽:
        word ="關羽"
        counts[word]=counts.get(word,0)+1    
    elif word in 張飛:
        word ="張飛"
        counts[word]=counts.get(word,0)+1    
    elif word in 其他:
        counts[word]=counts.get(word,0)+1
  
    else:
        None

再次執行，嗯，諸葛亮是王者，諸葛亮合計出現了1350次，劉備合計出現1271次

附整個程式碼

# -*-coding:utf8-*-
# encoding:utf-8

import jieba   #倒入jieba庫
import os
import sys
from collections import Counter#分詞後詞頻統計
from pyecharts.charts import WordCloud#詞雲


path = os.path.abspath(os.path.dirname(sys.argv[0]))
txt=open(path+'\\三國演義.txt',"r", encoding='utf-8').read()    #文字

words=jieba.lcut(txt)   #jieba庫分析文字
counts={}

劉備 = {"玄德","玄德曰","先主","劉豫州","劉皇叔",'劉玄德','劉使君'}
諸葛亮 = {"孔明","孔明曰","臥龍","臥龍先生","諸葛先生",'孔明先生','諸葛丞相','諸葛'}
關羽 = {"關公","雲長","漢壽亭侯","關雲長"}
劉禪 = {"後主"}
曹操 = {"孟德",'曹孟德','曹操'}
張飛 = {"張翼德",'翼德'}

其他 = {"孫權",'趙雲','司馬懿','周瑜','劉禪','袁紹','馬超','魏延','黃忠','姜維','馬岱','龐德','孟獲','劉表','董卓','孫策',
        '魯肅','司馬昭','夏侯淵','王平','劉璋','袁術','呂蒙','甘寧','鄧艾','曹仁','陸遜','許褚','龐統','曹洪','李典','曹丕','廖化','曹真','呂布'}
for word in words:    #篩選分析後的名詞
    if len(word)<=1:   #因為片語中的漢字數大於1個即認為是一個片語，所以通過continue結束掉讀取的漢字書為1的內容
        continue
    #elif word in exculdes:
        #continue
    #elif word in 諸葛亮 or word in 劉備 or word in 關羽 or word in 曹操:  
        #counts[word]=counts.get(word,0)+1
    elif word in 劉備:
        word ="劉備"
        counts[word]=counts.get(word,0)+1
    elif word in 諸葛亮:
        word ="諸葛亮"
        counts[word]=counts.get(word,0)+1
    elif word in 曹操:
        word ="曹操"
        counts[word]=counts.get(word,0)+1  
    elif word in 關羽:
        word ="關羽"
        counts[word]=counts.get(word,0)+1    
    elif word in 張飛:
        word ="張飛"
        counts[word]=counts.get(word,0)+1    
    elif word in 其他:
        counts[word]=counts.get(word,0)+1
  
    else:
        None

items=list(counts.items())#字典到列表

wordcloud = WordCloud()
wordcloud.add("",items,word_size_range=[15, 80],rotate_step=30,shape='cardioid')
wordcloud.render(path+'\\wordcloud.html')

Python中求絕對值的三種方法詳解！
2023-04-06
Python
python對指定字串逆序的6種方法
2018-04-26
Python字串
只有程式設計師才能讀懂的三國演義（一）
2020-03-10
程式設計師
只有程式設計師才能讀懂的三國演義（二）
2020-03-11
程式設計師
java和Python的這場紛爭，誰才是最終的人生贏家
2018-12-02
JavaPython
Python查詢包含指定字串的所有Office文件
2019-01-26
Python字串
Python查詢包含指定字串的所有檔案
2019-01-22
Python字串
python讀取檔案指定行的三種方法
2024-04-28
Python
wxPython和PyQt誰才是最讚的Python GUI庫
2019-01-28
PythonQTGUI
誰才是這場網際網路中的弄潮兒
2019-07-19
python獲取指定目錄所有檔案絕對路徑
2020-12-06
Python
對比Memcached和Redis，誰才是適合你的快取？
2020-05-22
Redis快取
大魚胡侃---智慧手機系統之三國演義
2020-04-04
Python自動化測試框架，誰才是你的唯一？
2021-11-01
Python框架
自定義註解！絕對是程式設計師裝逼的利器！！
2021-12-15
程式設計師
Python：對程式做效能分析及計時統計
2022-11-27
Python
基於原型的角色設計方法
2023-03-06
原型
一分鐘內！利用AI做出指定角色、指定動作的影片！AI現可精準控制表情、動作，主角可以是你自己！
2024-07-08
AI
# CSS 絕對定位釋義
2018-12-03
CSS
你絕對沒想到的GPT的底層意義
2023-04-06
GPT
阿里CEO盒馬內部演講實錄：跑得久才是最關鍵的
2019-03-30
阿里
定義方法統計集合中指定元素出現的次數，如“a“ 3,“b“ 2,“c“ 1
2020-11-05
Linux系統批量刪除包含指定關鍵字的程式
2019-01-17
Linux
三國演義內容抓取（詩詞名句網）
2024-08-07
誰說生存遊戲不能有溫情？這款雙主角遊戲是這樣表達情感的
2020-09-02
遊戲
win10純淨版系統禁用絕對音量的方法
2019-10-15
Win10
python中取絕對值簡單方法總結
2020-11-15
Python
jquery裡判斷陣列內是否包含了指定的值或元素的方法
2018-06-05
jQuery陣列
「Adobe國際認證」三大科技巨頭LOGO的演變，能看懂，絕不小白
2021-09-09
Go
提出問題，解答問題！這才是理解程式碼設計的正確方法
2022-05-14
《底特律：變人》：誰說只有改變世界的才叫主角？
2019-07-15
資料視覺化大屏|這2款誰才是你的夢中情屏
2022-07-07
視覺化
分析“英雄射擊遊戲”的角色設計
2024-10-23
遊戲
Flink的DataSource三部曲之三:自定義
2020-11-07
被阿里帶火的資料中臺，不靠這三個階段絕對失敗
2021-05-07
阿里
基於原型的遊戲角色設計方法
2023-03-09
原型遊戲
電商商品系統的演進分析
2022-07-12
hbase統計表的行數的三種方法
2021-06-16

python分析《三國演義》，誰才是這部書的絕對主角（包含統計指定角色的方法）

相關文章