python視覺化文字分析(1)—分析QQ班群聊天記錄巨集觀

bigsai發表於2019-04-28

原文網址 : https://juejin.im/post/5cc590cd51882564113f26c3

前一段時間就想做簡單的==視覺化文字分析==玩，今天就花點時間先對整體班級的==QQ群聊天資訊做一個簡單的分析==。
打算分兩步做，本文是最簡單的第一步過程
- 1：分析整個聊天記錄的時間分配。並且用matplotlib展示出來。並把整個聊天的關鍵詞做成詞雲。
- 2：融入snownlp情感分析，分析每個同學的詞雲分佈，每個同學的發言次數情況，以及每個同學文字的情緒走勢以及展示。等等
- 總的來說就是先試試水，然後再做第二個。用到的庫有：jieba分詞，wordcloud詞雲，numpy陣列，matplotlib視覺化，snownlp(第二個)，re正則(很重要)。這些用不到深入的東西，只用到很簡單的一小部分，都可以直接 pip install xxx。
言歸正傳，下面說一下我的學習歷程：

首先，第一步就是匯出群聊訊息，再qq的資源管理器上選擇群可以==匯出群訊息==記錄成txt文字。
要觀察聊天記錄的規則，瞭解==文字結構==。能夠解析下列方框標註的內容很重要。
這部分主要的文字格式為：

2018-05-05 15:55:40 2班某某(1315426911)
2018-05-07 13:48:39 2XXX<xxxx@qq.com>
複製程式碼

下一步就需要==正則匹配==獲取相應的內容。這個地方的正則匹配規則也很簡單，因為格式固定. 但是我要分配各個聊天的時間，那麼就要匹配"15:55:40"這段話，可以重寫一個正則或者在原來的正則上新增，我選擇重寫正則，對於==正則取值==前端時間簡單寫過取值兩個正規表示式為：

pattern=re.compile(r'(\d*)-(\d*)-(\d*) .* .*')#匹配   資訊
pattern2=re.compile(r'(\d+):(\d+):\d+')#匹配 15:55:40
複製程式碼

既然能取到上一步驟人說的話，那麼我們在下一步就需要對==資料去噪==。那些資料會對結果有影響但是我們不需要的，這裡大致列了幾個（要注意的是文字換行符/n，每行無論是什麼都有一個換行符）：
- 空格訊息
- 紅包
- 表情
- 撤回的訊息
- 圖片
- @全體成員
- 個別群復讀機嚴重適當處理
- 其他
這樣每次按行讀取，新增對應的次數和文字內容和水群次數。
製作聊天時間分佈圖。使用matplotlib展示座標的一些坑點已經解決。儲存圖片到本地。
將各個文字合併生成班級主題詞雲。儲存圖片到本地。
觀察詞雲的詞是否有不該出現的詞語，分析原因對資料進行==二次去噪==。我當時就是因為第一次寫的正則沒有匹配"2018-05-07 13:48:39 2班xxxxxxx@qq.com"導致詞雲出現一個同學的名字。。後來把正則改了就決絕了。你也可能會遇到特殊情況需要經常@某個人，，你可以自行處理。

程式碼開箱可用，你需要把你的檔名==替換正確的路徑==，還有要在同級目錄下==建立img資料夾==儲存生成的兩張圖片。各種依賴環境很簡單，直接pip install xxx。附上核心程式碼：

import re
import numpy as np
import matplotlib.pyplot as plt  ##繪相簿
from wordcloud import WordCloud
import jieba.analyse
string="2018-05-05 15:55:40 2班某某(1315426911)"
pattern=re.compile(r'(\d*)-(\d*)-(\d*) .* .*')
#匹配   2018-05-05 15:55:40 2班某某(1315426911) 有一個坑點就是2018-05-07 13:48:39 2XXX<xxxx@qq.com>這種格式
pattern2=re.compile(r'(\d+):(\d+):\d+')#匹配 15:55:40
#pattern3=re.compile(r'(\()(.*?)(\))')#匹配    2班某某(1315426911)相關內容
f = open('E:/text.txt', 'r', encoding='utf-8')  # 要進行分詞處理的文字檔案 (統統按照utf8檔案去處理，省得麻煩)
lines = f.readlines()
index=0
def getpicture(y):#matplotlib繪圖
    x=[]
    for i in range(0,24):
        x.append(str(i)+':00-'+str(i+1)+':00')
    Xi = np.array(x)
    Yi = np.array(y)
    plt.rcParams['font.sans-serif'] = ['SimHei']  # 用來正常顯示中文標籤
    plt.figure(figsize=(8, 6))  ##指定影象比例： 8：6
    plt.subplots_adjust(bottom=0.2)
    plt.scatter(Xi, Yi, color="red", label="times")
    plt.xlabel("時間00：00—24：00")
    plt.ylabel("發言次數/次")
    plt.xticks(range(0,24),rotation=75,fontsize=10)#設定橫座標顯示24次。
    plt.yticks(range(0,1000,50))
   # plt.legend(loc='lower right')  # 繪製圖例
   # plt.show()
    plt.savefig("img/hour.png",format='png')
    plt.close()
def getciyun(value):
    text=''
    for i in range(0,24):
        text+=str(value[i]['text'])
    args=jieba.analyse.extract_tags(text,topK=80)
    text=' '.join(args)
    wc = WordCloud(background_color="white",
                   width=1500, height=1000,
                   min_font_size=40,
                   font_path="simhei.ttf",
                  # max_font_size=300,  # 設定字型最大值
                   random_state=40,  # 設定有多少種隨機生成狀態，即有多少種配色方案
                   )  # 字型這裡有個坑，一定要設這個引數。否則會顯示一堆小方框wc.font_path="simhei.ttf"   # 黑體
    # wc.font_path="simhei.ttf"
    my_wordcloud = wc.generate(text)

    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()
    wc.to_file('img/wordcloud.png')
def analysebyhour(lines):
    value=[]
    y=[]
    index=0
    for i in range(0,24):
        value.append({})
        value[i]['time']=0
        value[i]['text']=''
    for line in lines:
        if line != "\n" and line.strip() != "\n" and line != None and not line.__contains__("撤回了"):
           line = line.replace("[表情]", " ").replace("@全體成員", " ").replace("[表情]", " ").\
                replace("[QQ紅包]我發了一個“專享紅包”，請使用新版手機QQ查收紅。", "").replace("\n", " ").replace("[圖片]",'')
           if(pattern.search(line)):#匹配到正確的物件
                date=pattern.search(line)
                hour=pattern2.search(line).group(1)
                #print(date.group(0),hour)
                value[int(hour)]['time']+=1
                index=hour
           else:
               print(line)
               value[int(index)]['text']+=str(line)
    for i in range(0,24):
        print('time:',i,'time',value[i]['time'])
        y.append(value[i]['time'])
    getpicture(y)
    getciyun(value)
analysebyhour(lines)
複製程式碼

然後兩張圖片就出來了：

第一個點狀圖可以發現我們的聊天時間11：00-12：00突出，17：00-18：00突出，因為這個時間我們沒有課程在吃飯或者玩，有時候下午或者晚上或者其他的安排或者考試啥的可能會討論。而13：00-14：00這個點我們大部分在午休一般沒人聊天。但是醒了之後就會一直很活躍?。
第二個詞雲可以看的出我們最近在聊啥，因為我的記錄是5月十幾才開始，記錄不足，準備找一份記錄足的做下一個研究。你可能通過詞雲發現我的其實還有挺大的不足就是QQ小冰沒有過濾掉。希望如果讀者有興趣嘗試可以處理一下。

通過這些簡單的文字分析感覺很有趣，有興趣等有時間把第二種也做出來，那種可能做起來比較麻煩一些。但是難道還是不大的。這些東西看似高深，其實瞭解api做起來很簡單。

希望一起加油。

python視覺化文字分析(2)—snownlp+jieba分析QQ群成員發言情況
2019-05-06
Python視覺化Jieba
qq 聊天記錄原文
2020-06-18
如何用Python做AQI分析並視覺化？
2020-09-01
Python視覺化
python資料分析與視覺化基礎
2024-08-02
Python視覺化
【終極指南】使用Python視覺化分析文字情感傾向
2024-05-28
Python視覺化
劫持微信聊天記錄並分析還原 —— 訪問資料庫並檢視聊天記錄（五）
2024-11-09
資料庫
【Python視覺化】使用Pyecharts進行奧運會視覺化分析～
2020-04-29
Python視覺化Echarts
OSS訪問日誌分析（1）：概念+巨集觀指標
2018-05-24
指標
win10如何qq歷史聊天記錄_win10怎麼查詢qq以前聊天記錄
2020-06-17
Win10
win10如何遷移qq聊天記錄 win10電腦qq聊天記錄怎麼遷移
2020-11-27
Win10
python資料分析與視覺化【思維導圖】
2023-01-09
Python視覺化
視覺化資料分析軟體
2021-11-30
視覺化
詳解Python 中視覺化資料分析工作流程
2024-05-10
Python視覺化
Python疫情資料分析，並做資料視覺化展示
2022-03-08
Python視覺化
Python視覺化(1)：折線圖
2018-12-03
Python視覺化
[資料分析與視覺化] Python繪製資料地圖2-GeoPandas地圖視覺化
2023-04-09
視覺化Python地圖
NLP（十二）依存句法分析的視覺化及圖分析
2019-07-29
視覺化
《視覺化複分析》作者的新書
2020-11-06
視覺化新書
單細胞分析實錄(19): 基於CellPhoneDB的細胞通訊分析及視覺化 (下篇)
2021-07-25
視覺化
單細胞分析實錄(18): 基於CellPhoneDB的細胞通訊分析及視覺化 (上篇)
2021-07-24
視覺化
Echarts製作時變資料視覺化+2024 QQ群聊記錄製作詞雲圖
2024-04-28
Echarts視覺化
Python視覺化圖系列（1）-----jupyter notebook
2020-10-09
Python視覺化
python分析文字報告
2020-11-15
Python
資料視覺化能否代替資料分析
2021-12-01
視覺化
NGINX巨集觀手記
2019-01-19
Nginx
氣候變化對巨集觀經濟的長期影響：跨國分析
2019-08-27
《複分析：視覺化方法》啥時候再版啊？
2020-03-30
視覺化
BI免費素材分析|BI資料視覺化
2023-03-10
視覺化
繪圖和視覺化知識圖譜-《利用Python進行資料分析》
2020-07-15
繪圖視覺化Python
Python資料分析入門（十六）：設定視覺化圖表的資訊
2021-04-13
Python視覺化
劫持微信聊天記錄並分析還原 —— 解密資料庫（二）
2024-11-05
解密資料庫
Python抓取QQ音樂歌單並分析
2018-06-22
Python
1_文字記錄說明
2024-10-08
開發BI大資料分析視覺化系統
2019-09-16
大資料視覺化
資料視覺化專案---客源分析趨勢圖
2020-10-29
視覺化
mysql-kettle-superset電商視覺化資料分析
2020-05-16
MySql視覺化
中國大學排名資料分析與視覺化
2024-05-29
視覺化
資料分析視覺化專案（二）--谷歌App store
2020-11-27
視覺化谷歌APP

python視覺化文字分析(1)—分析QQ班群聊天記錄巨集觀

相關文章