[python] LDA處理文件主題分佈及分詞、詞頻、tfidf計算

CopperDong發表於2017-11-07

原文網址 : https://blog.csdn.net/qfire/article/details/78471804

這篇文章主要是講述如何通過LDA處理文字內容TXT，並計算其文件主題分佈，主要是核心程式碼為主。其中LDA入門知識介紹參考這篇文章，包括安裝及用法：
[python] LDA處理文件主題分佈程式碼入門筆記

1.輸入輸出

輸入是test.txt檔案，它是使用Jieba分詞之後的文字內容，通常每行代表一篇文件。
該文字內容原自部落格：文字分析之TFIDF/LDA/Word2vec實踐，推薦大家去閱讀。

[plain]view
 plain copy

新春 備 年貨 ， 新年 聯歡晚會  

新春 節目單 ， 春節 聯歡晚會 紅火  

大盤 下跌 股市 散戶  

下跌 股市 賺錢  

金猴 新春 紅火 新年  

新車 新年 年貨 新春  

股市 反彈 下跌  

股市 散戶 賺錢  

新年 , 看 春節 聯歡晚會  

大盤 下跌 散戶

輸出則是這十篇文件的主題分佈，Shape(10L, 2L)表示10篇文件，2個主題。
具體結果如下所示：

[plain]view
 plain copy

shape: (10L, 2L)  

doc: 0 topic: 0  

doc: 1 topic: 0  

doc: 2 topic: 1  

doc: 3 topic: 1  

doc: 4 topic: 0  

doc: 5 topic: 0  

doc: 6 topic: 1  

doc: 7 topic: 1  

doc: 8 topic: 0  

doc: 9 topic: 1

同時呼叫 matplotlib.pyplot 輸出了對應的文件主題分佈圖，可以看到主題Doc0、Doc1、Doc8分佈於Topic0，它們主要描述主題新春；而Doc2、Doc3、Doc9分佈於Topic1，主要描述股市。

其過程中也會輸出描述LDA執行的資訊，如下圖所示：

2.核心程式碼

其中核心程式碼如下圖所示，包括讀取文字、LDA執行、輸出繪圖等操作。

[python]view
 plain copy

# coding=utf-8           

import os    

import sys  

import numpy as np  

import matplotlib  

import scipy  

import matplotlib.pyplot as plt  

from sklearn import feature_extraction    

from sklearn.feature_extraction.text import TfidfTransformer    

from sklearn.feature_extraction.text import CountVectorizer  

from sklearn.feature_extraction.text import HashingVectorizer   

if __name__ == "__main__":  

    #儲存讀取語料 一行預料為一個文件   

    corpus = []  

    for line in open('test.txt', 'r').readlines():  

        #print line  

        corpus.append(line.strip())  

    #print corpus  

    #將文字中的詞語轉換為詞頻矩陣 矩陣元素a[i][j] 表示j詞在i類文字下的詞頻  

    vectorizer = CountVectorizer()  

    print vectorizer  

    X = vectorizer.fit_transform(corpus)  

    analyze = vectorizer.build_analyzer()  

    weight = X.toarray()  

    print len(weight)  

    print (weight[:5, :5])  

    #LDA演算法  

    print 'LDA:'  

    import numpy as np  

    import lda  

    import lda.datasets  

    model = lda.LDA(n_topics=2, n_iter=500, random_state=1)  

    model.fit(np.asarray(weight))     # model.fit_transform(X) is also available  

    topic_word = model.topic_word_    # model.components_ also works  

    #文件-主題（Document-Topic）分佈  

    doc_topic = model.doc_topic_  

    print("type(doc_topic): {}".format(type(doc_topic)))  

    print("shape: {}".format(doc_topic.shape))  

    #輸出前10篇文章最可能的Topic  

    label = []        

    for n in range(10):  

        topic_most_pr = doc_topic[n].argmax()  

        label.append(topic_most_pr)  

        print("doc: {} topic: {}".format(n, topic_most_pr))  

    #計算文件主題分佈圖  

    import matplotlib.pyplot as plt    

    f, ax= plt.subplots(6, 1, figsize=(8, 8), sharex=True)    

    for i, k in enumerate([0, 1, 2, 3, 8, 9]):    

        ax[i].stem(doc_topic[k,:], linefmt='r-',    

                   markerfmt='ro', basefmt='w-')    

        ax[i].set_xlim(-1, 2)     #x座標下標  

        ax[i].set_ylim(0, 1.2)    #y座標下標  

        ax[i].set_ylabel("Prob")    

        ax[i].set_title("Document {}".format(k))    

    ax[5].set_xlabel("Topic")  

    plt.tight_layout()  

    plt.show()

同時如果希望查詢每個主題對應的問題詞權重分佈情況如下：

[python]view
 plain copy

import matplotlib.pyplot as plt    

f, ax= plt.subplots(2, 1, figsize=(6, 6), sharex=True)    

for i, k in enumerate([0, 1]):         #兩個主題  

    ax[i].stem(topic_word[k,:], linefmt='b-',    

               markerfmt='bo', basefmt='w-')    

    ax[i].set_xlim(-2,20)    

    ax[i].set_ylim(0, 1)    

    ax[i].set_ylabel("Prob")    

    ax[i].set_title("topic {}".format(k))    

ax[1].set_xlabel("word")    

plt.tight_layout()    

plt.show()

執行結果如下圖所示：共2個主題Topics，15個核心詞彙。

繪圖推薦文章：http://blog.csdn.net/pipisorry/article/details/37742423
PS：講到這裡，整個完整的LDA演算法就算結束了，你可以通過上面的程式碼進行LDA主題分佈的計算，下面是一些問題。

3.TFIDF計算及詞頻TF計算

特徵計算方法參考：Feature Extraction - scikit-learn

[python]view
 plain copy

#計算TFIDF  

corpus = []  

#讀取預料 一行預料為一個文件   

for line in open('test.txt', 'r').readlines():  

    #print line  

    corpus.append(line.strip())  

#print corpus  

#將文字中的詞語轉換為詞頻矩陣 矩陣元素a[i][j] 表示j詞在i類文字下的詞頻  

vectorizer = CountVectorizer()  

#該類會統計每個詞語的tf-idf權值  

transformer = TfidfTransformer()  

#第一個fit_transform是計算tf-idf 第二個fit_transform是將文字轉為詞頻矩陣  

tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))  

#獲取詞袋模型中的所有詞語    

word = vectorizer.get_feature_names()  

#將tf-idf矩陣抽取出來，元素w[i][j]表示j詞在i類文字中的tf-idf權重  

weight = tfidf.toarray()  

#列印特徵向量文字內容  

print 'Features length: ' + str(len(word))  

for j in range(len(word)):  

    print word[j]  

#列印每類文字的tf-idf詞語權重，第一個for遍歷所有文字，第二個for便利某一類文字下的詞語權重    

for i in range(len(weight)):  

    for j in range(len(word)):  

        print weight[i][j],  

    print '\n'

輸出如下圖所示，共統計處特徵詞15個，對應TF-IDF矩陣，共10行資料對應txt檔案中的10個文件，每個文件15維資料，儲存TF-IDF權重，這就可以通過10*15的矩陣表示整個文件權重資訊。

[plain]view
 plain copy

Features length: 15  

下跌 反彈 大盤 年貨 散戶 新年 新春 新車 春節 紅火 聯歡晚會 股市 節目單 賺錢 金猴  

0 0.0 0.0 0.579725686076 0.0 0.450929562568 0.450929562568 0.0 0.0 0.0 0.507191470855 0.0 0.0 0.0 0.0   

0 0.0 0.0 0.0 0.0 0.0 0.356735384792 0.0 0.458627428458 0.458627428458 0.401244805261 0.0 0.539503693426 0.0 0.0   

450929562568 0.0 0.579725686076 0.0 0.507191470855 0.0 0.0 0.0 0.0 0.0 0.0 0.450929562568 0.0 0.0 0.0   

523221265036 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.523221265036 0.0 0.672665604612 0.0   

0 0.0 0.0 0.0 0.0 0.410305398084 0.410305398084 0.0 0.0 0.52749830162 0.0 0.0 0.0 0.0 0.620519542315  

0 0.0 0.0 0.52749830162 0.0 0.410305398084 0.410305398084 0.620519542315 0.0 0.0 0.0 0.0 0.0 0.0 0.0  

482964462575 0.730404446714 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.482964462575 0.0 0.0 0.0   

0 0.0 0.0 0.0 0.568243852685 0.0 0.0 0.0 0.0 0.0 0.0 0.505209504985 0.0 0.649509260872 0.0   

0 0.0 0.0 0.0 0.0 0.505209504985 0.0 0.0 0.649509260872 0.0 0.568243852685 0.0 0.0 0.0 0.0   

505209504985 0.0 0.649509260872 0.0 0.568243852685 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0

但是在將TF-IDF用於LDA演算法model.fit(np.asarray(weight))時，總是報錯如下：
TypeError: Cannot cast array data from dtype('float64') to dtype('int64') according to the rule 'safe'
所以後來LDA我採用的是統計詞頻的方法進行的，該段程式碼如下：

[python]view
 plain copy

#儲存讀取語料 一行預料為一個文件   

corpus = []  

for line in open('test.txt', 'r').readlines():  

    #print line  

    corpus.append(line.strip())  

#print corpus  

#將文字中的詞語轉換為詞頻矩陣 矩陣元素a[i][j] 表示j詞在i類文字下的詞頻  

vectorizer = CountVectorizer()  

#fit_transform是將文字轉為詞頻矩陣  

X = vectorizer.fit_transform(corpus)  

#獲取詞袋模型中的所有詞語   

word = vectorizer.get_feature_names()  

analyze = vectorizer.build_analyzer()  

weight = X.toarray()  

#列印特徵向量文字內容  

print 'Features length: ' + str(len(word))  

for j in range(len(word)):  

    print word[j],   

#列印每類文字詞頻矩陣  

print 'TF Weight: '  

for i in range(len(weight)):  

    for j in range(len(word)):  

        print weight[i][j],  

    print '\n'  

print len(weight)  

print (weight[:5, :5])

輸出如下所示：

[plain]view
 plain copy

Features length: 15  

下跌 反彈 大盤 年貨 散戶 新年 新春 新車 春節 紅火 聯歡晚會 股市 節目單 賺錢 金猴 TF Weight:  

0 0 0 1 0 1 1 0 0 0 1 0 0 0 0   

0 0 0 0 0 0 1 0 1 1 1 0 1 0 0   

1 0 1 0 1 0 0 0 0 0 0 1 0 0 0   

1 0 0 0 0 0 0 0 0 0 0 1 0 1 0   

0 0 0 0 0 1 1 0 0 1 0 0 0 0 1   

0 0 0 1 0 1 1 1 0 0 0 0 0 0 0   

1 1 0 0 0 0 0 0 0 0 0 1 0 0 0   

0 0 0 0 1 0 0 0 0 0 0 1 0 1 0   

0 0 0 0 0 1 0 0 1 0 1 0 0 0 0   

1 0 1 0 1 0 0 0 0 0 0 0 0 0 0   

10  

[[0 0 0 1 0]  

 [0 0 0 0 0]  

 [1 0 1 0 1]  

 [1 0 0 0 0]  

 [0 0 0 0 0]]

得到weight權重後，然後呼叫對應的演算法即可執行不用的應用，如：
import lda
model = lda.LDA(n_topics=20, n_iter=500, random_state=1)
model.fit(np.asarray(weight))
from sklearn.cluster import KMeans
clf = KMeans(n_clusters=4) #景區動物人物國家
s = clf.fit(weight)

4.百度互動主題分佈例子

輸入資料主要是前面講述過的爬取百度百科、互動百科的景區、動物、人物、國家四類資訊，具體如下所示：

輸出如下所示，共12行資料，其中doc0~doc2主題分佈為topic1，其主題表示景區；doc3~doc5主題分佈為topic3，其主題表示動物；doc6~doc8主題分佈為topic0，其主題表示人物；doc9~doc11主題分佈為topic2，其主題表示國家。

[plain]view
 plain copy

shape: (12L, 4L)  

doc: 0 topic: 1  

doc: 1 topic: 1  

doc: 2 topic: 1  

doc: 3 topic: 3  

doc: 4 topic: 3  

doc: 5 topic: 3  

doc: 6 topic: 0  

doc: 7 topic: 0  

doc: 8 topic: 0  

doc: 9 topic: 2  

doc: 10 topic: 2  

doc: 11 topic: 2

5.計算主題TopN

主要是回覆讀者的問題，如何計算主題的TopN關鍵詞。核心程式碼如下：

[python]view
 plain copy

#LDA演算法    

print 'LDA:'    

import numpy as np    

import lda    

import lda.datasets    

model = lda.LDA(n_topics=2, n_iter=500, random_state=1)    

model.fit(np.asarray(weight))     # model.fit_transform(X) is also available    

topic_word = model.topic_word_    # model.components_ also works  

#輸出主題中的TopN關鍵詞  

word = vectorizer.get_feature_names()  

for w in word:  

    print w  

print topic_word[:, :3]  

n = 5    

for i, topic_dist in enumerate(topic_word):    

    topic_words = np.array(word)[np.argsort(topic_dist)][:-(n+1):-1]    

    print(u'*Topic {}\n- {}'.format(i, ' '.join(topic_words)))    

#文件-主題（Document-Topic）分佈    

doc_topic = model.doc_topic_    

print("type(doc_topic): {}".format(type(doc_topic)))    

print("shape: {}".format(doc_topic.shape))

通過word = vectorizer.get_feature_names()獲取整個預料的詞向量，其中TF-IDF對應的就是它的值。然後再獲取其位置對應的關鍵詞即可，程式碼中輸出5個關鍵詞，如下圖所示：

講到此處你也應該理解了LDA的基本用法和適用場景，你可以通過它進行新聞主題分佈，同時再進行引文推薦、聚類演算法等操作。
總之，希望這篇基礎性的文章對你有所幫助吧！還是那句話：
雖然我寫這類文章看起來很簡單，尤其對於機器學習的大牛來說，感覺沒什麼實質內容；但是如果你剛接觸這類知識，還是非常頭疼的，想找到一個可執行的演算法很困難。
這也是為什麼總感覺以前學習了一些原理或理論的東西，而實際應用不是很明白，這種感覺就像學游泳，在岸上看別人感覺什麼都會了，但想要學會還是得下水，一步一步來，而我寫的這類基礎文章就相當於帶你下水吧！後面你才能做些自己喜歡的演算法和研究。
最近真的很忙，同時我認識了一位很優秀的女生，總算邁出了人生最重要的一步，就是真正的勇敢的出去接觸些異性朋友，這感覺非常不錯的。同時學校工作那邊仍然在等訊息，真心想回家當一名軟體相關的教師啊~
最後附上最近朋友圈的一條資訊：

哎！感嘆下時光吧，僅以此詩紀念這三年寫部落格的堅持和北理最後的四個月：
但行好事，莫問前程。
待隨滿天李桃，再追學友趣事。
(By:Eastmount 2016-03-15 深夜3點 http://blog.csdn.net/eastmount/ )

Python文字處理NLP：分詞與詞雲圖
2019-07-08
Python分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
文字挖掘之語料庫、分詞、詞頻統計
2024-05-20
分詞
python TK庫統計word文件單詞詞頻程式 UI選擇文件
2020-12-27
PythonUI
python 計算txt文字詞頻率
2018-07-29
Python
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
Hanlp分詞例項：Java實現TFIDF演算法
2018-11-14
HanLP分詞Java演算法
python使用jieba實現中文文件分詞和去停用詞
2019-06-19
PythonJieba分詞
自然語言處理之jieba分詞
2020-08-18
自然語言處理Jieba分詞
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
python分詞和生成詞雲圖
2020-12-08
Python分詞
將使用jieba分詞的語料庫轉化成TFIDF向量
2020-12-09
Jieba分詞
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
python 實現中文分詞統計
2019-02-16
Python中文分詞
Python自然語言處理實戰（3）：中文分詞技術
2018-07-15
Python自然語言處理中文分詞
python如何統計詞頻
2021-09-11
Python
詞語詞頻統計
2020-11-19
分詞
2024-04-02
分詞
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
python實現詞頻統計
2020-12-08
Python
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
用WordCloud詞雲+LDA主題模型，帶你讀一讀《芳華》(python實現)
2019-03-04
CloudLDA模型Python
分詞-1
2024-04-02
分詞
如何用Python做中文分詞？
2018-06-28
Python中文分詞
親手做的詞向量分佈圖
2024-08-05
詞頻統計
2024-06-26
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
LDA主題模型簡介及Python實現
2022-10-31
LDA模型Python
自然語言處理工具pyhanlp分詞與詞性標註
2019-05-18
自然語言處理HanLP分詞詞性標註
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
單詞劃分
2018-05-02
IK 分詞器
2022-01-09
分詞
剖析分詞器
2021-11-16
分詞
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞
詞頻統計mapreduce
2024-10-27
詞！自然語言處理之詞全解和Python實戰！
2023-11-06
自然語言處理Python
掌握 analyze API，搞定分詞難題
2018-08-27
API分詞