基於Python的tf-idf演算法實現：以《笑傲江湖》為例

Jason Wu發表於2018-09-15

原文網址 : https://juejin.im/post/5b9c9cb8e51d450e5c474550

連結

簡介

tf-idf（term frequency－inverse document frequency）是一種用於資訊檢索與文字探勘的常用加權技術，為一種統計方法，評估字詞對於「檔案集合」或「語料庫中的一份檔案」的重要程度。詳細方法和公式可參見Wikipedia，不再贅述。

Figure 1: 輸入「笑傲江湖」檔案集合，每份檔案為小說中的一個章回，輸出每章前 K 高的字詞和其權重。

本專案為實作 tf-idf ，輸入給定「一組有特定集合關係的檔案」（例如某本小說），輸出為每份檔案的 tf-idf 權重值結果，具體為顯示前 k 高的「字詞」和其權重值，如 Figure 1 所示。另外也可以輸入某個字詞，輸出該字詞在所有檔案中的權重值。

其中因為中文不同於英文可以藉由空白區隔字詞，我們採用了 jieba 結巴中文分詞，將檔案集合先進行分詞獲得語料庫，之後使用 tf-idf 演演算法取得字詞加權值。

預設測試資料位於 data 資料夾底下，每組檔案以 01 ~ 99.txt 格式命名，並放置到各別所屬集合的資料夾，例如 data/笑傲江湖/01.txt 。測試資料包含笑傲江湖丶創世紀丶出埃及記。

jieba 其實也內建了「基於 TF-IDF 演算法的關鍵詞抽取」，不過根據它的檔案和 Source Code 所述， jieba 其實只讀取一個檔案來計算TF，而IDF部分則是讀取他們自定的語料庫，因此結果不準確（不是基於相關檔案集合來計算逆頻率）。具體可以試試目錄下的src/tf-idf-jieba.py，我有寫了簡單的 jieba 版本 Demo。

預覽

簡易GUI

「笑傲江湖」資料集的各章字詞權重列表，可以看到各章節的重要關鍵字排名

字詞「任我行」在各章節的權重排名，可以看到他在第28章出場最多，而數值為0的部分就能得知他沒有出現

結論

tf-idf 這個統計方法可以應用在許多場合，處理小說只是其中一種。不過 tf-idf 儘管簡單有效，卻存在部分重大缺陷。以我個人發現的例子來說，笑傲江湖資料集裡每章基本上都一定會出現主角的名字「令狐沖」這個字詞，然而對 tf-idf 來說，每章都出現的東西代表它是常用字詞，逆頻率的存在使「令狐沖」的權重反而變為 0，這真是很諷刺的結果。

可以見得 idf 的簡單架構不能有效反映常見字詞和重要字詞的比重，精確度並不是很高。另外位置資訊也是其缺陷一環，不過在小說中這種缺點並不明顯，因此不多做討論。

如何基於文件的內容實現 AI 對話功能，以 Documate 為例
2024-02-26
AI
jieba 基於 TF-IDF 演算法的關鍵詞提取
2020-12-19
Jieba演算法
Alink漫談(六) : TF-IDF演算法的實現
2020-06-05
演算法
Python 用自然語言/流程圖描述演算法並實現（以雞兔同籠問題為例）
2020-10-13
Python流程圖演算法
NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現
2024-11-01
Java
以Lgwr Worker為例,基於Strace 分析 Oracle 資料庫行為的方法
2022-09-18
Oracle資料庫
Python實現一條基於POS演算法的區塊鏈
2018-08-07
Python演算法區塊鏈
基於鄰域粗糙集演算法python實現
2019-01-07
演算法Python
基於Python的Xgboost模型實現
2020-04-03
Python模型
基於Python實現MapReduce
2024-05-14
Python
python so.environ的使用（以pysolc為例)
2020-11-12
Python
基於tf-idf的論文查重
2024-09-10
前端狀態管理簡易實現(以vuex為例)
2019-01-03
前端Vue
關於python單例的常用幾種實現方法
2018-10-11
Python單例
基於注意力機制與改進TF-IDF的推薦演算法
2024-04-11
演算法
基於面繪製的MC演算法以及基於體繪製的 Ray-casting 實現Dicom影像的三維重建(python實現)
2019-05-07
演算法ASTPython
基於Python實現的口罩佩戴檢測
2022-06-24
Python
Python基於TCP實現聊天功能
2024-03-09
PythonTCP
資料視覺化：基於 Echarts + Python 實現的動態實時大屏範例【11】
2021-08-27
視覺化EchartsPython
以 ZGC 為例，談一談 JVM 是如何實現 Reference 語義的
2024-06-13
GCJVM
Python例項大全（基於Python3.7.4）
2020-01-27
Python
基於MXNET框架的線性迴歸從零實現（房價預測為例）
2021-05-10
框架
TF-IDF演算法
2023-09-20
演算法
摘要與加密的區別（以MD5演算法為例）
2019-03-04
加密演算法
RDF 和 SPARQL 初探：以維基資料為例
2020-02-23
python基於opencv 實現影像時鐘
2021-01-05
PythonOpenCV
以Java專案為例，實現Jenkins對接CCE Autopilot叢集
2024-07-03
JavaJenkins
Python的類及單例實現
2018-08-30
Python單例
蟻群演算法介紹（以TSP問題為例）
2018-05-08
演算法
python基礎之 python實現PID演算法及測試的例子
2020-03-13
Python演算法
RabbitMQ的使用--以topic路由為例
2024-06-27
MQ路由
以歐洲組織為目標的基於python的惡意軟體家族PWOBot
2020-08-19
Python
NodeJS 基於redis的分散式鎖的實現（Redlock演算法）
2018-12-10
NodeJSRedis分散式演算法
教你如何基於python實現指令碼加密
2020-01-08
Python指令碼加密
python實現基於smtp傳送郵件
2022-05-01
Python
基於 Redis 實現基本搶紅包演算法
2024-04-17
Redis演算法
基於Gossip流言演算法實現alertmanager高可用
2024-11-15
Go演算法
Python中實現單例模式
2024-04-17
Python單例模式

基於Python的tf-idf演算法實現：以《笑傲江湖》為例

連結

簡介

預覽

結論

相關文章