jieba 基於 TF-IDF 演算法的關鍵詞提取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False,
allowPOS=())

sentence 為待提取的文字
topK 為返回幾個 TF/IDF 權重最大的關鍵詞，預設值為 20
withWeight 為是否一併返回關鍵詞權重值，預設值為 False
allowPOS 僅包括指定詞性的詞，預設值為空，即不篩選

# 新建 TFIDF 例項，idf_path 為 IDF 頻率檔案
jieba.analyse.TFIDF(idf_path=None)

關鍵詞提取所使用停止詞（Stop Words）文字語料庫可以切換成自定義語料庫的路徑

# file_name為自定義語料庫的路徑
jieba.analyse.set_stop_words(file_name)

自定義語料庫示例：

!
"
#
$
%
&
'
(
)
*
+
,
-
--
.
..
...
......
...................
./
.一
記者
數
年
月
日
時
分
秒
/
//
0
1
2
3
4

import jieba
import jieba.analyse
content = open('demo.txt', 'r', encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10)
print(",".join(tags))

關鍵詞一併返回關鍵詞權重值示例：

import jieba
import jieba.analyse
content = open('demo.txt', 'r', encoding='utf-8').read()
jieba.analyse.set_stop_words("stopwords.txt")
tags = jieba.analyse.extract_tags(content, topK=10, withWeight=True)
for tag in tags:
    print("tag:%s\t\t weight:%f"%(tag[0],tag[1]))

本作品採用《CC 協議》，轉載必須註明作者和本文連結

不要試圖用百米衝刺的方法完成馬拉松比賽。

NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現
2024-11-01
Java
關鍵詞提取
2024-04-05
HanLP 關鍵詞提取演算法分析詳解
2018-11-05
HanLP演算法
[Python] 基於 jieba 的中文分詞總結
2021-02-21
PythonJieba中文分詞
如何用Python提取中文關鍵詞？
2018-06-28
Python
基於JavaScript的關鍵詞過濾示例
2024-11-06
JavaScript
如何做好文字關鍵詞提取？從三種演算法說起
2018-11-15
演算法
自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法
2019-02-20
自然語言處理HanLP圖解演算法
Python 自然語言處理（基於jieba分詞和NLTK）
2018-05-11
Python自然語言處理Jieba分詞
NLP標籤/關鍵詞-提取工具-java開發
2020-10-30
Java
中文NLP筆記：3. 關鍵詞提取的幾個方法
2019-01-21
筆記
【python學習手冊】02|使用Python提取中文關鍵詞？
2018-04-20
Python
關鍵詞加粗和插入關鍵詞
2020-06-01
基於tf-idf的論文查重
2024-09-10
基於Python的tf-idf演算法實現：以《笑傲江湖》為例
2018-09-15
Python演算法
python jieba庫，句子分詞
2024-08-25
PythonJieba分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
基於CNN的新詞發現演算法
2022-10-20
CNN演算法
transient關鍵詞的概述
2022-12-04
robot 關鍵詞
2018-05-04
基於注意力機制與改進TF-IDF的推薦演算法
2024-04-11
演算法
基於Java關鍵詞審計技巧？網路安全原始碼審計
2020-12-18
Java原始碼
匹配關鍵詞和敏感詞
2020-07-05
初探SEO關鍵詞競爭程度的智慧演算法思路
2018-10-27
演算法
高亮：單關鍵詞、多關鍵詞、多組多關鍵詞，從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
2018-12-27
網站關鍵詞堆砌後，處理關鍵詞堆砌方法
2020-10-18
網站
golang25個基礎關鍵詞註釋
2021-08-12
Golang
java—— finall 關鍵詞
2020-12-19
Java
TF-IDF演算法
2023-09-20
演算法
Python：Python 中 jieba 庫的使用（中文分詞）
2018-05-12
PythonJieba中文分詞
什麼是長尾關鍵詞？如何找到長尾關鍵詞？
2020-10-17
基於php審計關鍵詞審計技巧總結網路安全學習
2020-12-18
PHP
從JavaScript 的關鍵詞談起
2020-01-16
JavaScript
什麼是關鍵詞策略？網站關鍵詞佈局重要嗎？
2020-07-28
網站
如何優化多個關鍵詞？分享多關鍵詞優化心得
2021-11-23
優化
作用域鏈this關鍵詞
2018-05-14
Eclipse註釋關鍵詞
2018-03-06
Eclipse

jieba 基於 TF-IDF 演算法的關鍵詞提取

相關文章