中文NLP筆記：3. 關鍵詞提取的幾個方法

powerx_yc發表於2019-01-21

筆記

提取，意思是從文字里面把意義最相關的詞語抽取出來。

在文獻檢索、自動文摘、文字聚類/分類等任務中有重要的應用

主要有2種提取方法

1. 關鍵詞分配

在一個已有的關鍵詞庫中匹配幾個詞語作為這篇文件的關鍵詞。

2. 關鍵詞提取

通過演算法分析，提取文件中一些詞語作為關鍵詞。

其中第二種，關鍵詞提取的常用演算法有以下幾個

1. 基於 TF-IDF 演算法進行關鍵詞提取

TF-IDF ：用於反映一個詞對於某篇文件的重要性。過濾掉常見的詞語，保留重要的詞語

如果某個詞在一篇文件中出現的頻率高，則TF 高；並且在其他文件中很少出現，則 IDF 高，TF-IDF 就是將二者相乘為 TF * IDF，這樣這個詞具有很好的類別區分能力。

在 jieba 用以下程式碼實現

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

2. 基於 TextRank 演算法進行關鍵詞提取

由 PageRank 改進而來，將文字中的詞看作圖中的節點，通過邊相互連線，權重高的節點作為關鍵詞。

在 jieba 用以下程式碼實現

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

3. 基於 LDA 主題模型進行關鍵詞提取

一般步驟為：檔案載入 -> jieba 分詞 -> 去停用詞 -> 構建詞袋模型 -> LDA 模型訓練 -> 結果視覺化。

4. 基於 pyhanlp 進行關鍵詞提取

可以用 HanLP 的 TextRankKeyword 實現

from pyhanlp import *
result = HanLP.extractKeyword(sentence, 20)
print(result)

學習資料：

《中文自然語言處理入門實戰》

如何用Python提取中文關鍵詞？
2018-06-28
Python
NLP標籤/關鍵詞-提取工具-java開發
2020-10-30
Java
關鍵詞提取
2024-04-05
【python學習手冊】02|使用Python提取中文關鍵詞？
2018-04-20
Python
NLP之中文分詞
2020-10-12
中文分詞
NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現
2024-11-01
Java
HanLP 關鍵詞提取演算法分析詳解
2018-11-05
HanLP演算法
網站關鍵詞堆砌後，處理關鍵詞堆砌方法
2020-10-18
網站
jieba 基於 TF-IDF 演算法的關鍵詞提取
2020-12-19
Jieba演算法
讀懂這幾個關鍵詞，你就能瞭解 Docker 啦
2020-05-20
Docker
js--class類、super和estends關鍵詞的學習筆記
2021-08-08
JS筆記
關鍵詞加粗和插入關鍵詞
2020-06-01
NLP《詞彙表示方法（二）詞嵌入表示》
2020-11-01
怎麼禁用筆記本鍵盤關閉筆記本自帶鍵盤方法
2022-01-14
筆記
如何優化多個關鍵詞？分享多關鍵詞優化心得
2021-11-23
優化
NLP第3章中文分詞技術
2018-06-25
中文分詞
文字識別：關鍵資訊提取的3種探索方法
2021-04-09
C語言的幾個關鍵字
2024-06-11
C語言
網站關鍵詞排名下跌最主要的幾種因素？
2019-04-23
網站
鍵盤怎麼退出fn模式關閉筆記本Fn鍵方法
2022-02-15
模式筆記
transient關鍵詞的概述
2022-12-04
robot 關鍵詞
2018-05-04
iOS 關於tabBar的幾處筆記
2019-05-06
iOStabBar筆記
匹配關鍵詞和敏感詞
2020-07-05
【NLP學習筆記】（一）Gensim基本使用方法
2018-12-11
筆記
set容器幾個關鍵函式
2018-10-18
函式
高亮：單關鍵詞、多關鍵詞、多組多關鍵詞，從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
2018-12-27
如何做好文字關鍵詞提取？從三種演算法說起
2018-11-15
演算法
自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法
2019-02-20
自然語言處理HanLP圖解演算法
java—— finall 關鍵詞
2020-12-19
Java
Nginx HttpHeader增加幾個關鍵的安全選項
2024-12-06
NginxHTTPHeader
什麼是長尾關鍵詞？如何找到長尾關鍵詞？
2020-10-17
Javascript中的關鍵字'this'學習筆記
2018-06-12
JavaScript筆記
織夢標籤標題關鍵詞描述的調取方法
2021-04-07
關於快取命中率的幾個關鍵問題！
2018-10-22
快取
golang25個基礎關鍵詞註釋
2021-08-12
Golang
學習筆記：快速成長的幾點方法
2024-06-16
筆記
從JavaScript 的關鍵詞談起
2020-01-16
JavaScript

中文NLP筆記：3. 關鍵詞提取的幾個方法

相關文章