中文NLP筆記:3. 關鍵詞提取的幾個方法
提取
,意思是從文字里面把意義最相關的詞語抽取出來。
在文獻檢索、自動文摘、文字聚類/分類等任務中有重要的應用
主要有2種提取方法
1. 關鍵詞分配
在一個已有的關鍵詞庫中匹配幾個詞語作為這篇文件的關鍵詞。
2. 關鍵詞提取
通過演算法分析,提取文件中一些詞語作為關鍵詞。
其中第二種,關鍵詞提取的常用演算法有以下幾個
1. 基於 TF-IDF 演算法進行關鍵詞提取
TF-IDF :用於反映一個詞對於某篇文件的重要性。過濾掉常見的詞語,保留重要的詞語
如果某個詞在一篇文件中出現的頻率高,則TF 高;並且在其他文件中很少出現,則 IDF 高,TF-IDF 就是將二者相乘為 TF * IDF, 這樣這個詞具有很好的類別區分能力。
在 jieba 用以下程式碼實現
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
2. 基於 TextRank 演算法進行關鍵詞提取
由 PageRank 改進而來,將文字中的詞看作圖中的節點,通過邊相互連線,權重高的節點作為關鍵詞。
在 jieba 用以下程式碼實現
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
3. 基於 LDA 主題模型進行關鍵詞提取
一般步驟為:檔案載入 -> jieba 分詞 -> 去停用詞 -> 構建詞袋模型 -> LDA 模型訓練 -> 結果視覺化。
4. 基於 pyhanlp 進行關鍵詞提取
可以用 HanLP 的 TextRankKeyword 實現
from pyhanlp import *
result = HanLP.extractKeyword(sentence, 20)
print(result)
學習資料:
《中文自然語言處理入門實戰》
相關文章
- 如何用Python提取中文關鍵詞?Python
- NLP標籤/關鍵詞-提取工具-java開發Java
- 關鍵詞提取
- 【python學習手冊】02|使用Python提取中文關鍵詞?Python
- NLP之中文分詞中文分詞
- NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現Java
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- 網站關鍵詞堆砌後,處理關鍵詞堆砌方法網站
- jieba 基於 TF-IDF 演算法的關鍵詞提取Jieba演算法
- 讀懂這幾個關鍵詞,你就能瞭解 Docker 啦Docker
- js--class類、super和estends關鍵詞的學習筆記JS筆記
- 關鍵詞加粗和插入關鍵詞
- NLP《詞彙表示方法(二)詞嵌入表示》
- 怎麼禁用筆記本鍵盤 關閉筆記本自帶鍵盤方法筆記
- 如何優化多個關鍵詞?分享多關鍵詞優化心得優化
- NLP第3章 中文分詞技術中文分詞
- 文字識別:關鍵資訊提取的3種探索方法
- C語言的幾個關鍵字C語言
- 網站關鍵詞排名下跌最主要的幾種因素?網站
- 鍵盤怎麼退出fn模式 關閉筆記本Fn鍵方法模式筆記
- transient關鍵詞的概述
- robot 關鍵詞
- iOS 關於tabBar的幾處筆記iOStabBar筆記
- 匹配關鍵詞和敏感詞
- 【NLP學習筆記】(一)Gensim基本使用方法筆記
- set容器幾個關鍵函式函式
- 高亮:單關鍵詞、多關鍵詞、多組多關鍵詞,從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
- 如何做好文字關鍵詞提取?從三種演算法說起演算法
- 自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法自然語言處理HanLP圖解演算法
- java—— finall 關鍵詞Java
- Nginx HttpHeader增加幾個關鍵的安全選項NginxHTTPHeader
- 什麼是長尾關鍵詞?如何找到長尾關鍵詞?
- Javascript中的關鍵字'this'學習筆記JavaScript筆記
- 織夢標籤標題關鍵詞描述的調取方法
- 關於快取命中率的幾個關鍵問題!快取
- golang25個基礎關鍵詞註釋Golang
- 從JavaScript 的關鍵詞談起JavaScript
- 學習筆記:快速成長的幾點方法筆記