中文NLP筆記:3. 關鍵詞提取的幾個方法
提取
,意思是從文字里面把意義最相關的詞語抽取出來。
在文獻檢索、自動文摘、文字聚類/分類等任務中有重要的應用
主要有2種提取方法
1. 關鍵詞分配
在一個已有的關鍵詞庫中匹配幾個詞語作為這篇文件的關鍵詞。
2. 關鍵詞提取
通過演算法分析,提取文件中一些詞語作為關鍵詞。
其中第二種,關鍵詞提取的常用演算法有以下幾個
1. 基於 TF-IDF 演算法進行關鍵詞提取
TF-IDF :用於反映一個詞對於某篇文件的重要性。過濾掉常見的詞語,保留重要的詞語
如果某個詞在一篇文件中出現的頻率高,則TF 高;並且在其他文件中很少出現,則 IDF 高,TF-IDF 就是將二者相乘為 TF * IDF, 這樣這個詞具有很好的類別區分能力。
在 jieba 用以下程式碼實現
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())
2. 基於 TextRank 演算法進行關鍵詞提取
由 PageRank 改進而來,將文字中的詞看作圖中的節點,通過邊相互連線,權重高的節點作為關鍵詞。
在 jieba 用以下程式碼實現
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
3. 基於 LDA 主題模型進行關鍵詞提取
一般步驟為:檔案載入 -> jieba 分詞 -> 去停用詞 -> 構建詞袋模型 -> LDA 模型訓練 -> 結果視覺化。
4. 基於 pyhanlp 進行關鍵詞提取
可以用 HanLP 的 TextRankKeyword 實現
from pyhanlp import *
result = HanLP.extractKeyword(sentence, 20)
print(result)
學習資料:
《中文自然語言處理入門實戰》
相關文章
- 用 RAKE 和 Maui 做 NLP 關鍵詞提取的教程UI
- NLP標籤/關鍵詞-提取工具-java開發Java
- 如何用Python提取中文關鍵詞?Python
- 關鍵詞提取
- NLP自然語言處理 jieba中文分詞,關鍵詞提取,詞性標註,並行分詞,起止位置,文字挖掘,NLP WordEmbedding的概念和實現自然語言處理Jieba中文分詞詞性標註並行
- 【python學習手冊】02|使用Python提取中文關鍵詞?Python
- Python關鍵詞(keywords)筆記Python筆記
- 學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類筆記詞性標註
- NLP segment-03-基於 TF-IDF 實現關鍵詞提取 java 開源實現Java
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- 網站關鍵詞堆砌後,處理關鍵詞堆砌方法網站
- 讀懂這幾個關鍵詞,你就能瞭解 Docker 啦Docker
- js--class類、super和estends關鍵詞的學習筆記JS筆記
- jieba 基於 TF-IDF 演算法的關鍵詞提取Jieba演算法
- NLP第3章 中文分詞技術中文分詞
- 如何優化多個關鍵詞?分享多關鍵詞優化心得優化
- 怎麼禁用筆記本鍵盤 關閉筆記本自帶鍵盤方法筆記
- 大資料資訊挖掘中文分詞是關鍵大資料中文分詞
- “網際網路+”的五個關鍵詞
- C語言的幾個關鍵字C語言
- 3.管理例程(筆記)筆記
- 網站關鍵詞排名下跌最主要的幾種因素?網站
- 鍵盤怎麼退出fn模式 關閉筆記本Fn鍵方法模式筆記
- 【NLP學習筆記】(一)Gensim基本使用方法筆記
- iOS 關於tabBar的幾處筆記iOStabBar筆記
- set容器幾個關鍵函式函式
- 高亮:單關鍵詞、多關鍵詞、多組多關鍵詞,從簡單到複雜實現滿足多方面需求的頁面關鍵詞高亮
- 用好OA辦公系統的5個關鍵詞
- Spring關鍵詞的理解Spring
- 自然語言處理工具hanlp關鍵詞提取圖解TextRank演算法自然語言處理HanLP圖解演算法
- 如何做好文字關鍵詞提取?從三種演算法說起演算法
- SEO關鍵詞最佳化正確方法解析
- TF-IDF與餘弦相似性的應用(一):自動提取關鍵詞
- 基於Spring的MVC的幾個關鍵點SpringMVC
- golang25個基礎關鍵詞註釋Golang
- 什麼是關鍵詞策略?網站關鍵詞佈局重要嗎?網站
- 從JavaScript 的關鍵詞談起JavaScript
- Javascript中的關鍵字'this'學習筆記JavaScript筆記