【python學習手冊】02|使用Python提取中文關鍵詞?
【需求】
小陳同學想知道30篇文件裡,出現頻次最高的關鍵詞有哪些?
【環境】
Mac python3.6
用Anaconda配置的環境
【開始】
Step1
- 安裝要用到的庫:結巴分詞
pip install jieba
Step2
- 終端裡輸入
jupyter notebook
- 開啟jupyter (用完覺得可以一行一行執行好適合初學者,可以發現哪裡有bug,比sublime裡寫完整體執行再回去找bug要友善
Step3 - 準備要分析的文字,這時候有個巨坑就是編碼問題,之前直接在寫,就遇到了編碼問題,也不知道怎麼解決。
- 因而,正確的使用中文文字資料方式,是你在Jupyter Notebook裡面,新建一個文字檔案。
-
把文字複製進去,修改檔名,按File裡的儲存,就可以返回上一個選單。
-
返回後,同樣新建一個python3檔案,開始寫提取關鍵詞的程式碼。
-
用了2種方式提取關鍵詞,個人覺得第二種更準確一些,程式碼如下:
- 如果你需要修改關鍵詞數量,就需要指定topK引數。例如你要輸出10個關鍵詞,可以這樣執行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
print('%s %s' % (keyword, weight))
【參考】
這篇是根據這篇教程 做的,感謝分享者,靠譜!
相關文章
- 如何用Python提取中文關鍵詞?Python
- 關鍵詞提取
- Python學習手冊Python
- python學習手冊(10)Python
- python學習手冊(8)Python
- python學習手冊(4)Python
- python學習手冊17作用域Python
- 學習筆記CB002:詞幹提取、詞性標註、中文切詞、文件分類筆記詞性標註
- 中文NLP筆記:3. 關鍵詞提取的幾個方法筆記
- [python學習手冊-筆記]002.python核心資料型別Python筆記資料型別
- Python學習手冊之類和繼承Python繼承
- Python學習手冊之控制結構(二)Python
- Python學習手冊(第4版)PDF版Python
- python學習手冊13:while及for迴圈PythonWhile
- Python關鍵詞(keywords)筆記Python筆記
- Python學習手冊之Python介紹、基本語法(一)Python
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- Python搭建環境實現中文分詞標籤雲(官方手冊稍作調整)Python中文分詞
- Python3.4中文手冊chm地址Python
- python手冊Python
- python學習手冊25OOP:巨集偉藍圖PythonOOP
- Python學習手冊(入門&爬蟲&資料分析&機器學習&深度學習)Python爬蟲機器學習深度學習
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- NLP標籤/關鍵詞-提取工具-java開發Java
- python實現自動提取句子中的關鍵字Python
- python 中文分詞包 jiebaPython中文分詞Jieba
- 《Python機器學習手冊:從資料預處理到深度學習》Python機器學習深度學習
- Python學習手冊之捕獲組和特殊匹配字串Python字串
- [python學習手冊-筆記]004.動態型別Python筆記型別
- [python學習手冊-筆記]003.數值型別Python筆記型別
- 使用Python呼叫API介面獲取京東關鍵詞詳情資料PythonAPI
- 用 RAKE 和 Maui 做 NLP 關鍵詞提取的教程UI
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- python練習冊-第0002題Python
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 如何用Python做中文分詞?Python中文分詞
- PHP 手冊 (類與物件) 學習筆記九:Static(靜態)關鍵字PHP物件筆記