【python學習手冊】02|使用Python提取中文關鍵詞?
【需求】
小陳同學想知道30篇文件裡,出現頻次最高的關鍵詞有哪些?
【環境】
Mac python3.6
用Anaconda配置的環境
【開始】
Step1
- 安裝要用到的庫:結巴分詞
pip install jieba
Step2
- 終端裡輸入
jupyter notebook
- 開啟jupyter (用完覺得可以一行一行執行好適合初學者,可以發現哪裡有bug,比sublime裡寫完整體執行再回去找bug要友善
Step3 - 準備要分析的文字,這時候有個巨坑就是編碼問題,之前直接在寫,就遇到了編碼問題,也不知道怎麼解決。
- 因而,正確的使用中文文字資料方式,是你在Jupyter Notebook裡面,新建一個文字檔案。
-
把文字複製進去,修改檔名,按File裡的儲存,就可以返回上一個選單。
-
返回後,同樣新建一個python3檔案,開始寫提取關鍵詞的程式碼。
-
用了2種方式提取關鍵詞,個人覺得第二種更準確一些,程式碼如下:
- 如果你需要修改關鍵詞數量,就需要指定topK引數。例如你要輸出10個關鍵詞,可以這樣執行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
print('%s %s' % (keyword, weight))
【參考】
這篇是根據這篇教程 做的,感謝分享者,靠譜!
相關文章
- 如何用Python提取中文關鍵詞?Python
- 關鍵詞提取
- python學習手冊(8)Python
- python學習手冊(10)Python
- python學習手冊(4)Python
- 中文NLP筆記:3. 關鍵詞提取的幾個方法筆記
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- Python學習手冊之Python介紹、基本語法(一)Python
- Python學習手冊之類和繼承Python繼承
- Python學習手冊之控制結構(二)Python
- Python學習手冊(第4版)PDF版Python
- [python學習手冊-筆記]002.python核心資料型別Python筆記資料型別
- [Python]-機器學習Python入門《Python機器學習手冊》-01-向量、矩陣和陣列Python機器學習矩陣陣列
- Python初學者手冊(14)Python
- Python3.4中文手冊chm地址Python
- python實現自動提取句子中的關鍵字Python
- 【學習圖片】02:關鍵效能問題
- 《Python機器學習手冊:從資料預處理到深度學習》Python機器學習深度學習
- python 中文分詞包 jiebaPython中文分詞Jieba
- HanLP 關鍵詞提取演算法分析詳解HanLP演算法
- NLP標籤/關鍵詞-提取工具-java開發Java
- Python學習手冊(入門&爬蟲&資料分析&機器學習&深度學習)Python爬蟲機器學習深度學習
- Python學習手冊之捕獲組和特殊匹配字串Python字串
- [python學習手冊-筆記]004.動態型別Python筆記型別
- [python學習手冊-筆記]003.數值型別Python筆記型別
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- 使用Python呼叫API介面獲取京東關鍵詞詳情資料PythonAPI
- 如何用Python做中文分詞?Python中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 【python】百度關鍵詞排名查詢實現Python
- Python快速教程 (手冊)Python
- 關鍵詞加粗和插入關鍵詞
- python 實現中文分詞統計Python中文分詞
- PHP 手冊 (類與物件) 學習筆記九:Static(靜態)關鍵字PHP物件筆記
- Python程式設計學習第八課之Python中的變數和關鍵字Python程式設計變數
- Python-秘籍手冊-全-Python
- jieba 基於 TF-IDF 演算法的關鍵詞提取Jieba演算法
- 如何用Python從PDF檔案中提取文字詞彙Python