【python學習手冊】02|使用Python提取中文關鍵詞?

weixin_34247155發表於2018-04-20

【需求】
小陳同學想知道30篇文件裡,出現頻次最高的關鍵詞有哪些?
【環境】
Mac python3.6
用Anaconda配置的環境
【開始】
Step1

  • 安裝要用到的庫:結巴分詞
pip install jieba

Step2

  • 終端裡輸入
jupyter notebook
  • 開啟jupyter (用完覺得可以一行一行執行好適合初學者,可以發現哪裡有bug,比sublime裡寫完整體執行再回去找bug要友善
    Step3
  • 準備要分析的文字,這時候有個巨坑就是編碼問題,之前直接在寫,就遇到了編碼問題,也不知道怎麼解決。
  • 因而,正確的使用中文文字資料方式,是你在Jupyter Notebook裡面,新建一個文字檔案。
8370941-cb59c66c65a18077.png
  • 把文字複製進去,修改檔名,按File裡的儲存,就可以返回上一個選單。


    8370941-ccc18cc00eae822c.png
  • 返回後,同樣新建一個python3檔案,開始寫提取關鍵詞的程式碼。


    8370941-d55021f99b397ce7.png
  • 用了2種方式提取關鍵詞,個人覺得第二種更準確一些,程式碼如下:


    8370941-a10d6405f7a42413.png
  • 如果你需要修改關鍵詞數量,就需要指定topK引數。例如你要輸出10個關鍵詞,可以這樣執行:
for keyword, weight in extract_tags(data, topK=10, withWeight=True):
    print('%s %s' % (keyword, weight))

【參考】
這篇是根據這篇教程 做的,感謝分享者,靠譜!

相關文章