python使用jieba實現中文文件分詞和去停用詞

adnb34g發表於2019-06-19


 

分詞工具的選擇:

  現在對於中文分詞,分詞工具有很多種,比如說: jieba分詞、thulac、SnowNLP等。在這篇文件中,筆者使用的jieba分詞,並且基於python3環境,選擇jieba分詞的理由是其比較簡單易學,容易上手,並且分詞效果還很不錯。

 

分詞前的準備:

待分詞的中文文件

存放分詞之後的結果文件

中文停用詞文件(用於去停用詞,在網上可以找到很多)

 

分詞之後的結果呈現:

 

1   去停用詞和分詞前的中文文件

 

2去停用詞和分詞之後的結果文件

 

分詞和去停用詞程式碼實現:

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2648058/,如需轉載,請註明出處,否則將追究法律責任。

相關文章