如何在java中去除中文文字的停用詞

adnb34g發表於2019-05-06

1.  整體思路

第一步:先將中文文字進行分詞,這裡使用的 HanLP-漢語言處理包進行中文文字分詞。

第二步:使用停用詞表,去除分好的詞中的停用詞。

2.  中文文字分詞環境配置

使用的 HanLP-漢語言處理包進行中文文字分詞。

· HanLP-漢語言處理包 下載,可以去 github上下載

· HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。

· 官方環境配置 步驟也可以在 github上查詢到。

· 環境配置好後, java使用HanLP進行中文分詞文件如下:hanlp.linrunsoft.com/doc.html

3.  下載停用詞表

停用詞表可以去百度 或者其他搜尋引擎檢索一份,很容易就找到!

4.  去除停用詞工具類

使用這個工具類的之前,請先完成中文文字分詞環境配置,並測試一下。停用詞 .txt 檔案路徑請修改為自己的本地路徑。

 

 


5.  工具類測試

5.1  測試程式碼

public class test {

    public static void main(String args[]) {

        try {

            System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));

        } catch (IOException e) {

            e.printStackTrace();

        }

    }

 

5.2  測試結果

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2643375/,如需轉載,請註明出處,否則將追究法律責任。

相關文章