如何在java中去除中文文字的停用詞
1. 整體思路
第一步:先將中文文字進行分詞,這裡使用的 HanLP-漢語言處理包進行中文文字分詞。
第二步:使用停用詞表,去除分好的詞中的停用詞。
2. 中文文字分詞環境配置
使用的 HanLP-漢語言處理包進行中文文字分詞。
· HanLP-漢語言處理包 下載,可以去 github上下載
· HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。
· 官方環境配置 步驟也可以在 github上查詢到。
· 環境配置好後, java使用HanLP進行中文分詞文件如下:hanlp.linrunsoft.com/doc.html
3. 下載停用詞表
停用詞表可以去百度 或者其他搜尋引擎檢索一份,很容易就找到!
4. 去除停用詞工具類
使用這個工具類的之前,請先完成中文文字分詞環境配置,並測試一下。停用詞 .txt 檔案路徑請修改為自己的本地路徑。
5. 工具類測試
5.1 測試程式碼
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 測試結果
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2643375/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- 如何在 MySQL 中判斷中文字元?MySql字元
- HanLP-停用詞表的使用示例HanLP
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- 使用ICTCLAS JAVA版(ictclas4j)進行中文分詞(附ictclas,停用詞表,commons-lang-2.4.jar下載地址)...Java中文分詞JAR
- ES 實現實時從Mysql資料庫中讀取熱詞,停用詞MySql資料庫
- 科大訊飛語音轉文字以及中文分詞的Java測試程式碼中文分詞Java
- 利用excel去除txt文字中重複項Excel
- JAVA 如何實現大文字去除重複行Java
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- java去除xml檔案中的標籤JavaXML
- java+lucene中文分詞,搜尋引擎搜詞剖析Java中文分詞
- python呼叫jieba(結巴)分詞 加入自定義詞典和去停用詞功能PythonJieba分詞
- oracle全文索引之停用詞的萬用字元功能Oracle索引字元
- 如何在MySQL中輸入中文MySql
- Win10系統中word文件去除文字邊框的方法Win10
- Java中名詞的解釋Java
- html中中文字型的程式碼HTML
- 如何在模板中編輯修改文字
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- 如何去除PPT模板上釋出的文字
- 去除Toast 文字內容帶的黑色底色AST
- 大段中文字元(如:text型)除了用getBytes法,還有別的方法嗎?字元
- 【java】【集合】去除ArrayList中的元素、ArrayList巢狀ArrayListJava巢狀
- Kafka社群KIP-500中文譯文(去除ZooKeeper)Kafka
- 文字挖掘的分詞原理分詞
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- 去除站點的資料庫欄位中包含的關鍵詞,並恢復資料庫
- 急!大段中文字元(如:text型)除了用getBytes法,還有別的方法嗎?字元
- Java基礎之去除List集合中的重複元素Java
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- 如何在laradock中安裝ik分詞器分詞
- 如何在Ubuntu下新增中文字符集支援(解決中文亂碼問題)Ubuntu
- 大資料語義分析:靈玖中文分詞的分詞處理大資料中文分詞
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- Java 設定Word文字框中的文字旋轉方向Java
- Java 讀取Word文字框中的文字/圖片/表格Java