如何在java中去除中文文字的停用詞
1. 整體思路
第一步:先將中文文字進行分詞,這裡使用的 HanLP-漢語言處理包進行中文文字分詞。
第二步:使用停用詞表,去除分好的詞中的停用詞。
2. 中文文字分詞環境配置
使用的 HanLP-漢語言處理包進行中文文字分詞。
· HanLP-漢語言處理包 下載,可以去 github上下載
· HanLP 的環境配置有兩種方式:方式一、Maven;方式二、下載jar、data、hanlp.properties。
· 官方環境配置 步驟也可以在 github上查詢到。
· 環境配置好後, java使用HanLP進行中文分詞文件如下:hanlp.linrunsoft.com/doc.html
3. 下載停用詞表
停用詞表可以去百度 或者其他搜尋引擎檢索一份,很容易就找到!
4. 去除停用詞工具類
使用這個工具類的之前,請先完成中文文字分詞環境配置,並測試一下。停用詞 .txt 檔案路徑請修改為自己的本地路徑。
5. 工具類測試
5.1 測試程式碼
public class test {
public static void main(String args[]) {
try {
System.out.println(FormatUtil.RemovalOfStopWords("床前明月光,疑是地上霜。舉頭望明月,低頭思故鄉。"));
} catch (IOException e) {
e.printStackTrace();
}
}
5.2 測試結果
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2643375/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 最全中文停用詞表整理(1893個)
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- HanLP-停用詞表的使用示例HanLP
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- NPP++去除文字中的重複行
- 科大訊飛語音轉文字以及中文分詞的Java測試程式碼中文分詞Java
- JAVA 如何實現大文字去除重複行Java
- ES 實現實時從Mysql資料庫中讀取熱詞,停用詞MySql資料庫
- java去除xml檔案中的標籤JavaXML
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- html中中文字型的程式碼HTML
- hanlp中文智慧分詞自動識別文字提取例項HanLP分詞
- Python:Python 中 jieba 庫的使用(中文分詞)PythonJieba中文分詞
- Java中名詞的解釋Java
- 如何在MySQL中輸入中文MySql
- 如何在模板中編輯修改文字
- 【java】【集合】去除ArrayList中的元素、ArrayList巢狀ArrayListJava巢狀
- Kafka社群KIP-500中文譯文(去除ZooKeeper)Kafka
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- Java基礎之去除List集合中的重複元素Java
- 如何在laradock中安裝ik分詞器分詞
- Java 設定Word文字框中的文字旋轉方向Java
- Java 讀取Word文字框中的文字/圖片/表格Java
- python統計英文文字中的迴文單詞數Python
- 大文字如何按行去除重複值
- 如何在 Linux shell 中找出所有包含指定文字的檔案Linux
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- vue去除路徑中的#Vue
- 雙向最大匹配演算法——基於詞典規則的中文分詞(Java實現)演算法中文分詞Java
- 在 GIMP 中如何在文字週圍新增邊框
- 如何在Python中將語音轉換為文字Python
- Javafx-【直方圖】文字頻次統計工具 中文/英文單詞統計Java直方圖
- 古詩詞 中文 分詞 自動化分詞
- Linux 中grep命令如何匹配中文字元Linux字元
- NLP之中文分詞中文分詞
- 中文分詞技術中文分詞
- java中文字串漢字轉GBK編碼Java字串