HanLP分類模組的分詞器介紹

最近發現一個很勤快的大神在分享他的一些實操經驗，看了一些他自己關於 hanlp方面的文章，寫的挺好的！轉載過來分享給大家！以下為分享原文（無意義的內容已經做了刪除）

如下圖所示， HanLP的分類模組中單獨封裝了適用分類的分詞器，當然這些分詞器都是對HanLP提供的分詞器的封裝。分類模組中提供的分詞器都在tokenizer包中。包括：

BigramTokenizer這是一個2gram分詞器，也就是把連續的2字認為是一個詞

BlankTokenizer這是一個空白符分詞器，以文字中的空白符作為詞語間隔

HanLPTokenizer這是一個實詞分詞器，也就是隻保留實詞，它是分類模組的預設分詞器

如果需要修改.分類模組的分詞器，需要在載入文字資料之前，設定分詞器，示例程式碼如下：

IDataSet trainingCorpus = new FileDataSet(). // FileDataSet省記憶體，可載入大規模資料集

setTokenizer(new HanLPTokenizer()). // 支援不同的ITokenizer，詳見原始碼中的文件

load(CORPUS_FOLDER, "UTF-8", 0.9); // 前90%作為訓練集

IClassifier classifier = new NaiveBayesClassifier();

classifier.train(trainingCorpus);

還需要注意的是，這三種分詞器其實都不太適合做情感分類的分詞器，如果想用標準分詞器作為情感分類的分詞器，則使用者需要自定義一個分詞器類，該類需要實現 ITokenizer介面並封裝標準分詞器。（如果直接呼叫setTokenizer方法傳遞下圖HanLP分詞器包中的分詞器例項，則會報錯）

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31524777/viewspace-2647617/，如需轉載，請註明出處，否則將追究法律責任。

java分詞工具hanlp介紹
2019-07-03
Java分詞HanLP
Hanlp在java中文分詞中的使用介紹
2018-11-30
HanLPJava中文分詞
Elasticsearch整合HanLP分詞器
2018-10-08
ElasticsearchHanLP分詞
HanLP-實詞分詞器詳解
2019-05-27
HanLP分詞
HanLP分詞工具中的ViterbiSegment分詞流程
2019-08-05
HanLP分詞Viterbi
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
41_初識搜尋引擎_分詞器的內部組成到底是什麼，以及內建分詞器的介紹
2024-10-02
分詞
06 ## 模組分類
2024-09-28
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
基於hanlp的es分詞外掛
2019-07-01
HanLP分詞
自然語言處理工具中的中文分詞器介紹
2019-06-24
自然語言處理中文分詞
Ansj與hanlp分詞工具對比
2019-06-21
HanLP分詞
python呼叫hanlp分詞包手記
2018-12-26
PythonHanLP分詞
http代理使用分類介紹
2021-12-17
HTTP
Spring MVCD框架中呼叫HanLP分詞的方法
2019-07-10
SpringMVC框架HanLP分詞
基於 HanLP 的 ES 中文分詞外掛
2018-12-23
HanLP中文分詞
機器碼和位元組碼分別介紹
2019-03-25
機器碼
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
【StoneDB 模組介紹】伺服器模組
2022-10-17
伺服器
HanLP分詞命名實體提取詳解
2019-01-11
HanLP分詞
空間分析：4-1.分詞模型hanLP簡介與安裝
2020-11-28
分詞模型HanLP
詳解藍芽模組的分類
2022-12-04
藍芽模組
DDoS攻擊最常見的分類介紹！
2023-03-06
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
Hanlp中使用純JAVA實現CRF分詞
2018-10-19
HanLPJavaCRF分詞
Spark中分散式使用HanLP（1.7.0)分詞示例
2019-05-08
Spark分散式HanLP分詞
solr8.6.2 客戶端介面介紹及配置中文分詞器
2020-11-13
Solr客戶端中文分詞
交換機功能及分類介紹
2022-12-02
什麼是模組?Python模組分為哪幾類？
2024-01-24
Python
ASP.NET Core模組化前後端分離快速開發框架介紹之3、資料訪問模組介紹
2019-05-23
ASP.NET後端框架
中文分詞演算法工具hanlp原始碼解析
2019-03-13
中文分詞演算法HanLP原始碼
HanLP程式碼與詞典分離方案與流程
2018-10-10
HanLP
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
常用介面分類與模組設計的方法
2020-03-16
IK 分詞器
2022-01-09
分詞
剖析分詞器
2021-11-16
分詞
Elasticsearch 分詞器
2021-02-08
Elasticsearch分詞

HanLP分類模組的分詞器介紹

相關文章