HanLP分類模組的分詞器介紹
最近發現一個很勤快的大神在分享他的一些實操經驗,看了一些他自己關於 hanlp方面的文章,寫的挺好的!轉載過來分享給大家!以下為分享原文(無意義的內容已經做了刪除)
如下圖所示, HanLP的分類模組中單獨封裝了適用分類的分詞器,當然這些分詞器都是對HanLP提供的分詞器的封裝。分類模組中提供的分詞器都在tokenizer包中。包括:
BigramTokenizer這是一個2gram分詞器,也就是把連續的2字認為是一個詞
BlankTokenizer這是一個空白符分詞器,以文字中的空白符作為詞語間隔
HanLPTokenizer這是一個實詞分詞器,也就是隻保留實詞,它是分類模組的預設分詞器
如果需要修改.分類模組的分詞器,需要在載入文字資料之前,設定分詞器,示例程式碼如下:
IDataSet trainingCorpus = new FileDataSet(). // FileDataSet省記憶體,可載入大規模資料集
setTokenizer(new HanLPTokenizer()). // 支援不同的ITokenizer,詳見原始碼中的文件
load(CORPUS_FOLDER, "UTF-8", 0.9); // 前90%作為訓練集
IClassifier classifier = new NaiveBayesClassifier();
classifier.train(trainingCorpus);
還需要注意的是,這三種分詞器其實都不太適合做情感分類的分詞器,如果想用標準分詞器作為情感分類的分詞器,則使用者需要自定義一個分詞器類,該類需要實現 ITokenizer介面並封裝標準分詞器。(如果直接呼叫setTokenizer方法傳遞下圖HanLP分詞器包中的分詞器例項,則會報錯)
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2647617/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- java分詞工具hanlp介紹Java分詞HanLP
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- HanLP-實詞分詞器詳解HanLP分詞
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 06 ## 模組分類
- 41_初識搜尋引擎_分詞器的內部組成到底是什麼,以及內建分詞器的介紹分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- 基於hanlp的es分詞外掛HanLP分詞
- 自然語言處理工具中的中文分詞器介紹自然語言處理中文分詞
- Ansj與hanlp分詞工具對比HanLP分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- http代理使用分類介紹HTTP
- Spring MVCD框架中呼叫HanLP分詞的方法SpringMVC框架HanLP分詞
- 基於 HanLP 的 ES 中文分詞外掛HanLP中文分詞
- 機器碼和位元組碼分別介紹機器碼
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 【StoneDB 模組介紹】伺服器模組伺服器
- HanLP分詞命名實體提取詳解HanLP分詞
- 空間分析:4-1.分詞模型hanLP簡介與安裝分詞模型HanLP
- 詳解藍芽模組的分類藍芽模組
- DDoS攻擊最常見的分類介紹!
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- Hanlp中使用純JAVA實現CRF分詞HanLPJavaCRF分詞
- Spark中分散式使用HanLP(1.7.0)分詞示例Spark分散式HanLP分詞
- solr8.6.2 客戶端介面介紹及配置中文分詞器Solr客戶端中文分詞
- 交換機功能及分類介紹
- 什麼是模組?Python模組分為哪幾類?Python
- ASP.NET Core模組化前後端分離快速開發框架介紹之3、資料訪問模組介紹ASP.NET後端框架
- 中文分詞演算法工具hanlp原始碼解析中文分詞演算法HanLP原始碼
- HanLP程式碼與詞典分離方案與流程HanLP
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- 常用介面分類與模組設計的方法
- IK 分詞器分詞
- 剖析分詞器分詞
- Elasticsearch 分詞器Elasticsearch分詞