使用ICTCLAS JAVA版（ictclas4j）進行中文分詞（附ictclas,停用詞表,commons-lang-2.4.jar下載地址）...

maqianmaqian發表於2011-03-09

一、ICTCLAS的介紹

中國科學院計算技術研究所在多年研究基礎上，耗時一年研製出了基於多層隱碼模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，該系統的功能有：中文分詞；詞性標註；未登入詞識別。分詞正確率高達97.58%(最近的973專家組評測結果)，基於角色標註的未登入詞識別能取得高於90%召回率，其中中國人名的識別召回率接近98%，分詞和詞性標註處理速度為31.5KB/s。ICTCLAS 和計算所其他14項免費釋出的成果被中外媒體廣泛地報導，國內很多免費的中文分詞模組都或多或少的參考過ICTCLAS的程式碼。

二、開始使用ICTCLAS進行分詞

1.下載ictclasj

首先到ictclas的網站下載JAVA版本的ictclas——ictclasj。

下載地址 ：http://ictclas.org/Down_OpenSrc.asp

2.在Eclipse中新建專案並進行配置

首先把 ictclasj解壓縮，然後把 Data資料夾整個拷貝到 Eclipse專案的資料夾下, 而 bin目錄下的 org資料夾整個拷貝到你 Eclipse專案的 bin目錄下，把src目錄下的org資料夾整個拷貝到 Eclipse專案的src目錄下。

3.測試分詞結果

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class TextSegmentation {

public static void main(String[] args) {
   String fileContent = "中國科學院計算技術研究所在多年研究基礎上，" +
     "耗時一年研製出了ICTCLAS漢語詞法分析系統";
   SegTag segTag = new SegTag(1);// 分詞路徑的數目
   SegResult segResult = segTag.split(fileContent.trim());
   String classifyContent = segResult.getFinalResult();
   System.out.println("分詞結果\n"+classifyContent);

}

就是這樣，我們可以得到輸出的結果，並且帶有詞性的標註。

分詞結果：
中國科學院/n 計算/n 技術/n 研究所/n 在/c 多年/m 研究/n 基礎/a 上/f ，/w 耗時/v 一/d 年/a 研製/v 出/q 了/u ICTCLAS/nx 漢語/n 詞法/n 分析/v 系統/a

三、關於可能出現的錯誤

1.越界錯誤

在Dictionary.java裡面的getMaxMatch()函式裡要注意加上對wis的判斷語句

if(wis != null)

否則有時會報出越界錯誤

2. “org.apache”

這個新建的測試類可能會提示錯誤："The import org.apache cannot be resolved"，這是由於系統需要一個Apache的commons的jar包。

附件中有 commons-lang-2.4.jar和停用詞表（stopwords.rar）下載。

ICTCLAS 中科院分詞系統
2011-03-09
分詞
中文地址智慧分詞演算法-Java版
2024-03-29
分詞演算法Java
python使用jieba實現中文文件分詞和去停用詞
2019-06-19
PythonJieba分詞
HanLP-停用詞表的使用示例
2019-05-22
HanLP
如何在java中去除中文文字的停用詞
2019-05-06
Java
ElasticSearch中使用ik分詞器進行實現分詞操作
2024-03-21
Elasticsearch分詞
GitHub上中文詞向量（Chinese Word Vectors）的下載地址
2020-10-10
Github
java+lucene中文分詞，搜尋引擎搜詞剖析
2016-05-17
Java中文分詞
11個Java開源中文分詞器使用方法和分詞效果對比
2016-09-05
Java中文分詞
使用python進行漢語分詞
2014-10-20
Python分詞
python呼叫jieba(結巴)分詞加入自定義詞典和去停用詞功能
2017-05-18
PythonJieba分詞
#Elasticsearch中文分詞器 #IK分詞器 @FDDLC
2020-11-07
Elasticsearch中文分詞
Hanlp在java中文分詞中的使用介紹
2018-11-30
HanLPJava中文分詞
Python分詞模組推薦：jieba中文分詞
2015-08-29
PythonJieba中文分詞
中文分詞原理及常用Python中文分詞庫介紹
2018-04-04
中文分詞Python
中文分詞技術
2020-09-18
中文分詞
Java API Docs 1.6 中文版下載地址
2011-02-05
JavaAPI
pyhanlp 停用詞與使用者自定義詞典功能詳解
2018-11-16
HanLP
使用cjieba(結巴分詞庫)實現php擴充套件中文分詞
2019-02-16
JiebaPHP套件中文分詞
IKAnalyzer 中文分詞的不同版本切詞方式
2017-11-27
中文分詞
Oxford Deluxe for Mac(牛津詞典) 14.1中文版下載
2023-04-19
UXMac
elasticsearch教程--中文分詞器作用和使用
2019-06-12
Elasticsearch中文分詞
分詞工具Hanlp基於感知機的中文分詞框架
2019-04-03
HanLP中文分詞框架
Hanlp分詞之CRF中文詞法分析詳解
2019-02-18
HanLP分詞CRF詞法分析
pyhanlp 中文詞性標註與分詞簡介
2019-01-07
HanLP詞性標註分詞
java版JieBa分詞原始碼走讀
2019-03-01
JavaJieba分詞原始碼
中文分詞工具之基於字標註法的分詞
2019-06-26
中文分詞
jieba 詞性標註 & 並行分詞
2020-12-19
Jieba詞性標註並行分詞
iOS中文近似度的演算法及中文分詞(結巴分詞)的整合
2017-12-14
iOS演算法中文分詞
Java中文分片語件 - word分詞（skycto JEEditor）
2019-09-11
Java分詞
SCWS PHP 中文簡易分詞
2019-07-12
PHP分詞
HanLP中文分詞Lucene外掛
2019-04-15
HanLP中文分詞
python 中文分詞包 jieba
2020-12-18
Python中文分詞Jieba
ElasticSearch5.6.1 + 中文分詞(IK)
2016-11-21
ElasticsearchH5中文分詞
分享IKAnalyzer 3.0 中文分詞器
2009-07-21
中文分詞
中文分詞器，整理自Ai
2024-08-01
中文分詞AI
中文分詞研究難點-詞語劃分和語言規範
2019-09-04
中文分詞
使用 JavaScript 進行單詞發音
2017-04-21
JavaScript

使用ICTCLAS JAVA版（ictclas4j）進行中文分詞（附ictclas,停用詞表,commons-lang-2.4.jar下載地址）...

相關文章