使用ICTCLAS JAVA版(ictclas4j)進行中文分詞(附ictclas,停用詞表,commons-lang-2.4.jar下載地址)...
一、ICTCLAS的介紹 中國科學院計算技術研究所在多年研究基礎上,耗時一年研製出了基於多層隱碼模型的漢語詞法分析系統 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統的功能有:中文分詞;詞性標註;未登入詞識別。分詞正確率高達97.58%(最近的973專家組評測結果),基於角色標註的未登入詞識別能取得高於90%召回率,其中中國人名的識別召回率接近98%,分詞和詞性標註處理速度為31.5KB/s。ICTCLAS 和計算所其他14項免費釋出的成果被中外媒體廣泛地報導,國內很多免費的中文分詞模組都或多或少的參考過ICTCLAS的程式碼。 二、開始使用ICTCLAS進行分詞 1.下載ictclasj 首先到ictclas的網站下載JAVA版本的ictclas——ictclasj。 下載地址 :http://ictclas.org/Down_OpenSrc.asp 2.在Eclipse中 新建專案並進行 配置 首先把 ictclasj解壓縮,然後把 Data資料夾整個拷貝到 Eclipse專案的資料夾下, 而 bin目錄下的 org資料夾整個拷貝到你 Eclipse專案的 bin目錄下,把src目錄下的org資料夾整個拷貝到 Eclipse專案 的src目錄下。 3.測試分詞結果 import org.ictclas4j.bean.SegResult;
public static void main(String[] args) { } } 就是這樣,我們可以得到輸出的結果,並且帶有詞性的標註。 分詞結果: 三、關於可能出現的錯誤 1.越界錯誤 在Dictionary.java裡面的getMaxMatch()函式裡要注意加上對wis的判斷語句 if(wis != null) 否則有時會報出越界錯誤 2. “org.apache” 這個新建的測試類可能會提示錯誤:"The import org.apache cannot be resolved",這是由於系統需要一個Apache的commons的jar包。 |
附件中有 commons-lang-2.4.jar和停用詞表(stopwords.rar)下載 。
相關文章
- ICTCLAS 中科院分詞系統分詞
- 中文地址智慧分詞演算法-Java版分詞演算法Java
- python使用jieba實現中文文件分詞和去停用詞PythonJieba分詞
- HanLP-停用詞表的使用示例HanLP
- 如何在java中去除中文文字的停用詞Java
- ElasticSearch中使用ik分詞器進行實現分詞操作Elasticsearch分詞
- GitHub上中文詞向量(Chinese Word Vectors)的下載地址Github
- java+lucene中文分詞,搜尋引擎搜詞剖析Java中文分詞
- 11個Java開源中文分詞器使用方法和分詞效果對比Java中文分詞
- 使用python進行漢語分詞Python分詞
- python呼叫jieba(結巴)分詞 加入自定義詞典和去停用詞功能PythonJieba分詞
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- Hanlp在java中文分詞中的使用介紹HanLPJava中文分詞
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 中文分詞技術中文分詞
- Java API Docs 1.6 中文版下載地址JavaAPI
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- Oxford Deluxe for Mac(牛津詞典) 14.1中文版下載UXMac
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- java版JieBa分詞原始碼走讀JavaJieba分詞原始碼
- 中文分詞工具之基於字標註法的分詞中文分詞
- jieba 詞性標註 & 並行分詞Jieba詞性標註並行分詞
- iOS中文近似度的演算法及中文分詞(結巴分詞)的整合iOS演算法中文分詞
- Java中文分片語件 - word分詞(skycto JEEditor)Java分詞
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- ElasticSearch5.6.1 + 中文分詞(IK)ElasticsearchH5中文分詞
- 分享IKAnalyzer 3.0 中文分詞器中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- 使用 JavaScript 進行單詞發音JavaScript