分享IKAnalyzer 3.0 中文分詞器
關鍵字: ik analyzer 3.0 中文分詞 lucene java
1.IKAnalyzer3.0介紹
IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer 已經推出了3個大版本。最初,它是以開源專案Luence為應用主體的,結合詞典分詞和文法分析演算法的中文分片語件。新版本的IKAnalyzer3.0 則發展為面向Java的公用分片語件,獨立於Lucene專案,同時提供了對Lucene的預設最佳化實現。
1.2IKAnalyzer3.0特性
* 採用了特有的“正向迭代最細粒度切分演算法“,具有50萬字/秒的高速處理能力。
* 採用了多子處理器分析模式,支援:英文字母(IP地址、Email、URL)、數字(日期,常用中文數量詞,羅馬數字,科學計數法),中文詞彙(姓名、地名處理)等分詞處理。
* 最佳化的詞典儲存,更小的記憶體佔用。支援使用者詞典擴充套件定義
* 針對Lucene全文檢索最佳化的查詢分析器IKQueryParser(作者吐血推薦);採用歧義分析演算法最佳化查詢關鍵字的搜尋排列組合,能極大的提高Lucene檢索的命中率。
1.3 分詞效果示例
文字原文1:
IK-Analyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版本起, IKAnalyzer已經推出了3個大版本。
分詞結果:
ik-analyzer | 是 | 一個 | 一 | 個 | 開源 | 的 | 基於 | java | 語言 | 開發 | 的 | 輕量級 | 量級 | 的 | 中文 | 分詞 | 工具包 | 工具 | 從 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 開始 | ikanalyzer | 已經 | 推出 | 出了 | 3 | 個大 | 個 | 版本
文字原文2:
永和服裝飾品有限公司
分詞結果:
永和 | 和服 | 服裝 | 裝飾品 | 裝飾 | 飾品 | 有限 | 公司
文字原文3:
作者部落格:linliangyi2007.javaeye.com 電子郵件:linliangyi2005@gmail.com
分詞結果:
作者 | 部落格 | linliangyi2007.javaeye.com | 2007 | 電子郵件 | 電子 | 郵件 | 地址 | linliangyi2005@gmail.com | 2005
詳細請瀏覽作者部落格:http://linliangyi2007.javaeye.com/blog/429960
1.IKAnalyzer3.0介紹
IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer 已經推出了3個大版本。最初,它是以開源專案Luence為應用主體的,結合詞典分詞和文法分析演算法的中文分片語件。新版本的IKAnalyzer3.0 則發展為面向Java的公用分片語件,獨立於Lucene專案,同時提供了對Lucene的預設最佳化實現。
1.2IKAnalyzer3.0特性
* 採用了特有的“正向迭代最細粒度切分演算法“,具有50萬字/秒的高速處理能力。
* 採用了多子處理器分析模式,支援:英文字母(IP地址、Email、URL)、數字(日期,常用中文數量詞,羅馬數字,科學計數法),中文詞彙(姓名、地名處理)等分詞處理。
* 最佳化的詞典儲存,更小的記憶體佔用。支援使用者詞典擴充套件定義
* 針對Lucene全文檢索最佳化的查詢分析器IKQueryParser(作者吐血推薦);採用歧義分析演算法最佳化查詢關鍵字的搜尋排列組合,能極大的提高Lucene檢索的命中率。
1.3 分詞效果示例
文字原文1:
IK-Analyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版本起, IKAnalyzer已經推出了3個大版本。
分詞結果:
ik-analyzer | 是 | 一個 | 一 | 個 | 開源 | 的 | 基於 | java | 語言 | 開發 | 的 | 輕量級 | 量級 | 的 | 中文 | 分詞 | 工具包 | 工具 | 從 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 開始 | ikanalyzer | 已經 | 推出 | 出了 | 3 | 個大 | 個 | 版本
文字原文2:
永和服裝飾品有限公司
分詞結果:
永和 | 和服 | 服裝 | 裝飾品 | 裝飾 | 飾品 | 有限 | 公司
文字原文3:
作者部落格:linliangyi2007.javaeye.com 電子郵件:linliangyi2005@gmail.com
分詞結果:
作者 | 部落格 | linliangyi2007.javaeye.com | 2007 | 電子郵件 | 電子 | 郵件 | 地址 | linliangyi2005@gmail.com | 2005
詳細請瀏覽作者部落格:http://linliangyi2007.javaeye.com/blog/429960
相關文章
- IKAnalyzer 中文分詞的不同版本切詞方式中文分詞
- #Elasticsearch中文分詞器 #IK分詞器 @FDDLCElasticsearch中文分詞
- 中文分詞器,整理自Ai中文分詞AI
- elastcisearch中文分詞器各個版本AST中文分詞
- elasticsearch教程--中文分詞器作用和使用Elasticsearch中文分詞
- 中文分詞原理及常用Python中文分詞庫介紹中文分詞Python
- 中文分詞技術中文分詞
- Python分詞模組推薦:jieba中文分詞PythonJieba中文分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- iOS中文近似度的演算法及中文分詞(結巴分詞)的整合iOS演算法中文分詞
- Lucene中文分析器的中文分詞準確性和效能比較中文分詞
- SCWS PHP 中文簡易分詞PHP分詞
- HanLP中文分詞Lucene外掛HanLP中文分詞
- python 中文分詞包 jiebaPython中文分詞Jieba
- ElasticSearch5.6.1 + 中文分詞(IK)ElasticsearchH5中文分詞
- ElasticSearch7.3學習(十五)----中文分詞器(IK Analyzer)及自定義詞庫Elasticsearch中文分詞
- 中文搜尋引擎技術揭密:中文分詞中文分詞
- Elasticsearch 分詞器Elasticsearch分詞
- 中文分詞工具之基於字標註法的分詞中文分詞
- 用Python寫一個簡單的中文分詞器Python中文分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- 中文分詞研究難點-詞語劃分和語言規範中文分詞
- 使用Docker快速安裝部署ES和Kibana並配置IK中文分詞器以及自定義分詞擴充詞庫Docker中文分詞
- 史上最全中文分詞工具整理中文分詞
- 深度有趣 | 15 淺談中文分詞中文分詞
- 如何用Python做中文分詞?Python中文分詞
- 中文分詞演算法總結中文分詞演算法
- java+lucene中文分詞,搜尋引擎搜詞剖析Java中文分詞
- ES[7.6.x]學習筆記(七)IK中文分詞器筆記中文分詞
- 自然語言處理工具中的中文分詞器介紹自然語言處理中文分詞
- Elasticsearch IK分詞器Elasticsearch分詞
- 使用cjieba(結巴分詞庫)實現php擴充套件中文分詞JiebaPHP套件中文分詞
- HanLP-實詞分詞器詳解HanLP分詞
- python 實現中文分詞統計Python中文分詞
- NLP第3章 中文分詞技術中文分詞
- ElasticSearch安裝中文分詞外掛IKElasticsearch中文分詞
- solr8.6.2 客戶端介面介紹及配置中文分詞器Solr客戶端中文分詞