分享IKAnalyzer 3.0 中文分詞器

linliangyi2006發表於2009-07-21
關鍵字: ik analyzer 3.0 中文分詞 lucene java
1.IKAnalyzer3.0介紹

IKAnalyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始,IKAnalyzer 已經推出了3個大版本。最初,它是以開源專案Luence為應用主體的,結合詞典分詞和文法分析演算法的中文分片語件。新版本的IKAnalyzer3.0 則發展為面向Java的公用分片語件,獨立於Lucene專案,同時提供了對Lucene的預設最佳化實現。

1.2IKAnalyzer3.0特性

* 採用了特有的“正向迭代最細粒度切分演算法“,具有50萬字/秒的高速處理能力。
* 採用了多子處理器分析模式,支援:英文字母(IP地址、Email、URL)、數字(日期,常用中文數量詞,羅馬數字,科學計數法),中文詞彙(姓名、地名處理)等分詞處理。
* 最佳化的詞典儲存,更小的記憶體佔用。支援使用者詞典擴充套件定義
* 針對Lucene全文檢索最佳化的查詢分析器IKQueryParser(作者吐血推薦);採用歧義分析演算法最佳化查詢關鍵字的搜尋排列組合,能極大的提高Lucene檢索的命中率。




1.3 分詞效果示例

文字原文1:
IK-Analyzer是一個開源的,基於java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版本起, IKAnalyzer已經推出了3個大版本。
分詞結果:
ik-analyzer | 是 | 一個 | 一 | 個 | 開源 | 的 | 基於 | java | 語言 | 開發 | 的 | 輕量級 | 量級 | 的 | 中文 | 分詞 | 工具包 | 工具 | 從 | 2006 | 年 | 12 | 月 | 推出 | 1.0 | 版 | 開始 | ikanalyzer | 已經 | 推出 | 出了 | 3 | 個大 | 個 | 版本

文字原文2:
永和服裝飾品有限公司
分詞結果:
永和 | 和服 | 服裝 | 裝飾品 | 裝飾 | 飾品 | 有限 | 公司

文字原文3:
作者部落格:linliangyi2007.javaeye.com 電子郵件:linliangyi2005@gmail.com
分詞結果:
作者 | 部落格 | linliangyi2007.javaeye.com | 2007 | 電子郵件 | 電子 | 郵件 | 地址 | linliangyi2005@gmail.com | 2005


詳細請瀏覽作者部落格:http://linliangyi2007.javaeye.com/blog/429960

相關文章