Hanlp1.7版本的新增功能一覽

adnb34g發表於2019-03-22


Hanlp1.7版本在去年下半年的時候就隨大快的DKH1.6版本同時釋出了,截至目前1.7大版本也更新到了1.7.1了。本篇分別就1.7.0和1.7.1中新增的功能做一個簡單的彙總介紹。

 

HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP 內部模組堅持低耦合、模型堅持惰性載入、服務堅持靜態提供、詞典堅持明文釋出,使用非常方便,同時自帶一些語料處理工具,幫助使用者訓練自己的模型。

1.7.0 更新如下:

新增文字聚類模組( k-means和repeated bisection)

詞法分析器新增流水線模式

詞法分析器加入規則 enableRuleBasedSegment #991

支援通過 JVM 的啟動引數指定 data 路徑:java -DHANLP_ROOT=/opt/hanlp 則載入/opt/hanlp/data #983

分詞斷句支援指定斷句顆粒 #1018

CustomDictionary.insert("新詞語", "詞性標籤") 支援省略頻次

NeuralNetworkDependencyParser 建構函式接受 Segment

TextRankKeyword 支援構造自任意分詞器

優化雙陣列 trie 樹,構建後自動 shrink 到最低記憶體 #984

修訂簡繁詞典

微調 ngram 和 nr 模型

新資料包 data-for-1.7.0.zip MD5 = 4c396f3039230ddfcef20865264512b1

Portable 版同步升級到 v1.7.0

HanLP v1.7.1 更新內容:

新增可自定義使用者詞典的維特比分詞器 @AnyListen

利用 BufferedOutputStream 加速快取生成,快37倍

自定義詞典相容含有空格的路徑, fix #1025

增加 isCustomNature 方法

使熱更新產生的快取檔案包含使用者詞性, fix #1028

修復可變 DAT 的 entrySet 方法,fix #1038

微調 ngram,簡繁等

新資料包 data-for-1.7.1.zip MD5 = 9b8faa7fc7fddb24e27da27bd404126d

Portable 版同步升級到 v1.7.1


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2639021/,如需轉載,請註明出處,否則將追究法律責任。

相關文章