漢語言處理包HanLP1.6.4釋出,優化新詞發現

藍天白芸朵發表於2018-11-05

HanLP 是由一系列模型與演算法組成的 Java 工具包,目標是普及自然語言處理在生產環境中的應用。HanLP 具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。 在提供豐富功能的同時,HanLP 內部模組堅持低耦合、模型堅持惰性載入、服務堅持靜態提供、詞典堅持明文釋出,使用非常方便,同時自帶一些語料處理工具,幫助使用者訓練自己的模型。

HanLP v1.6.4 更新內容:

優化 CorpusLoader、優化 MutableFeatureMap 的設計

優化新詞發現,使結果不含分隔符:#826

TextRank 提取關鍵詞提升演算法速度 @hlstudio

使用者詞典熱更新時支援.csv @patrick_lin

增強詞向量讀取時的健壯性:#821

根據百度漢語和線上辭海修正拼音詞典 @AnyListen

修訂停用詞詞典 @duohappy

修復詞法分析器禁用使用者詞典時發生的問題、修復詞法分析器 seg 介面與命名實體識別的配合問題:hankcs/pyhanlp#15 (comment) 、修正結構化感知機多執行緒平均的問題

微調人名識別模型、新增月份詞彙

資料包相容 data-for-1.6.2.zip md5=3ebb9e47ecff740f09c9ec7c21324661
獲取最新版的資料包,請fork並git clone一份倉庫中的最新data。

Portable 版同步升級到 v1.6.4

    <dependency>
        <groupId>com.hankcs</groupId>
        <artifactId>hanlp</artifactId>
        <version>portable-1.6.4</version>
    </dependency>

文章來源於網路


相關文章