java分詞工具hanlp介紹

adnb34g發表於2019-07-03


前幾天( 6月28日 ),在第 23屆中國國際軟體博覽會上,hanlp這款自然語言處理工具榮獲了“2019年第二十三屆中國國際軟體博覽會優秀產品”。

 

HanLP 是由一系列模型預演算法組成的工具包,結合深度神經網路的分散式自然語言處理,具有功能完善、效能高效、架構清晰、語料時新、可自定義等特點,提供詞法分析、句法分析、文字分析和情感分析等功能,是 GitHub最受歡迎、使用者量最大(超過13000個star)、社群活躍度最高的自然語言處理技術。

HanLP完全開源,包括詞典。不依賴其他jar,底層採用了一系列高速的資料結構,如雙陣列Trie樹、DAWG、AhoCorasickDoubleArrayTrie等,這些基礎件都是開源的。官方模型訓練自2014人民日報語料庫,您也可以使用內建的工具訓練自己的模型。

通過工具類 HanLP您可以一句話呼叫所有功能,文件詳細,開箱即用。底層演算法經過精心優化,極速分詞模式下可達2,000萬字/秒,記憶體僅需120MB。在IO方面,詞典載入速度極快,只需500 ms即可快速啟動。HanLP經過多次重構, 目前已經更新到了 1.7版本,新增並完善了中文分詞、命名實體識別、資訊抽取、文字分類、文字聚類、畫法分析等功能,使用效率和適用性得到了大幅提升。

 

 

 

 

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2649388/,如需轉載,請註明出處,否則將追究法律責任。

相關文章