自然語言處理工具python呼叫hanlp中文實體識別

Hanlp作為一款重要的中文分詞工具，在GitHub的使用者量已經非常之高，應該可以看得出來大家對於hanlp這款分詞工具還是很認可的。本篇繼續分享一篇關於hanlp的使用例項即Python呼叫hanlp進行中文實體識別。

想要在 python中呼叫hanlp進行中文實體識別，Ubuntu 16.04的系統環境

1.安裝jpype1，在cmd視窗輸入

pip install jpype1

2.下載hanlp的安裝包

在 https://github.com/hankcs/HanLP/releases

（ 1）下載新的 hanlp-1.7.1-release.zip檔案，裡面包含hanlp-1.7.1.jar , hanlp-1.7.1-sources.jar , hanlp.properties

（ 2）點選data-for-1.7.1.zip下載。（底下第8條）

注：如果你在 http://hanlp.linrunsoft.com/services.html點選下載hanlp.jar，下載下來的是hanlp-1.2.8.jar。之後在使用過程中可能會出現“字元型別對應表載入失敗”的錯誤，檢視相應路徑下也沒有CharType.dat.yes檔案。原因可能是hanlp-1.2.8版本過低，使用新版本應該不會出現這個問題。

3.新建一個資料夾Hanlp，放檔案hanlp-1.7.1.jar和hanlp.properties檔案

新建一個資料夾 hanlp，放data-for-1.7.1.zip解壓後的檔案

配置 hanlp.properties中的第一行的root為hanlp資料夾的位置，也就是data-for-1.7.1.zip解壓後的檔案放的位置。

4.寫py檔案呼叫hanlp進行中文分析。

用法可參考這個部落格 blog.csdn.net/u011961856/article/details/77167546。

另，檢視 HanLP關於實體識別的文件http://hanlp.linrunsoft.com/doc.html

裡面介紹說中文人名標註為 “nr”，地名標註為“ns”，機構名標註為“nt”，所以使用用法參考連結裡的NLPTokenizer.segment就可以標註出中文句子中的人名，地名和機構名。

比較使用 jieba進行詞性標註時，也可以標註出中文句子中的人名，地名和機構名。jieba分詞的詞性說明：

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/31524777/viewspace-2629870/，如需轉載，請註明出處，否則將追究法律責任。

自然語言處理工具python呼叫hanlp中文實體識別

相關文章