Hanlp漢字轉拼音使用python呼叫詳解

adnb34g發表於2019-03-20


1、 hanlp簡介

HanLP是一系列模型與演算法組成的NLP工具包,由大快搜尋主導並完全開源,目標是普及自然語言處理在生產環境中的應用。HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點。

開源網址: HanLP: Han Language Processing

但由於 hanlp是用java來實現的,要在python中使用hanlp,只能透過呼叫pyhanlp這個包來。

但是 pyhanlp裡面有一些功能仍然不支援python直接呼叫,比如漢字轉拼音,這時候就需要從python中啟動jvm並指定Hanlp的jar路徑來使用其他功能了。

2 、下載並配置檔案

1)從開源網址中下載jar、data、hanlp.properties並修改配置檔案:

1、下載:data.zip

下載後解壓到任意目錄,接下來透過配置檔案 hanlp.properties告訴HanLP資料包的位置。

data

├─dictionary

└─model

使用者可以自行增刪替換,如果不需要句法分析等功能的話,隨時可以刪除 model資料夾。

3 、下載 jar和配置檔案:hanlp-release.zip

1 配置檔案 hanlp.properties的作用是告訴HanLP資料包的位置,只需修改第一行為data的父目錄即可:

root=D:/JavaProjects/HanLP/

比如 data目錄是/Users/hankcs/Documents/data,那麼root=/Users/hankcs/Documents/ 。

2)從python中啟動jvm以及新增jar包路徑

 

其中 -Djava.class.path是用來新增jar包到classpath中,然後用startJVM來啟動jvm。

startJVM第一個引數是系統內的jvm位置,第二個為*arg引數,此處放置classpath。

 


以上得到的是 java的ArrayList型別,需要將他裝換為string型別:

 


結果如下:

 

4 、最後記得關閉 JVM

 

--------------------

作者: Juanly Jack

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2638828/,如需轉載,請註明出處,否則將追究法律責任。

相關文章