pyhanlp使用者自定義詞典新增例項說明

adnb34g發表於2018-12-17

pyhanlp使用者自定義詞典新增 例項說明

pyhanlp是python版封裝的的HanLP,專案地址:

經過測試, HanLP比nltk在中文分詞和實體識別方面都更好用 .

如何向 pyhanlp新增自定義的詞典?以python 2.7.9為例:

1.安裝pyhanlp:pip install pyhanlp

2.在字典路徑下新增自定義的詞典:CustomDictionary主詞典文字路徑是data/dictionary/custom/CustomDictionary.txt,使用者可以在此增加自己的詞語(不推薦);也可以單獨新建一個文字檔案,透過配置檔案;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的詞典.txt;來追加詞典(推薦)。

具體絕對路徑可用 hanlp --version獲取:

#hanlp --version

jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建議在該路徑下新增自己的詞典檔案例如 我的詞典.txt,並將其加入上面的properties檔案裡的CustomDictionaryPath下面。

#cat 我的詞典.txt  

codis叢集 nz 1000

今日頭條 nz 1000

 

第一列為詞條,第二列為詞性(預設為 n),第三列為詞頻

4.然後需要刪除快取檔案,這樣python才會重新載入新增的檔案:

#rm -f CustomDictionary.txt.bin

 

5.測試新增的詞典:

python -c "from pyhanlp import *;print(HanLP.segment('codis叢集,今日頭條'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告: 讀取

/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin時發生異常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (沒有那個檔案或目錄)

 

報這個錯誤沒有關係,只是個 warning,重新載入快取檔案而已。

 

備註:

HanLP詞性列表: 詳細的詞性列表可以查詢 hanlp專案網站上內容,更為全面詳細!

---------------------

作者:明月三千里 68

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2285408/,如需轉載,請註明出處,否則將追究法律責任。

相關文章