pyhanlp使用者自定義詞典新增例項說明
pyhanlp使用者自定義詞典新增 例項說明
pyhanlp是python版封裝的的HanLP,專案地址:https://github.com/hankcs/pyhanlp
經過測試, HanLP比nltk在中文分詞和實體識別方面都更好用 .
如何向 pyhanlp新增自定義的詞典?以python 2.7.9為例:
1.安裝pyhanlp:pip install pyhanlp
2.在字典路徑下新增自定義的詞典:CustomDictionary主詞典文字路徑是data/dictionary/custom/CustomDictionary.txt,使用者可以在此增加自己的詞語(不推薦);也可以單獨新建一個文字檔案,通過配置檔案;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的詞典.txt;來追加詞典(推薦)。
具體絕對路徑可用 hanlp --version獲取:
#hanlp --version
jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data
config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties
#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"
3.建議在該路徑下新增自己的詞典檔案例如 我的詞典.txt,並將其加入上面的properties檔案裡的CustomDictionaryPath下面。
#cat 我的詞典.txt
codis叢集 nz 1000
今日頭條 nz 1000
第一列為詞條,第二列為詞性(預設為 n),第三列為詞頻
4.然後需要刪除快取檔案,這樣python才會重新載入新增的檔案:
#rm -f CustomDictionary.txt.bin
5.測試新增的詞典:
python -c "from pyhanlp import *;print(HanLP.segment('codis叢集,今日頭條'))"
五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes
警告: 讀取
/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin時發生異常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (沒有那個檔案或目錄)
報這個錯誤沒有關係,只是個 warning,重新載入快取檔案而已。
備註:
HanLP詞性列表: 詳細的詞性列表可以查詢 hanlp專案網站上內容,更為全面詳細!
---------------------
作者:明月三千里 68
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2285408/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- 以例項說明 OAuth2OAuth
- adb 埠自定義及原理說明
- PhpCms自定義欄位的使用說明PHP
- Hanlp自然語言處理中的詞典格式說明HanLP自然語言處理
- 解析python使用者自定義異常例項Python
- Hanlp配置自定義詞典遇到的問題與解決方法HanLP
- 1.2.3 使用者詞典
- Vue.js自定義指令的用法與例項Vue.js
- Linux下Zabbix5.0 LTS新增自定義監控項Linux
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- 自然語言處理工具hanlp自定義詞彙新增圖解自然語言處理HanLP圖解
- 自定義註解例項實現SQL語句生成SQL
- Qt5MV自定義模型與例項淺析QT模型
- Qt自定義訊號槽的使用淺析+例項QT
- 如何在 SAP Spartacus 產品明細頁面新增自定義 UIUI
- 韋氏詞典新增詞彙:加密貨幣和ICO加密
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- 自定義監控項
- es 自定義分詞外掛分詞
- scroll-view元件bindscroll例項應用:自定義滾動條View元件
- 舉例說明如何使用WebSQL?WebSQL
- 最佳實踐:負載均衡SLB支援自定義VPC例項IP地址負載
- SpringBoot基礎系列之自定義配置源使用姿勢例項演示Spring Boot
- Laravel 新增自定義助手函式Laravel函式
- AUTOCAD——新增自定義填充圖案
- Azure AD(六)新增自定義域名
- Android 端如何新增自定義表情Android
- 給Product新增自定義屬性
- 透過video的timeupdate事件檢測影片無法播放例項說明IDE事件
- 金蝶雲星空組織間結算清單增加自定義欄位說明
- CSS圖片上面新增文字說明CSS
- 舉例說明clear取值有哪些?
- 反直覺SQL舉例說明SQL
- 舉例說明js如何拖拽排序?JS排序
- tmux自定義使用者設定(滑鼠選項,複製貼上)UX
- jquery經典例項之回到頂部jQuery
- 自然語言處理工具pyhanlp分詞與詞性標註自然語言處理HanLP分詞詞性標註