pyhanlp使用者自定義詞典新增例項說明
pyhanlp使用者自定義詞典新增 例項說明
pyhanlp是python版封裝的的HanLP,專案地址:
經過測試, HanLP比nltk在中文分詞和實體識別方面都更好用 .
如何向 pyhanlp新增自定義的詞典?以python 2.7.9為例:
1.安裝pyhanlp:pip install pyhanlp
2.在字典路徑下新增自定義的詞典:CustomDictionary主詞典文字路徑是data/dictionary/custom/CustomDictionary.txt,使用者可以在此增加自己的詞語(不推薦);也可以單獨新建一個文字檔案,透過配置檔案;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的詞典.txt;來追加詞典(推薦)。
具體絕對路徑可用 hanlp --version獲取:
#hanlp --version
jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data
config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties
#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"
3.建議在該路徑下新增自己的詞典檔案例如 我的詞典.txt,並將其加入上面的properties檔案裡的CustomDictionaryPath下面。
#cat 我的詞典.txt
codis叢集 nz 1000
今日頭條 nz 1000
第一列為詞條,第二列為詞性(預設為 n),第三列為詞頻
4.然後需要刪除快取檔案,這樣python才會重新載入新增的檔案:
#rm -f CustomDictionary.txt.bin
5.測試新增的詞典:
python -c "from pyhanlp import *;print(HanLP.segment('codis叢集,今日頭條'))"
五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes
警告: 讀取
/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin時發生異常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (沒有那個檔案或目錄)
報這個錯誤沒有關係,只是個 warning,重新載入快取檔案而已。
備註:
HanLP詞性列表: 詳細的詞性列表可以查詢 hanlp專案網站上內容,更為全面詳細!
---------------------
作者:明月三千里 68
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2285408/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- pyhanlp 停用詞與使用者自定義詞典功能詳解HanLP
- Java 經典例項:自定義迭代器Java
- 以例項說明 OAuth2OAuth
- PhpCms自定義欄位的使用說明PHP
- adb 埠自定義及原理說明
- Hanlp自然語言處理中的詞典格式說明HanLP自然語言處理
- python呼叫jieba(結巴)分詞 加入自定義詞典和去停用詞功能PythonJieba分詞
- 【例項】PowerQuery的自定義日曆
- django自定義過濾器例項Django過濾器
- jQuery自定義標籤程式碼例項jQuery
- Android 自定義 TabActivity 的例項方法Android
- Hanlp配置自定義詞典遇到的問題與解決方法HanLP
- 反NP監視原理並有例項說明
- css自定義列表計數程式碼例項CSS
- jquery自定義事件簡單例項程式碼jQuery事件單例
- MapReduce程式設計例項之自定義排序程式設計排序
- MapReduce實現與自定義詞典檔案基於hanLP的中文分詞詳解HanLP中文分詞
- JDBC連線自定義sqlserver資料庫例項名(多個例項)JDBCSQLServer資料庫
- pyhanlp 中文詞性標註與分詞簡介HanLP詞性標註分詞
- Mongoose使用population建立關係連結例項說明Go
- Vue.js自定義指令的用法與例項Vue.js
- MapReduce程式設計例項之自定義分割槽程式設計
- 如何在 SAP Spartacus 產品明細頁面新增自定義 UIUI
- 解析python使用者自定義異常例項Python
- 【AMM】關於資料庫例項AMM引數說明資料庫
- Linux下Zabbix5.0 LTS新增自定義監控項Linux
- Qt自定義訊號槽的使用淺析+例項QT
- Qt5MV自定義模型與例項淺析QT模型
- 自定義註解例項實現SQL語句生成SQL
- 自定義右鍵導航選單程式碼例項
- CSS自定義滑鼠指標形狀程式碼例項CSS指標
- css自定義滑鼠指標圖示程式碼例項CSS指標
- es 自定義分詞外掛分詞
- 自定義監控項
- js自定義回撥函式簡單程式碼例項JS函式
- node.js實現的自定義事件程式碼例項Node.js事件
- android view 自定義viewgroup 例項--螢幕滑動AndroidView
- CSS圖片上面新增文字說明CSS