hanlp 載入遠端詞庫示例
說明
· 目前的實現方式是以遠端詞庫的內容重新構建 CustomDictionary.trie,demo主要是為了實現同步遠端詞庫,對效能暫不作考慮,對效能要求要以CustomDictionary.dat為基礎實現
按 hanlp作者述 trie後期可能會取消
目前 CustomDictionary使用DAT儲存詞典檔案中的詞語,用BinTrie儲存動態加入的詞語,前者效能高,後者效能低
之所以保留動態增刪功能,一方面是歷史遺留特性,另一方面是除錯用;來可能會去掉動態增刪特性。
· ik的方案,遠端詞庫並不含有詞性詞頻等額外資訊,這裡為了保證詞庫和複用也保持一致,預設詞性為Nature.nz,詞頻為1 CoreDictionary.Attribute att = new CoreDictionary.Attribute(Nature.nz, 1);
· ik支援多個遠端詞庫,該示例只支援單項
多詞庫在現方案下,要作任務協作的處理,雖然不難,但改動後和 ik原碼的差距會比較大
專案只是個參考,因此程式碼儘量和 ik保持一致,一個遠端詞庫,對大部分場景也夠用了
測試
啟動 nginx作為遠端詞庫服務
docker run -d --name nginx -p 1888:80 -v $(pwd)/nlp:/usr/share/nginx/html/nlp nginx:1.13.12
測試是否成功
curl
啟動服務
編譯
mvn clean package -Dmaven.test.skip=true
執行
java -jar target/hanlp-web-2.0.0.RC2.jar
測試 url
小明北飄在北京
詞庫同步任務間隔 1分鐘,服務啟動後瀏覽器多重新整理幾次便能看到區別
如要擴充套件至本地專案
1 新增依賴
<dependency>
<groupId>org.apache.httpcomponents</groupId>
<artifactId>httpclient</artifactId>
<version>4.5.2</version>
</dependency>
2 複製ExtDictionary,Monitor
3 新增配置resources/hanlp_ext.properties
最後,程式碼全是抄的,這個專案只是基本的搬運,可能對新手會有點幫助
文章轉載自 :
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2642637/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- HanLP-停用詞表的使用示例HanLP
- Spark中分散式使用HanLP(1.7.0)分詞示例Spark分散式HanLP分詞
- NLP入門學習中關於分詞庫HanLP匯入使用教程分詞HanLP
- HanLP Android 示例HanLPAndroid
- 載入遠端圖片
- 遠端程式碼載入方案
- 在 PowerShell 中,"本地載入"和"遠端載入"通常指的是執行指令碼或命令的位置或方式。以下是關於本地載入和遠端載入的一些基本概念和示例:指令碼
- git 入門教程之遠端倉庫Git
- 如何使用Hanlp載入大字典HanLP
- HanLP-實詞分詞器詳解HanLP分詞
- Elasticsearch整合HanLP分詞器ElasticsearchHanLP分詞
- 下載遠端bundle倉庫有錯誤
- 如何從Maven遠端儲存庫下載?Maven
- HanLP分詞工具中的ViterbiSegment分詞流程HanLP分詞Viterbi
- java分詞工具hanlp介紹Java分詞HanLP
- HanLP中文分詞Lucene外掛HanLP中文分詞
- Hanlp分詞之CRF中文詞法分析詳解HanLP分詞CRF詞法分析
- 使用GitBash從Git遠端倉庫下載程式碼Git
- git 遠端倉庫Git
- Hanlp等七種優秀的開源中文分詞庫推薦HanLP中文分詞
- Ansj與hanlp分詞工具對比HanLP分詞
- python呼叫hanlp分詞包手記PythonHanLP分詞
- 分詞工具Hanlp基於感知機的中文分詞框架HanLP中文分詞框架
- git倉庫修改遠端倉庫Git
- git-遠端倉庫Git
- 03_CDN遠端庫
- Git 使用遠端倉庫Git
- 基於hanlp的es分詞外掛HanLP分詞
- HanLP分詞命名實體提取詳解HanLP分詞
- 批次遠端桌面管理軟體下載 批次遠端桌面
- Demo示例——Bundle打包和載入
- rocky one 遠端登入
- redis - 遠端登入指令Redis
- SSH遠端登入原理
- Linux 遠端 ssh 登入Linux
- 怎麼登入遠端伺服器 遠端登入VPS伺服器伺服器
- Spring MVCD框架中呼叫HanLP分詞的方法SpringMVC框架HanLP分詞
- Hanlp中使用純JAVA實現CRF分詞HanLPJavaCRF分詞