自然語言處理之:搭建基於HanLP的開發環境
環境搭建比 FNLP 的簡單,具體參考:
各個版本的下載: /releases
完畢後有一個報錯:
字元型別對應表載入失敗 :
D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/CharType.dat.yes
直接在 D:/eclipse_workspace/HanLPTest/HanLP/data/dictionary//other/ 目錄下新建一個 txt 文件將名稱改為 CharType.dat.yes 即可。
相對比較簡單。
嘗試 HanLP 主要處於各個開源自然語言處理工具包之間的差異,尋找一個適合學習的開源工具包。
HanLP 呼叫方法
HanLP 幾乎所有的功能都可以透過工具類 HanLP 快捷呼叫,當你想不起來呼叫方法時,只需鍵入 HanLP. , IDE 應當會給出提示,並展示 HanLP 完善的文件。所有 Demo 都位於 com.hankcs.demo 下,比文件覆蓋了更多細節,更新更及時,強烈建議執行一遍。
HanLP 的適用過程中注意的問題:
1 、因為 HanLP 版本更新比較頻繁,所以, jar 原始碼版本需要對應適用,否則原始碼和 jar 中介面呼叫對應不上。
在進行 CRF 分詞過程中報錯 :
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.nio.HeapByteBuffer.<init>(HeapByteBuffer.java:57)
at java.nio.ByteBuffer.allocate(ByteBuffer.java:335)
at com.hankcs.hanlp.corpus.io.IOUtil.readBytesFromFileInputStream(IOUtil.java:251)
at com.hankcs.hanlp.corpus.io.IOUtil.readBytes(IOUtil.java:178)
at com.hankcs.hanlp.corpus.io.ByteArray.createByteArray(ByteArray.java:47)
at com.hankcs.hanlp.model.crf.CRFModel.loadTxt(CRFModel.java:89)
at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:58)
at com.hankcs.hanlp.seg.CRF.CRFSegment.<init>(CRFSegment.java:73)
at test.Main.main(Main.java:56)
是因為 CRF 比較耗記憶體,所以出現記憶體不足,所以需要修改一下 VM 的最大記憶體。
選中工程,然後:
即可解決。
在原始碼包檔案在 eclipse 中開啟出現亂碼,解決方法:
(必須)首先用 txt 開啟,然後在第一行新增: encoding="utf-8" 即可。
轉載自 CrazyNong 的部落格
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2219320/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- HanLP 自然語言處理 for nodejsHanLP自然語言處理NodeJS
- NLP1 —— Python自然語言處理環境搭建Python自然語言處理
- 配置Hanlp自然語言處理進階HanLP自然語言處理
- 自然語言處理入門基礎之hanlp詳解自然語言處理HanLP
- hanlp自然語言處理包的基本使用--pythonHanLP自然語言處理Python
- Hanlp自然語言處理中的詞典格式說明HanLP自然語言處理
- NLP自然語言處理中的hanlp分詞例項自然語言處理HanLP分詞
- 如何編譯執行HanLP自然語言處理包編譯HanLP自然語言處理
- Go語言開發環境搭建Go開發環境
- 自然語言處理工具HanLP-基於層疊HMM地名識別自然語言處理HanLPHMM地名識別
- 【精讀】自然語言處理基礎之RNN自然語言處理RNN
- Hanlp自然語言處理工具之詞法分析器HanLP自然語言處理詞法分析
- Hanlp自然語言處理工具的使用演練HanLP自然語言處理
- hanlp自然語言處理包的人名識別程式碼解析HanLP自然語言處理
- 基於 Python 的簡單自然語言處理實踐Python自然語言處理
- 自然語言處理之jieba分詞自然語言處理Jieba分詞
- GO語言eclipse開發環境搭建GoEclipse開發環境
- 自然語言處理(NLP)自然語言處理
- 搭建基於 Mac 的 Flutter 開發環境MacFlutter開發環境
- 基於深度多工學習的自然語言處理技術自然語言處理
- 基於Webpack搭建React開發環境WebReact開發環境
- Python 自然語言處理(基於jieba分詞和NLTK)Python自然語言處理Jieba分詞
- 自然語言處理工具包HanLP的Python介面自然語言處理HanLPPython
- 深度解析自然語言處理之篇章分析自然語言處理
- 【自然語言處理篇】--以NLTK為基礎講解自然語⾔處理的原理和基礎知識自然語言處理
- 12 種自然語言處理的開源工具自然語言處理開源工具
- 自然語言處理(NLP)系列(一)——自然語言理解(NLU)自然語言處理
- python呼叫自然語言處理工具hanlp記錄Python自然語言處理HanLP
- DARPA開發應用於自然語言處理的深度學習專案自然語言處理深度學習
- Linux下搭建Go語言開發環境LinuxGo開發環境
- 基於IDEA的JavaWeb開發環境搭建IdeaJavaWeb開發環境
- 探索自然語言處理:語言模型的發展與應用自然語言處理模型
- 基於圖深度學習的自然語言處理方法和應用深度學習自然語言處理
- 自然語言處理(NLP)概述自然語言處理
- 自然語言處理NLP(四)自然語言處理
- Python自然語言處理Python自然語言處理
- 基於 Xcode 搭建 OpenCV 開發環境XCodeOpenCV開發環境
- 基於滴滴雲搭建 Ceph 開發環境開發環境