配置Hanlp自然語言處理進階

adnb34g發表於2018-12-07


中文分詞

中文分詞中有眾多分詞工具,如結巴、 hanlp 、盤古分詞器、庖丁解牛分詞等;其中庖丁解牛分詞僅僅支援 java ,分詞是 HanLP 最基礎的功能, HanLP 實現了許多種分詞演算法,每個分詞器都支援特定的配置。接下來我將介紹如何配置 Hanlp 來開啟自然語言處理之旅,每個工具包都是一個非常強大的演算法集合,所以小編以後將花一些時間去看看裡面原始碼如何。

下載 jar property data 檔案

下載 jar 檔案,(下載 hanlp 壓縮包)解壓之後獲得 jar property 檔案如下:

 

其中 property 問配置檔案, jar 檔案為外部引用檔案。

然後下載 data 檔案:

https:// pan.baidu.com/s/1o8Rri0y (前面的括號自行去掉)

解壓壓縮包之後就能獲取 data 目錄了。

一切就緒之後下面就是配置了。

配置 hanlp

新建一個空專案,包括一個新建的 java 檔案的 test.java

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment(" 你好,歡迎使用 HanLP "));

6.    }

7.}  

目錄結構如下圖:

 

如果是在 linux 中的話,你可以將 property 檔案放在 classpath 中, windows 中也可以,配置環境變數,將 property 檔案的絕對路徑加上就可以了,然後執行一下這個 java 檔案:

你會發現如下錯誤

 

1. 十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2. 嚴重 : 沒有找到 hanlp.properties ,可能會導致找不到 data

3.========Tips========

4. 請將 hanlp.properties 放在下列目錄:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web 專案則請放到下列目錄:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11. 並且編輯 root=PARENT/path/to/your/data

 

然後將 property 放到相應的目錄就可以了 , 注意 property 配置只需要修改 root 的配置就行了。

 

1. 本配置檔案中的路徑的根目錄,根目錄 + 其他路徑 = 絕對路徑 Windows 使用者請注意,路徑分隔符統一使用 /

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就比如我的解壓後的 data 資料夾是放在 D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java 目錄下的那我就改這個就可以了,其餘的配置不用修改

 

執行成功如下圖:

 

---------------------

作者:學 zaza

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31524777/viewspace-2284471/,如需轉載,請註明出處,否則將追究法律責任。

相關文章