NLP入門學習中關於分詞庫HanLP匯入使用教程

倚夢為碼發表於2021-04-16

  大家好,時隔多年再次開啟我的部落格園寫下自己的經驗和學習總結,開園三年多,文章數少得可憐,一方面自己技術水平侷限,另一方面是自己確實想放棄寫部落格。由於畢業工作的原因,經常性的加班以及僅剩下少的可憐的休息時間實在是想好好休息。但現在又回到了校園,在2019年4月份我選擇了辭職考研,如願考取了電腦科學與技術的碩士研究生,目前在長春理工大學就讀,在導師的建議下我選擇NLP(自然語言處理)這個研究方向。對於自己重新開始寫部落格,一方面是為了鞏固自己學習的成果,另一方面是自己在摸索的過程中經歷了一些問題,走了一些彎路,寫博文是希望同樣遇到這個問題的兄弟姐妹看到我的博文後自己的問題能夠順利解決。

   作為NLP的入門學者,為了能夠學得更好,我們需要將理論學習與實踐相結合。我們在學習 <<自然語言處理入門>> 這本書時需要匯入作者何晗開發的中文語言處理類庫 HanLP。 我是自學過一段時間得java語言,所以本篇部落格採用java方式匯入。

   匯入之前需瞭解的基礎知識:java執行環境的配置、maven專案的建立以及系列操作

步驟:

1.建立一個資料夾作為maven工程存放的父級目錄 例如:nlpProject

2.在此目錄下新建一個maven Module

NLP入門學習中關於分詞庫HanLP匯入使用教程

選擇好安裝好的JDK之後給你的maven Module取一個名字

3.配置pom.xml檔案,將下列程式碼加到檔案中

1 <dependencies>
2         <dependency>
3             <groupId>com.hankcs</groupId>
4             <artifactId>hanlp</artifactId>
5             <version>portable-1.8.1</version>
6         </dependency>
7     </dependencies>

4.安裝依賴

5.執行

 

上面是一帆風順情況下的步驟,當然,真實情況並不是那麼完美。你有可能會出現以下幾種問題,對應解決方案如下:

問題1:報找不到載入類的編譯錯誤

解決方案:你需要在這個地方更改一下你的編譯設定

 

問題2:明明你匯入了依賴,而且idea未編譯之前不報錯。但是為什麼報 HanLP無法找到的錯誤

 

亂碼情況如下圖:

 

相關文章