自然語言處理工具包 HanLP在 Spring Boot中的應用

CodeSheep發表於2018-10-31

原文網址 : https://juejin.im/post/5bda39fae51d45369326432b

本文共 782字，閱讀大約需要 2分鐘！

概述

HanLP 是基於 Java開發的 NLP工具包，由一系列模型與演算法組成，目標是普及自然語言處理在生產環境中的應用。而且 HanLP具備功能完善、效能高效、架構清晰、語料時新、可自定義的特點，因此十分好上手，本文就結合 Spring Boot來將 HanLP用起來！

注：本文首發於 My Personal Blog：CodeSheep·程式羊，歡迎光臨小站

本文內容腦圖如下：

下載 HanLP資料和程式

由於 HanLP庫將資料與程式碼分離，因此我們需要分別下載所需資料和 jar包：

所需 data資料包下載地址為 data.zip
所需 jar包下載地址為 hanlp-release.zip

工程搭建

建立一個普通的 Spring Boot工程，不贅述
引入 HanLP資料和配置

下載完成以後，首先解壓 hanlp-release.zip壓縮包，然後將解壓出的 HanLP的 jar包引入 Spring Boot工程，然後需要來放置 HanLP所需配置和資料：

將解壓後 hanlp-release.zip壓縮包中的 hanlp.properties配置檔案置於專案的 resources資源目錄下
然後解壓 data.zip壓縮包，將解壓出的 data目錄同樣至於 resources目錄下（ data 中的資料包很重要，是 HanLP工作所需的詞典和模型）

建立 IO介面卡

HanLP 提供了 IO介面卡，使用者可以實現其提供的 com.hankcs.hanlp.corpus.io.IIOAdapter 介面以在不同的平臺（HDFS、Redis等）上執行HanLP，預設的 IO介面卡 IOAdapter = com.hankcs.hanlp.corpus.io.FileIOAdapter 是基於普通檔案系統的。

接下來我們重寫一下 IOAdapter類，使用讀寫靜態資原始檔的方法來讀取HanLP所需的詞典和模型資料（即resources目錄下剛放置的 data目錄）

public class ResourceFileIoAdapter implements IIOAdapter {
    @Override
    public InputStream open(String path) throws IOException {
        ClassPathResource resource = new ClassPathResource( path );
        InputStream is = new FileInputStream( resource.getFile() );
        return is;
    }

    @Override
    public OutputStream create(String path) throws IOException {
        ClassPathResource resource = new ClassPathResource( path );
        OutputStream os = new FileOutputStream( resource.getFile() );
        return os;
    }
}
複製程式碼

然後我們配置一下 HanLP的配置檔案hanlp.properties，有兩處需要改為以下配置：

root=   // 我們不再需要這種指定data目錄的方式
IOAdapter=cn.codesheep.springbt_hanlp_userdefine.config.ResourceFileIoAdapter // 指定自定義的IOAdapter
複製程式碼

好，現在專案就可以工作了，我們接下來寫幾個測試用例測試體驗一把！

實驗測試

隨便寫幾個例子來感受一番：

分詞功能

@Test
public void testSegment() {
	System.out.println( HanLP.segment("www.codesheep.cn是一個技術部落格！") );
}
複製程式碼

分詞結果如下：

[www/nx, ./w, codesheep/nx, ./w, cn/nx, 是/vshi, 一個/mq, 技術/n, 部落格/n, ！/w]
複製程式碼

每個詞段後的 /nx，/w之類的是 HanLP定義的詞性，可以去看 HanLP的介面來獲取詳情

文字推薦

@Test
public void testSuggest() {
    Suggester suggester = new Suggester();
    String[] titleArray =
            (
                    "威廉王子發表演說 呼籲保護野生動物\n" +
                            "《時代》年度人物最終入圍名單出爐 普京馬雲入選\n" +
                            "“黑格比”橫掃菲：菲吸取“海燕”經驗及早疏散\n" +
                            "日本保密法將正式生效 日媒指其損害國民知情權\n" +
                            "人工智慧如今是非常火熱的一門技術”"
            ).split("\\n");
    for (String title : titleArray)
    {
        suggester.addSentence(title);
    }

    System.out.println(suggester.suggest("機器學習", 1));   // 語義
    System.out.println(suggester.suggest("危機公共", 1));   // 字元
    System.out.println(suggester.suggest("mayun", 1));     // 拼音
}
複製程式碼

三個關鍵字的語句推薦結果為：

機器學習  →  [人工智慧如今是非常火熱的一門技術”]
危機公共  →  [威廉王子發表演說 呼籲保護野生動物]
mayun     →  [《時代》年度人物最終入圍名單出爐 普京馬雲入選]
複製程式碼

關鍵字提取

@Test
public void testKeyExtract() {
    String content = "蘋果公司（Apple Inc. ）是美國一家高科技公司。由史蒂夫·賈伯斯、斯蒂夫·沃茲尼亞克和羅·韋恩(Ron Wayne)等人於1976年4月1日創立，" +
            "並命名為美國蘋果電腦公司（Apple Computer Inc. ），2007年1月9日更名為蘋果公司，總部位於加利福尼亞州的庫比蒂諾。";
    List<String> keywordList = HanLP.extractKeyword(content, 5);
    System.out.println(keywordList);
}
複製程式碼

提取結果為：

[公司, 蘋果, 美國, Inc, Apple]
複製程式碼

體驗一番我們發現其自帶的模型、字典等資料給出的實驗效果已經是非常不錯了，而且使用者還可以自定義或修改 data目錄下的模型、字典等資料來滿足特定需求，因此還是十分強大的。

後記

由於能力有限，若有錯誤或者不當之處，還請大家批評指正，一起學習交流！

My Personal Blog：CodeSheep 程式羊
我的半年技術部落格之路

可長按或掃描下面的 小心心 來訂閱作者公眾號 CodeSheep，獲取更多 務實、能看懂、可復現的 原創文 ↓↓↓

Spring Boot中對自然語言處理工具包hanlp的呼叫詳解
2018-11-21
Spring Boot自然語言處理HanLP
HanLP 自然語言處理 for nodejs
2019-04-24
HanLP自然語言處理NodeJS
自然語言處理工具包HanLP的Python介面
2018-10-18
自然語言處理HanLPPython
配置Hanlp自然語言處理進階
2018-12-07
HanLP自然語言處理
nodejs在自然語言處理中的一些小應用
2019-02-19
NodeJS自然語言處理
NLP自然語言處理中的hanlp分詞例項
2019-02-18
自然語言處理HanLP分詞
Hanlp自然語言處理中的詞典格式說明
2019-03-15
HanLP自然語言處理
hanlp自然語言處理包的基本使用--python
2018-09-28
HanLP自然語言處理Python
如何編譯執行HanLP自然語言處理包
2019-03-06
編譯HanLP自然語言處理
開源自然語言處理工具包hanlp中CRF分詞實現詳解
2019-02-27
自然語言處理HanLPCRF分詞
探索自然語言處理：語言模型的發展與應用
2024-03-13
自然語言處理模型
影片場景下的自然語言處理應用
2018-10-19
自然語言處理
自然語言處理之：搭建基於HanLP的開發環境
2018-11-09
自然語言處理HanLP開發環境
視訊場景下的自然語言處理應用
2018-10-19
自然語言處理
hanlp自然語言處理包的人名識別程式碼解析
2019-08-02
HanLP自然語言處理
Hanlp自然語言處理工具的使用演練
2018-09-19
HanLP自然語言處理
python呼叫自然語言處理工具hanlp記錄
2018-10-31
Python自然語言處理HanLP
自然語言處理中的語言模型預訓練方法
2018-10-22
自然語言處理模型
中國語文（自然語言處理）作業
2024-08-22
自然語言處理
自然語言處理工具python呼叫hanlp的方法步驟
2019-07-17
自然語言處理PythonHanLP
自然語言處理（NLP）系列（一）——自然語言理解（NLU）
2023-02-01
自然語言處理
自然語言處理NLP（四）
2018-10-03
自然語言處理
自然語言處理(NLP)概述
2018-08-11
自然語言處理
自然語言處理入門基礎之hanlp詳解
2018-10-31
自然語言處理HanLP
基於圖深度學習的自然語言處理方法和應用
2022-05-01
深度學習自然語言處理
自然語言處理中的遷移學習(下)
2019-10-23
自然語言處理遷移學習
自然語言處理中的遷移學習(上)
2019-10-23
自然語言處理遷移學習
Pyhanlp自然語言處理中的新詞識別
2019-02-15
HanLP自然語言處理
自然語言處理的最佳實踐
2019-10-28
自然語言處理
自然語言理解技術在電商行業中的應用
2019-09-17
行業
【自然語言處理篇】--聊天機器人從初始到應用
2018-07-08
自然語言處理機器人
Hanlp自然語言處理工具之詞法分析器
2019-04-10
HanLP自然語言處理詞法分析
[譯] 自然語言處理真是有趣！
2018-08-10
自然語言處理
自然語言處理:分詞方法
2018-03-29
自然語言處理分詞
自然語言處理中的分詞問題總結
2018-10-26
自然語言處理分詞
自然語言處理工具hanlp自定義詞彙新增圖解
2019-01-27
自然語言處理HanLP圖解
自然語言處理工具hanlp定製使用者詞條
2019-05-20
自然語言處理HanLP
自然語言處理工具HanLP-N最短路徑分詞
2019-05-17
自然語言處理HanLP分詞

自然語言處理工具包 HanLP在 Spring Boot中的應用

概 述

下載 HanLP資料和程式

工程搭建

建立 IO介面卡

實驗測試

後 記

相關文章

概述

後記