elasticsearch教程--中文分詞器作用和使用

adnb34g發表於2019-06-12

原文網址 : http://blog.itpub.net/31524777/viewspace-2647360/

Elasticsearch中文分詞

概述

本文都是基於 elasticsearch安裝教程中的elasticsearch安裝目錄(/opt/environment/elasticsearch-6.4.0)為範例

環境準備

· 全新最小化安裝的 centos 7.5

· elasticsearch 6.4.0

認識中文分詞器

在博文 elasticsearch分詞器中提到elasticsearch能夠快速的通過搜尋詞檢索出對應的文章歸功於倒排索引,下面通過中文舉例看看倒排索引。

中文分詞器作用以及效果

中文分詞器是做什麼的呢 ? what? 通過名字就知道了啊,為什麼還要問。。。下面通過三個文件示例，看看它是如何分詞的

文件 1: 我愛偉大的祖國

文件 2: 祝福祖國強大繁

文件 3: 我愛藍天白雲

經過中文分詞器 ,以上文件均會根據分詞規則,將文件進行分詞後的結果如下:

注意 :不同的分詞規則,分詞結果不一樣,選擇根據分詞器提供的分詞規則找到適合的分詞規則

文件 1分詞結果： [我,愛,偉大,的,祖國]

文件 2分詞結果： [祝福,祖國,強大,繁盛]

文件 3分詞結果： [我,愛,藍天白雲,藍天,白雲]

通過上面的分詞結果，發現拆分的每個詞都是我們熟知的詞語，但是如果不使用中文分詞，就會發現上面的文件把每個字拆分成了一個詞，對我們中文檢索很不友好。

再看倒排索引

看到上面中文分詞器結果 ,就會有新的疑問,使用中文分詞器那樣分詞效果有什麼好處呢? 答案就是根據分詞建立詞彙與文件關係的倒排索引。這步都是es幫我們做的,下面通過"我","愛","祖國"三個詞看看倒排索引,如下圖:

通過上圖中的倒排索引 ,我們搜尋"祖國"時,es通過倒排索引可以快速的檢索出文件1和文件3。如果沒有中文分詞器,搜尋"祖國"就會被拆分"祖""國"兩個詞的倒排索引, 就會把包含"祖"的文件都檢索出來,很明顯就會和我們想要的結果大相徑庭。

常用的中文分詞器

Smart Chinese Analysis: 官方提供的中文分詞器,

IKAnalyzer: 免費開源的java分詞器,目前比較流行的中文分詞器之一,簡單,穩定,想要特別好的效果,需要自行維護詞庫,支援自定義詞典

結巴分詞 : 開源的python分詞器,github有對應的java版本,有自行識別新詞的功能,支援自定義詞典

Ansj中文分詞: 基於n-Gram+CRF+HMM的中文分詞的java實現,免費開源,支援應用自然語言處理

hanlp: 免費開源,國人自然處理語言牛人無私風險的

個人對以上分詞器進行了一個粗略對比 ,如下圖:

截止到目前為止 ,他們的分詞準確性從高到低依次是:

hanlp> ansj >結巴>IK>Smart Chinese Analysis

結合準確性來看 ,選用中文分詞器基於以下考慮:

官方的 Smart Chinese Analysis直接可以不考慮了

對搜尋要求不高的建議選用 IK 學習成本低,使用教程多,還支援遠端詞典

對新詞識別要求高的選用結巴分詞

Ansj和hanlp均基於自然處理語言,分詞準確度高,活躍度來講hanlp略勝一籌

博主選用的 hanlp分詞器,目前線上執行結果來看準確性滿足需求

下面就寫一下博主對 IKAnalyzer 和 hanlp分詞器的使用

IK Analyzer

截止目前 ,IK分詞器外掛的優勢是支援自定義熱更新遠端詞典。

安裝 ik分詞器外掛

es外掛安裝教程參考這裡

ik的es外掛地址: https://github.com/medcl/elasticsearch-analysis-ik/releases

博主使用的 es版本是6.4.0,下載時要注意對應es版本

線上安裝 ik es外掛命令:

# /opt/apps/elasticsearch-6.4.0/bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.4.0/elasticsearch-analysis-ik-6.4.0.zip

檢視外掛安裝列表

# sudo /opt/apps/elasticsearch-6.4.0/bin/elasticsearch-plugin list

IK配置

ik安裝完畢後配置檔案在 {ES_HOME}/config目錄下, 本例目錄是 /opt/apps/elasticsearch-6.4.0/config/analysis-ik/IKAnalyzer.cfg.xml

IK自定義詞典維護

文字詞典

ik文字詞典均是以dic結尾,換行符作為分隔,示例如下:

重啟 es,注意一定要重啟es

通過前面教程中 ,我們發現短語"我愛祖國",會被分詞為, "我","愛","祖國"三個詞, 如果按照上面詞典定義後, "我愛祖國"會被當成一個詞語不被分詞。

熱更新遠端詞典

熱更新遠端詞典的優勢是 ,修改詞典後無需重啟es。每分鐘載入一次

修改 IK配置檔案如下:

其中 location 是指一個 url，比如 http://yoursite.com/getCustomDict，該請求只需滿足以下兩點即可完成分詞熱更新。

1· 該 http 請求需要返回兩個頭部(header)，一個是 Last-Modified，一個是 ETag，這兩者都是字串型別，只要有一個發生變化，該外掛就會去抓取新的分詞進而更新詞庫。

2· 該 http 請求返回的內容格式是一行一個分詞，換行符用 \n 即可。

滿足上面兩點要求就可以實現熱更新分詞了，不需要重啟 ES 例項。

可以將需自動更新的熱詞放在一個 UTF-8 編碼的 .txt 檔案裡，放在 nginx 或其他簡易 http server 下，當 .txt 檔案修改時，http server 會在客戶端請求該檔案時自動返回相應的 Last-Modified 和 ETag。可以另外做一個工具來從業務系統提取相關詞彙，並更新這個 .txt 檔案。

本文將遠端詞典存入資料庫，示例如下：