elasticsearch的實現全文檢索

lionzl發表於2016-11-02

elasticsearch的實現全文檢索

大巖不燦發表於 2014年8月9日瀏覽 21,679 次

elasticsearch一個準實時的搜尋引擎，基於lucene構建，它的主要強項還是在全文檢索方面。工作中還是使用到了這部分功能，這裡做一個簡單的總結，可以使初次使用的人很快的配置和使用。
一、全文檢索的概念
首先介紹全文檢索的概念，就是對一篇文章進行索引，可以根據關鍵字搜尋，類似於mysql裡的like語句。
全文索引就是把內容根據詞的意義進行分詞，然後分別建立索引，例如”你們的激情是因為什麼事情來的” 可能會被分詞成：“你們“，”激情“，“什麼事情“，”來“ 等token
這樣當你搜尋“你們” 或者 “激情” 都會把這句搜出來。

二、內建分詞器
elasticsearch實現全文索引，首先要確定分詞器，elasticsearch預設有很多分詞器，你可以參考elasticsearch的官方文件。瞭解分詞器主要是怎麼實現的。
你可以使用
curl -XGET ‘http://192.168.1.101:9200/_analyze?analyzer=standard’ -d ‘你們有什麼事情’
命令來了解各種分詞器的分詞效果。

三、中文分詞器
一般中文分詞器一般使用第三方的ik分詞器、mmsegf分詞器和paoding分詞器，他們最初可能構建於lucene，後來移植於elasticsearch。在最新版的elasticsearch，我們主要使用了ik分詞器。

安裝ik分詞器到elasticsearch很簡單，它有個外掛目錄analysis-ik，和一個配置目錄ik, 分別拷貝到plugins和conf目錄就可以了。當然你可以使用elasticsearch的plugin命令去安裝，這個過程可能會有些麻煩。

然後在elasticsearch.yml檔案中配置

index:
  analysis:
    analyzer:
      ik:
          alias: [ik_analyzer]
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider
      ik_max_word:
          type: ik
          use_smart: false
      ik_smart:
          type: ik
          use_smart: true

意思就是ik分詞器，也可以使用別名ik_analyzer，使用IkAnalyzerProvider類分詞。
ik_max_word、ik_smart也是ik分詞器，只不過一個開啟了use_smart開關，一個沒開啟use_smart。這個本文不關心。

四、curl命令測試分詞器
第三方的分詞器，你是沒法使用
curl -XGET ‘http://192.168.1.101:9200/_analyze?analyzer=standard’ -d ‘你們有什麼事情’ 來檢視分詞效果的。
你必須建立一個指定該分詞器的索引才行。
1、建立索引
curl -XPUT http://192.168.1.101:9200/index
2、建立mapping，這裡就一個欄位content

curl -XPOST http://192.168.1.101:9200/index/fulltext/_mapping -d'
{
    "fulltext": {
             "_all": {
            "indexAnalyzer": "ik",
            "searchAnalyzer": "ik",
            "store": "false"
        },
        "properties": {
            "content": {
                "type": "string",
                "store": "no",
                "indexAnalyzer": "ik",
                "searchAnalyzer": "ik"
            }
        }
    }
}'

3、檢視分詞效果
curl -XGET ‘http://192.168.1.101:9200/index/_analyze?analyzer=ik’ -d ‘你們有什麼事情’
4、索引資料
curl -XPOST http://192.168.1.101:9200/index/fulltext/1 -d'{content:”美國留給伊拉克的是個爛攤子嗎”}’

curl -XPOST http://192.168.1.101:9200/index/fulltext/2 -d'{content:”公安部：各地校車將享最高路權”}’

curl -XPOST http://192.168.1.101:9200/index/fulltext/3 -d'{content:”中韓漁警衝突調查：韓警平均每天扣1艘中國漁船”}’

curl -XPOST http://192.168.1.101:9200/index/fulltext/4 -d'{content:”中國駐洛杉磯領事館遭亞裔男子槍擊嫌犯已自首”}’

5、全文檢索

term檢索，如果content分詞後含有中國這個token，就會檢索到

curl -XPOST http://192.168.1.101:9200/index/fulltext/_search  -d'
{"query" : { "term" : { "content" : "中國" }}}'

querystring檢索，它會先把”中國美國“分詞成中國、美國分別去檢索，然後最後預設是OR的關係

curl -XPOST http://192.168.22.161:9200/index/fulltext/_search  -d'
{
    "query" : {
          "query_string" : {
               "default_field" : "content",
               "query" : "中國美國"
          }
       }
}'

你也可以明顯的寫成
“query” : “中國 AND 美國”
或者
“query” : “中國 OR 美國”
如果你把查詢條件加上雙引號
“query” : “\”中國美國\””
便類似mysql裡的like的效果

五、java客戶端
java程式都有對應的類和方法。建立索引和設定mapping,這裡就不贅述了，這裡有總結：
主要是檢索：
term搜尋主要是用：QueryBuilders.termQuery(“content”, “中國”);
querystring搜尋使用：

QueryStringQueryBuilder queryString = new QueryStringQueryBuilder(“中國 OR 美國”);
queryString.field(“content”);

除非註明，趙巖的部落格文章均為原創，轉載請以連結形式標明本文地址
本文地址：http://zhaoyanblog.com/archives/495.html

基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
php + MongoDB + Sphinx 實現全文檢索
2019-02-16
PHPMongoDB
springboot ElasticSearch 簡單的全文檢索高亮
2019-01-19
Spring BootElasticsearch
讀書筆記：從Lucene到Elasticsearch:全文檢索實戰
2019-01-08
筆記Elasticsearch
PHP+redis實現超迷你全文檢索
2014-10-31
PHPRedis
板橋大人,首頁的google全文檢索如何實現
2003-03-17
Go
Oracle全文檢索
2008-05-23
Oracle
基於Lucene的全文檢索實踐
2021-11-07
Mysql 如何實現全文檢索，關鍵詞跑分
2020-08-25
MySql
全文檢索庫 bluge
2021-12-20
請問全文檢索的思路？
2004-03-12
lnmp+coreseek實現站內全文檢索(安裝篇)
2018-10-18
LNMP
IM全文檢索技術專題(四)：微信iOS端的最新全文檢索技術優化實踐
2022-03-02
iOS優化
Elasticsearch檢索文件。
2017-08-31
Elasticsearch
Kibana 全文檢索操作
2021-07-08
solr全文檢索學習
2020-11-14
Solr
Oracle全文檢索之中文
2011-06-20
Oracle
Oracle的全文檢索技術(轉)
2019-05-15
Oracle
全文檢索技術lucene的demo
2022-10-27
全文檢索的基本原理
2016-08-25
SQLSERVER2008全文檢索功能（命令列實現）
2010-07-06
SQLServer命令列
Oracle全文檢索之Ctxcat 索引
2011-04-14
Oracle索引
Oracle全文檢索之Context
2011-04-12
OracleContext
ElasticSearch入門檢索
2021-08-09
Elasticsearch
ElasticSearch進階檢索
2021-08-11
Elasticsearch
全文字檢索的應用(2)(轉)
2007-08-11
全文字檢索的應用(1)(轉)
2007-08-11
oracle全文索引之配置全文檢索環境
2019-05-23
Oracle索引
Homestead 環境下安裝 Elasticsearch 並使用 scout 進行全文檢索
2020-04-01
Elasticsearch
Elasticsearch 8.X：這個複雜的檢索需求如何實現？
2023-09-25
Elasticsearch
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
coreseek，php，mysql全文檢索部署（一）
2017-11-09
PHPMySql
coreseek，php，mysql全文檢索部署（二）
2017-11-16
PHPMySql
手工建立oracle text全文檢索元件
2007-08-06
Oracle元件
openGauss每日一練（全文檢索）
2024-03-30
ElasticSearch 億級資料檢索案例實戰
2019-12-06
Elasticsearch

elasticsearch的實現全文檢索

elasticsearch的實現全文檢索

相關文章