Elasticsearch搜尋資料彙總

Elasticsearch（ES）是近實時的分散式搜尋分析引擎。這篇文章整理和篩選了ES相關資料，包括索引、分詞、多條件查詢、聚合、自動補全、建議詞、同義詞、安全性等等，便於大家學習和使用ES搜尋引擎。

Elasticsearch 簡介

Elasticsearch（ES）是一個基於Lucene 構建的開源分散式搜尋分析引擎，可以近實時的索引、檢索資料。具備高可靠、易使用、社群活躍等特點，在全文檢索、日誌分析、監控分析等場景具有廣泛應用。

lucene

Lucene介紹與入門使用

Lucene.Net API

Elasticsearch 中文社群：https://elasticsearch.cn/article/

Elasticsearch 官方文件：https://www.elastic.co/guide/index.html

Elasticsearch 各客戶端API（eg：.NET、JAVA、Python、Go）

Elasticsearch .net client NEST 5.x 使用總結（初始化、查詢、權重、排序、聚合等）

Elasticsearch 客戶端SDK使用建議：建立索引的Setting和mapping使用elasticsearch 提供的DSL語法更加簡單。因為客戶端API程式碼裡面只提供基礎的SDK，如（ik拼音等）外掛就沒有對應介面提供

Elasticsearch術語（索引、型別、文件、叢集、節點、分片）

ES資料架構的主要概念（與關聯式資料庫Mysql對比）

在ES 早期版本，一個索引下是可以有多個Type ，從7.0 開始，一個索引只有一個Type，即_doc。一個Type 下的文件，都有相同的欄位（Field）

安裝

docker版本的ELK快速部署

ELK

ELK 是elastic 公司旗下三款產品ElasticSearch 、Logstash 、Kibana 的首字母組合。

#、ElasticSearch 是一個基於Lucene 構建的開源，分散式，RESTful 搜尋引擎。

#、Logstash 傳輸和處理你的日誌、事務或其他資料。

#、Kibana 將Elasticsearch 的資料分析並渲染為視覺化的報表。

Kibana User Guide

docker安裝elasticsearch和head外掛

分詞器

分詞器是專門處理分詞的元件，分詞器由如下三部分組成：

1、Character Filters：針對原始文字處理，比如：去除html 標籤

2、Tokenizer：按照規則切分為單詞，比如：按照空格切分

3、Token Filters：將切分的單詞進行加工，比如：大寫轉小寫，刪除stopwords，拼音，同義詞等

analyzer = CharFilters（0個或多個）+ Tokenizer(一個) + TokenFilters(0個或多個)

從圖中能夠看出，從上到下依次通過Character Filters，Tokenizer 以及Token Filters，這個順序比較好理解，一個文字進來確定要先對文字資料進行處理，再去分詞，最後對分詞的結果進行過濾。

ElasticSearch 分詞器是什麼

一些分詞器介紹（比如適用於英語的Snowball ）

elasticSearch Analysis Token Filters作用及相關樣例

Writing analyzers

ElasticSearch檢視欄位分詞結果（便於查為什麼匹配不出的問題）

Elasticsearch7 分詞器(內建分詞器和自定義分詞器)

Elasticsearch-Analysis-IK中文分詞器配置使用

elasticsearch 之分詞器配置 (IK+pinyin)

Elasticsearch 使用ik中文分詞器增加分詞熱詞（自定義詞）

Elasticsearch mapping

搞懂Elasticsearch 之Mapping （Reindex）

Mapping中的store屬性（按需查詢欄位）

Elasticsearch中的store field跟non-store field的區別

Elasticsearch 理解mapping中的store屬性

Elasticsearch 動態模板(dynamic_templates)

normalizer 的使用

ElasticSearch Normalizer 的使用方法

elasticsearch大小寫無法使用term查詢的問題

Adding normalizer for all keyword fields NEST

Elasticsearch DLS語法

Elasticsearch 查詢語法（模糊、精確、sort、相關性、and|or、slop間隔等）

Elasticsearch 查詢語法（多條件bool複雜查詢（must、should、filter）、日期範圍查詢）

Elasticsearch 查詢語法（bool複雜查詢、operator（||、&&、!、+）)

ElasticSearch 組合多查詢(bool, must, should, must_not, filter)

Elasticsearch中match、match_phrase、query_string和term的區別

Elasticsearch filter和query的不同

ElasticSearch 多級排序（eg：產品要根據：銷量、熱度、相關性排序）

Elasticsearch 搜尋條件權重控制（boost）-- 預設情況下，搜尋條件的權重都是1

聚合查詢

Elasticsearch 聚合語法（Aggregations）

Elasticsearch 聚合查詢

通過Elasticsearch 實現聚合檢索(分組統計)

Elasticsearch 範圍查詢（數值、日期）

分頁查詢

Elasticsearch 分頁查詢

Elasticsearch 查詢語法（使用scroll響應式返回大集合文件）

Elasticsearch 巢狀查詢，父子關係查詢

Elasticsearch 高亮顯示匹配關鍵詞（Highlight）

同義詞

elasticsearch 使用同義詞（synonym.txt）

搜尋建議詞（Suggest功能）

Elasticsearch實現搜尋推薦詞（C#）

基於Elasticsearch實現搜尋推薦

ElasticSearch使用completion實現補全功能

Elasticsearch Suggester詳解（自動補全）

Elasticsearch搜尋Suggest功能優化

elasticsearch 7.0 新特性之 search as you type

模擬實戰京東搜尋效果（一）

模擬實戰京東搜尋效果（二）

安全性

Meow攻擊刪除開放的的Elasticsearch（及MongoDB）索引，建一堆以Meow結尾的奇奇怪怪的索引（如：m3egspncll-meow）----關閉外網訪問埠，或至少修改ES預設埠

用nginx給kibana、elasticsearch做許可權認證

集中式日誌分析平臺- ELK Stack - 安全解決方案 X-Pack

常用的es語句

版本：Elasticsearch 7.9.0

刪除索引

DELETE mall.completion

建立索引，並指定settings

PUT mall.completion

{

"settings":{

"analysis":{

"analyzer":{

"ik_smart_pinyin":{

"type":"custom",

"tokenizer":"ik_smart",

"filter":["g_pinyin","word_delimiter"]

},

"ik_max_word_pinyin":{

"type":"custom",

"tokenizer":"ik_max_word",

"filter":["g_pinyin","word_delimiter"]

}

},

"filter":{

"g_pinyin":{

"type":"pinyin",

"keep_separate_first_letter":false,

"keep_full_pinyin":true,

"keep_original":true,

"limit_first_letter_length":16,

"lowercase":true,

"remove_duplicated_term":true

}

},

"mappings": {

"properties": {

"kw_completion": {

"type": "completion"

},

"kw_text":{

"type": "text",

"analyzer": "ik_smart_pinyin"

}

檢視索引設定

GET mall.completion/_settings

檢視mapping結構

GET mall.completion/_mapping

批量插入資料

POST _bulk/?refresh=true