Elasticsearch 索引的對映配置詳解

CodeSheep發表於2018-08-12

原文網址 : https://juejin.im/post/5b70afbbe51d456667636f5a

概述

Elasticsearch 與傳統的 SQL資料庫的一個明顯的不同點是，Elasticsearch 是一個 非結構化 的資料庫，或者說是一個 無模式 的資料庫。Elasticsearch 中資料最重要的三要素當屬：索引、型別、文件，其中索引這個概念非常重要，我們可以粗略地將其類比到傳統SQL資料庫中的 資料表。本文就從 Elasticsearch 的索引對映如何配置開始講起。

注：本文首發於 My Personal Blog，歡迎光臨小站！

本文內容腦圖如下：文章共1540字，閱讀本文大約需要5分鐘！

索引模式對映

建立索引時，可以自定義索引的結構，比如建立一個儲存使用者資訊資料的 users 索引，其典型的結構如下：

id：唯一表示符
name：姓名
birthday：出生日期
hobby：愛好

為此我們可以建立一個 json 格式的索引模式對映檔案：users.json

{
	"mappings" : {
		"user" : {
			"properties" : {
				"id" : {
					"type" : "long",
					"store" : "yes"
				},
				"name" : {
					"type" : "string",
					"store" : "yes",
					"index" : "analyzed"
				},
				"birthday" : {
					"type" : "date",
					"store" : "yes"
				},
				"hobby" : {
					"type" : "string",
					"store" : "no",
					"index" : "analyzed"
				}
				
			}
		}
	}
}
複製程式碼

上面的 json程式碼意義如下：

建立一個名稱為 users的 Index
裡面有一個名稱為 user的 Type
而 user 有四個 field
且每個 field 都有自己的屬性定義

然後我們來執行如下命令來新建一個索引：

curl -X PUT http://47.98.43.236:9200/users -d @users.json
複製程式碼

結果如下，索引 users、型別 user、以及四個欄位都已經順利插入：

關於欄位的 可選型別，有如下幾種：

string：字串
number：數字
date：日期
boolean：布林型
binary：二進位制
ip：IP地址
token_count型別

關於每種型別有哪些屬性，可參考官方文件，由於內容太多，此處不再贅述。

分析器的使用

分析器是一種用於 分析資料 或者按照使用者想要的方式 處理資料 的工具，對於 字串型別 的欄位，Elasticsearch 允許使用者自定義分析器。

先來自定義一個分析器

{
  "settings" : {
    "index" : {
      "analysis" : {
        "analyzer" : {
          "myanalyzer" : {
            "tokenizer" : "standard",
            "filter" : [
              "asciifolding",
              "lowercase",
              "myFilter"
            ]
          }
        },
        "filter" : {
          "myFilter" : {
            "type" : "kstem"
          }
        }
      }

    }
  },
	"mappings" : {
		"user" : {
			"properties" : {
				"id" : {
					"type" : "long",
					"store" : "yes"
				},
				"name" : {
					"type" : "string",
					"store" : "yes",
					"index" : "analyzed",
                    "analyzer" : "myanalyzer"
				},
				"birthday" : {
					"type" : "date",
					"store" : "yes"
				},
				"hobby" : {
					"type" : "string",
					"store" : "no",
					"index" : "analyzed"
				}

			}
		}
	}
}
複製程式碼

上述 json程式碼中，使用者定義了一個名為 myanalyzer 的分析器，該分析器包含 一個分詞器 + 三個過濾器，分別如下：

分詞器：standard
過濾器：asciifolding
過濾器：lowercase
過濾器：myFilter（自定義過濾器，其本質是 kstem）

再來看如何測試和使用自定義的分析器

可以通過類似如下的 Restful介面來測試 analyze API 的工作情況：

curl -X GET 'http://47.98.43.236:9200/users/_analyze?field=user.name' -d 'Cars Trains'
複製程式碼

可見我們輸入的時一行字串普通"Cars Trains"，而輸出為：car 和 train，這說明短語 "Cars Trains" 被分成了兩個詞條，然後全部轉為小寫，最後做了詞幹提取的操作，由此證明我們上面自定義的分析器已然生效了！

相似度模型的配置

Elasticsearch 允許為索引模式對映檔案中的不同欄位指定不同的 相似度得分 計算模型，其用法例析如下：

	"mappings" : {
		"user" : {
			"properties" : {
				"id" : {
					"type" : "long",
					"store" : "yes"
				},
				"name" : {
					"type" : "string",
					"store" : "yes",
					"index" : "analyzed",
                    "analyzer" : "myanalyzer",
                    "similarity" : "BM25"
				},
				"birthday" : {
					"type" : "date",
					"store" : "yes"
				},
				"hobby" : {
					"type" : "string",
					"store" : "no",
					"index" : "analyzed"
				}

			}
		}
	}
複製程式碼

上述 json檔案中，我們為 name 欄位使用了 BM25 這種相似度模型，新增的方法是使用 similarity 屬性的鍵值對，這樣一來 Elasticsearch 將會為 name 欄位使用 BM25 相似度計算模型來計算相似得分。

資訊格式的配置

Elasticsearch 支援為每個欄位指定資訊格式，以滿足通過改變欄位被索引的方式來提高效能的條件。Elasticsearch 中的資訊格式有如下幾個：

default：預設資訊格式，其提供了實時的對儲存欄位和詞向量的壓縮
pulsing：將重複值較少欄位的資訊列表編碼為詞條矩陣，可加快該欄位的查詢速度
direct：該格式在讀過程中將詞條載入到未經壓縮而存在記憶體的矩陣中，該格式可以提升常用欄位的效能，但損耗記憶體
memory：該格式將所有的資料寫到磁碟，然後需要FST來讀取詞條和資訊列表到記憶體中
bloom_default：預設資訊格式的擴充套件，增加了把 bloom filter 寫入磁碟的功能。讀取時 bloom filter 被讀取並存入記憶體，以便快速檢查給定的值是否存在
bloom_pulsing：pulsing 格式的擴充套件，也加入 bloom filter 的支援

資訊格式欄位（postings_format）可以在 任何一個欄位上 進行設定，配置資訊格式的示例如下：

	"mappings" : {
		"user" : {
			"properties" : {
				"id" : {
					"type" : "long",
					"store" : "yes",
                    "postings_format" : "pulsing"
				},
				"name" : {
					"type" : "string",
					"store" : "yes",
					"index" : "analyzed",
                    "analyzer" : "myanalyzer"
				},
				"birthday" : {
					"type" : "date",
					"store" : "yes"
				},
				"hobby" : {
					"type" : "string",
					"store" : "no",
					"index" : "analyzed"
				}

			}
		}
	} 
複製程式碼

在該例子之中，我們手動配置改變了 id 欄位的資訊格式為 pulsing，因此可加快該欄位的查詢速度。

文件值及其格式的配置

文件值這個欄位屬性作用在於：其允許將給定欄位的值被寫入一個更高記憶體效率的結構，以便進行更加高效的排序和搜尋。我們通常可以將該屬性加在 需要進行排序 的欄位上，這樣可以提效。

其配置方式是通過屬性 doc_values_format 進行，有三種常用的 doc_values_format 屬性值，其含義從名字中也能猜個大概：

default：預設格式，其使用少量的記憶體但效能也不錯
disk：將資料存入磁碟，幾乎無需記憶體
memory：將資料存入記憶體

舉個栗子吧：

	"mappings" : {
		"user" : {
			"properties" : {
				"id" : {
					"type" : "long",
					"store" : "yes"
				},
				"name" : {
					"type" : "string",
					"store" : "yes",
					"index" : "analyzed",
          "analyzer" : "myanalyzer"
				},
				"birthday" : {
					"type" : "date",
					"store" : "yes"
				},
				"hobby" : {
					"type" : "string",
					"store" : "no",
					"index" : "analyzed"
				},
                "age" : {
                    "type" : "integer",
                    "doc_values_format" : "memory"
                 }
			}
		}
	}
複製程式碼

上述 json配置中，我們給型別 user 新增了一個 age 欄位，假如我們想對年齡欄位進行排序，那麼給該欄位設定文件值格式的屬性是可以提升效率的。

後記

由於能力有限，若有錯誤或者不當之處，還請大家批評指正，一起學習交流！

可長按或掃描下面的 小心心 來訂閱 CodeSheep，獲取更多 務實、能看懂、可復現的 原創文 ↓↓↓

Hibernate配置檔案中對映元素詳解
2022-05-10
ElasticSearch中的對映
2018-11-04
Elasticsearch
elasticsearch配置注入索引
2020-11-20
Elasticsearch索引
elasticsearch的字串動態對映
2022-09-06
Elasticsearch字串
Elasticsearch第四篇：索引別名、新增或修改對映規則
2020-08-10
Elasticsearch索引
ElasticSearch - 基礎概念和對映
2024-03-19
Elasticsearch
mmap共享儲存對映(儲存I/O對映)系列詳解
2019-05-11
python實現兩字串對映詳解
2023-04-20
Python字串
Java實體對映工具MapStruct詳解
2021-09-20
JavaStruct
Nginx埠對映配置
2019-01-19
Nginx
MongoDB via Dotnet Core資料對映詳解
2020-06-24
MongoDB
Java實體對映工具MapStruct使用詳解
2021-11-05
JavaStruct
聊聊elasticsearch7.8的模板和動態對映
2021-02-06
Elasticsearch
MyBatis(四) 對映器配置（自動對映、resultMap手動對映、引數傳遞）
2018-07-04
MyBatis
【Elasticsearch】Elasticsearch 索引模板
2020-10-02
Elasticsearch索引
ElasticSearch生命週期管理-索引策略配置與操作
2020-08-26
Elasticsearch索引
ElasticSearch 索引 VS MySQL 索引
2020-10-09
Elasticsearch索引MySql
Spring 常用的註解以及對應 XML 配置詳解
2024-07-23
SpringXML
MySQL索引詳解
2019-05-14
MySql索引
Postgres索引詳解
2022-02-04
索引
InnoDB 索引詳解
2021-11-21
索引
剖析 Elasticsearch 的索引原理
2019-05-13
Elasticsearch索引
nginx || apache 配置 API 介面對映 proxy
2020-01-03
NginxApacheAPI
elasticsearch索引原理
2019-03-07
Elasticsearch索引
Elasticsearch SQL用法詳解
2018-12-13
ElasticsearchSQL
elasticsearch的java程式碼操作詳解
2018-03-16
ElasticsearchJava
Docker 埠對映防火牆規則配置
2024-05-07
Docker防火牆
Docker 網路基礎配置一(埠對映)
2019-03-04
Docker
[非專業翻譯] Mapster - 對映配置
2021-06-24
使用Elasticsearch的動態索引和索引優化
2019-03-28
Elasticsearch索引優化
ElasticSearch 深度分頁詳解
2022-11-15
Elasticsearch
萬字解析XML配置對映為BeanDefinition的原始碼
2023-11-14
XMLBean原始碼
Elasticsearch 學習索引
2020-04-30
Elasticsearch索引
Apache的配置詳解
2024-07-01
Apache
MongoDB索引優化詳解
2019-02-23
MongoDB索引優化
MongoDB複合索引詳解
2018-03-23
MongoDB索引
筆記：環境 - Mac配置Host域名對映
2019-02-13
筆記Mac
python建立elasticsearch索引的探討
2018-11-12
PythonElasticsearch索引