Elasticsearch 基礎介紹

雲崖先生發表於2021-04-04

原文網址 : https://www.cnblogs.com/Yunya-Cnblogs/p/14616914.html

Elasticsearch

Elasticsearch簡介

基礎概念

Elasticsearch由Shay banon在2004年進行初步開發，並且在2010年2月釋出第一個版本。

此後Shay banon在2012建立Elasticsearch BV公司，繼續圍繞Elasticsearch提供相關軟體和產品。

Elasticsearch是一個實時的分散式搜尋分析引擎，它能讓你以一個前所未有的體驗來探索你的資料。

它常被作用於全文檢索、結構化搜尋、資料分析這三個功能的組合。

功能介紹

Elasticsearch基於Apache Lucene的開源搜尋引擎，而Lucene無論是在開源亦或是專有領域來說，它可以被認為是迄今為止最先進、效能最好、功能最豐富的的搜尋引擎庫。

但是，Lucene僅是一個Java庫，要想使用它你必須熟知Java並將其直接整合到你的應用中，更加糟糕的是Lucene非常複雜，你需要深入瞭解檢索的相關知識來理解它是如何工作的。

而Elasticsearch將Lucene當做核心，並遮蔽了大部分複雜的操作，通過簡單的RESTful API進行呼叫，從而讓全文搜尋變的簡單。

與SQL的區別

Elasticsearch與MySQL的區別較大，其資料儲存採用JSON格式。

在其中，各個名詞術語也是不相同的，如下表所示：

Elasticsearch	SQL
索引	庫
型別（7版本後淡化該概念，8版本可能會被移除）	表
文件	記錄
filed	欄位

同時，MySQL並不適用於全文檢索，如要查詢某個字串%，必須使用全表掃描

而Elasticsearch則非常適合全文檢索，並且可以靈活的儲存不同型別的資料

以下是Elasticsearch應用場景：

商城的商品搜尋
所有產品的評論
高亮顯示搜尋內容
收集展示各種日誌

除此之外，相較於MySQL部署分散式的繁瑣，Elasticsearch天生支援分散式，部署簡單，維護輕鬆，也是對運維人員非常友好的一款資料庫產品。

一言以蔽之，Elasticsearch的出現並非為了取代SQL，而是專注於SQL不擅長的領域與其進行互補。

Elasticsearch安裝

安裝方式

Elasticsearch安裝方式有以下4種：

docker:

優點：
- 部署方便
- 開箱即用
- 啟動迅速
缺點：
- 需要有docker相關知識
- 修改配置比較麻煩
- 資料儲存需要掛載目錄
tar

優點：
- 部署靈活
- 對系統侵佔性小
缺點：
- 需要自己寫啟動管理檔案
- 目錄要提前進行規劃
rpm | deb：

優點：
- 部署方便
- 啟動指令碼安裝即用
- 存放目錄較為標準化
缺點：
- 軟體各個元件分散在不同目錄
- 解除安裝可能不乾淨
- 預設配置需要修改
ansible

優點：
- 及其靈活
- 功能全面
- 批量部署速度快
缺點：
- 需要學習ansible語法和規則
- 需要提前規劃好所有標準
- 需要有專人進行維護

Rpm安裝

在這裡將採用rpm進行安裝，版本為7.6.1，算是目前較新的版本。

1）安裝Java環境，最少要求1.8：

$ yum install -y java-1.8.0-openjdk.x86_64

2）下載安裝軟體，如果速度慢可以在其他瀏覽器上進行下載後通過scp傳輸：

$ cd ~
$ wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.6.1-x86_64.rpm

3）進行安裝：

$ rpm -ivh elasticsearch-7.6.1-x86_64.rpm

配置啟動

1）重新載入sys專案：

$ systemctl daemon-reload

2）配置開機啟動：

$ systemctl enable elasticsearch.service

3）啟動Elasticsearch服務（過程較慢，檢視日誌，耐心等待）：

$ systemctl start elasticsearch.service

4）檢視啟動狀態，確保配置檔案沒有問題：

$ systemctl status elasticsearch.service

5）由於Elasticsearch啟動較慢，檢查服務程式是否成功啟動：

$ ps -ef | grep elasticsearch
$ netstat -lnpt | grep 9200     # 檢視9200埠

如果啟動失敗，請檢查記憶體等是否充裕，或者進行jvm記憶體限制。

目錄介紹

通過以下命令檢視Elasticsearch安裝目錄：

$ rpm -ql elasticsearch

通過以下命令檢視Elasticsearch配置檔案：

$ rpm -qc elasticsearch

重要目錄與檔案：

/etc/elasticsearch/elasticsearch.yml  # 配置檔案
/etc/elasticsearch/jvm.options        # jvm虛擬機器配置檔案
/etc/init.d/elasticsearch             # init啟動檔案
/etc/sysconfig/elasticsearch          # 環境變數配置檔案
/usr/lib/sysctl.d/elasticsearch.conf  # sysctl變數檔案
/usr/lib/systemd/system/elasticsearch.service   # systemd啟動檔案
/var/lib/elasticsearch                # 資料目錄
/var/log/elasticsearch                # 日誌目錄
/var/run/elasticsearch                # pid目錄

修改配置

Elasticsearch的預設配置已經做得非常好，但是以下一些配置你可以進行選配：

# 檢視資料和日誌目錄
$ egrep -v "^#" /etc/elasticsearch/elasticsearch.yml

配置項：

cluster.name: my-application               # 叢集名稱
node.name: node-1                          # 節點名稱
path.data: /data/elasticsearch             # 資料目錄
path.logs: /var/log/elasticsearch          # 日誌目錄
bootstrap.memory_lock: true                # 鎖定記憶體
network.host: localhost                    # 繫結IP地址
http.port: 9200                            # 繫結埠號
discovery.zen.ping.unicast.hosts: [“localhost”]  # 叢集發現的通訊節點
discovery.zen.minimum_master_nodes: 2            # 最小主節點數

修改記憶體配置，開啟註釋：

$ vim /etc/elasticsearch/elasticsearch.yml

# 所在叢集名稱與該服務在叢集中的名稱
cluster.name: my-application
node.name: node-1


# 服務繫結的地址和埠
network.host: 192.168.0.110
http.port: 9200

# 作為叢集主節點啟動
cluster.initial_master_nodes: ["node-1"]

# 是否開啟記憶體限制
action.destructive_requires_name: true

在jvm虛擬機器中進行記憶體限定，根據實際情況進行設定，由於我這臺centos7的伺服器記憶體較小，因此設定的也比較小，注意這裡最大不能超過32G：

$ vim /etc/elasticsearch/jvm.options

-Xms512m  # 最小記憶體
-Xmx512m  # 最大記憶體

重啟生效：

$ systemctl restart elasticsearch.service

資料目錄

如果你的資料目錄發生了變更，請確保使用Elasticsearch的管理使用者對目錄進行授權操作：

$ id elasticsearch
uid=996(elasticsearch) gid=992(elasticsearch) 組=992(elasticsearch)

不再進行演示。

相關術語

索引詞

在Elasticsearch中索引詞(term)是一個能夠被索引的精確值。

foo、Foo、FOO幾個單詞是不同的索引詞。

索引詞(term)是可以通過term查詢進行準確的搜尋。

文字(text)

文字是一段普通的非結構化文字。

通常，文字會被分拆成一個個的索引詞，儲存在elasticsearch 的索引庫中。

為了讓文字能夠進行搜尋，文字欄位需要事先進行分析了;

當對文字中的關鍵詞進行查詢的時候，搜尋引擎應該根據搜尋條件搜尋出原文字。

分析(analysis)

分析是將文字轉換為索引詞的過程，分析的結果依賴於分詞器。

比如:FOO BAR、Foo-Bar和 foo bar這幾個詞有可能會被分析成相同的索引詞foo和bar，這些索引詞儲存在Elasticsearch的索引庫中。

叢集(cluster)

叢集由一個或多個節點組成，對外提供服務，對外提供索引和搜尋功能。

在所有節點，一個叢集有一個唯一的名稱預設為“elasticsearch”

此名稱是很重要的，因為每個節點只能是叢集的一部分，當該節點被設定為相同的叢集名稱時，就會自動加入叢集。

當需要有多個叢集的時候，要確保每個叢集的名稱不能重複，否則節點可能會加入到錯誤的叢集。

請注意，一個節點只能加入到一個叢集。

此外，你還可以擁有多個獨立的叢集，每個叢集都有其不同的叢集名稱。

節點(node)

一個節點是一個邏輯上獨立的服務，它是叢集的一部分，可以儲存資料，並參與叢集的索引和搜尋功能。

就像叢集一樣，節點也有唯一的名字，在啟動的時候分配。

如果你不想要預設名稱，你可以定義任何你想要的節點名。

這個名字在資料處理中很重要，在Elasticsearch叢集通過節點名稱進行管理和通訊，一個節點可以被配置加入到一個特定的叢集。

預設情況下，每個節點會加入名為Elasticsearch 的叢集中，這意味著如果你在區域網中部署多個節點，如果網路暢通，他們能彼此發現並自動加入名為Elasticsearch 的一個叢集中。

你可以擁有多個你想要的節點。當網路沒有叢集執行的時候，只要啟動一個節點，這個節點會預設生成一個新的叢集，這個叢集也會有自己的一個節點。

分片(shard)

分片是單個Lucene 例項，這是Elasticsearch管理的比較底層的功能。

索引是指向主分片和副本分片的邏輯空間。

對於使用，只需要指定分片的數量,其他不需要做過多的事情。

在開發使用的過程中，我們對應的物件都是索引，Elasticsearch 會自動管理叢集中所有的分片，當發生故障的時候，Elasticsearch 會把分片移動到不同的節點或者新增新的節點。

一個索引可以儲存很大的資料，這些空間可以超過一個節點的物理儲存的限制。

例如：十億個文件佔用磁碟空間為 1TB。

僅從單個節點搜尋可能會很慢，還有一臺物理機器也不一定能儲存這麼多的資料。

為了解決這一問題，Elasticsearch將索引分解成多個分片。

當你建立一個索引，你可以簡單地定義你想要的分片數量。

每個分片本身是一個全功能的、獨立的單元，可以託管在叢集中的任何節點。

主分片

每個文件都儲存在一個分片中，當你儲存一個文件的時候，系統會首先儲存在主分片中，然後會複製到不同的副本中。

預設情況下，一個索引有5個主分片。

你可以事先制定分片的數量,當分片一旦建立，則分片的數量不能修改。

副本分片

每一個分片有零個或多個副本。

副本主要是主分片的複製，其中有兩個目的:

增加高可用性:當主分片失敗的時候,可以從副本分片中選擇一個作為主分片。
提高效能:當查詢的時候可以到主分片或者副本分片中進行查詢。

預設情況下，一個主分片配有一個副本，但副本的數量可以在後面動態地配置增加。

副本分片必部署在不同的節點上，不能部署在和主分片相同的節點上。

索引(index)

索引是具有相同結構的文件集合。

例如：可以有一個客戶資訊的索引,包括一個產品目錄的索引,一個訂單資料的索引。

在系統上索引的名字全部小寫，通過這個名字可以用來執行索引、搜尋、更新和刪除操作等。

在單個叢集中，可以定義多個你想要的索引。

型別(type)

在索引中，可以定義一個或多個型別，型別是索引的邏輯分割槽。

在一般情況下，一種型別被定義為具有一組公共欄位的文件。

例如，讓我們假設你執行一個部落格平臺，並把所有的資料儲存在一個索引中。

在這個索引中，你可以定義一種型別為使用者資料，一種型別為部落格資料，另一種型別為評論資料。

文件(doc)

文件是儲存在Elasticsearch中的一個JSON格式的字串。

它就像在關聯式資料庫中表的一行。

每個儲存在索引中的一個文件都有一個型別和一個ID，每個文件都是一個JSON物件，儲存了零個或者多個欄位,或者鍵值對。

原始的 JSON 文件假儲存在一個叫作Sour的欄位中。

當搜尋文件的時候預設返回的就是這個欄位。

對映

對映像關聯式資料庫中的表結構。

每一個索引都有一個對映，它定義了索引中的每一個欄位型別，以及一個索引範圍內的設定。

一個對映可以事先被定義，或者在第一次儲存文件的時候自動識別。

欄位

文件中包含零個或者多個欄位，欄位可以是一個簡單的值(例如字串、整數、日期)，也可以是一個陣列或物件的巢狀結構。

欄位類似於關聯式資料庫中表的列。

每個欄位都對應一個欄位型別，例如整數、字串、物件等。

欄位還可以指定如何分析該欄位的值。

主鍵

ID是一個檔案的唯一標識。

如果在存庫的時候沒有提供ID，系統會自動生成一個ID。

文件的 index與type的ID必須是唯一的。

複製

複製是一個非常有用的功能，不然會有單點問題。

當網路中的某個節點出現問題的時候，複製可以對故障進行轉移，保證系統的高可用。

因此，Elasticsearch允許你建立一個或多個拷貝，你的索引分片就形成了所謂的副本或副本分片。

複製是重要的，主要的原因有:

它提供丁高可用性,當節點失敗的時候不受影響。需要注意的是，一個複製的分片不會儲存在同一個節點中。
它允許你擴充套件搜尋量,提高併發量,因為搜尋可以在所有副本上並行執行。每個索引可以拆分成多個分片。

索引可以複製零個或者多個分片，一旦複製，每個索引就有了主分片和副本分片。

分片的數量和副本的數量可以在建立索引時定義，當建立索引後，你可以隨時改變副本的數量，但你不能改變分片的數量。

預設情況下，每個索引分配5個分片和一個副本，這意味著你的叢集節點至少要有兩個節點，你將擁有5個主要的分片和5個副本分片共計10個分片。

每個Elasticsearch分片是一個Lucene 的索引。

有文件儲存數量限制，你可以在一個單一的Lucene索引中儲存的最大值為lucene-5843，極限是2147483519(=integer.max_value-128)個文件。

你可以使用cat/shards API監控分片的大小。

倒排索引

Elasticsearch基於Lucene，而Lucene能夠做到全文檢索的功能就依賴於倒排索引。

document被成功index錄入後，Elasticsearch會對index建立一張倒排索引表。

如下所示，這裡有2個文件，都在一個index中：

DOCUMENT1 : "Hello,Elasticsearch"
DOCUMENT2 : "Hello,World And Elasticsearch"

這個index的倒排索引表如下，它會將上述document的詞彙進行拆分並記錄：

term(精確查詢)	document01	document02
Hello	√	√
World	×	×
Hi	×	×
Elasticsearch	√	√
And	×	√

在進行查詢時，會通過關鍵詞命中獲得分數，分數越高查詢的條件排名越靠前。

如，我查詢的詞彙是 “Hello World”，結果如下：

DOCUMENT2 : Hello 存在 World 存在    得分 2
DOCUMENT1 : Hello 存在 World 不存在  得分 1

Pandas基礎介紹
2020-05-06
Elasticsearch之介紹
2024-04-08
Elasticsearch
1、Oracle 基礎介紹
2024-04-14
Oracle
JDBC的基礎介紹
2020-12-03
JDBC
ActiveMq的基礎介紹
2020-12-14
MQ
MySQL 教程基礎介紹
2021-01-04
MySql
OSPF介紹及基礎配置
2019-10-11
RocketMQ系列1：基礎介紹
2024-12-01
MQ
Django基礎教程之介紹
2021-04-05
Django
Android RxJava：基礎介紹與使用
2019-03-28
AndroidRxJava
資料倉儲基礎介紹
2018-07-30
Jumpserver基礎運維-01介紹
2020-03-24
Server運維
02-ASP.Net(基礎介紹)
2020-10-04
ASP.NET
【ES6基礎】const介紹
2019-02-01
Python介紹和基礎運用
2024-11-08
Python
Linux shell 指令碼基礎介紹
2021-07-11
Linux指令碼
ElasticSearch基礎
2018-04-23
Elasticsearch
Elasticsearch 參考指南（介紹）
2018-10-11
Elasticsearch
【重溫基礎】17.WebAPI介紹
2019-02-16
WebAPI
PEG.js 介紹與基礎使用
2018-11-14
JS
前端系列文章-html之基礎介紹
2018-08-15
前端HTML
前端基礎之HTTP協議介紹
2024-03-18
前端HTTP協議
金融反欺詐-交易基礎介紹
2020-08-19
比特幣入門一基礎介紹
2019-05-28
比特幣
詳解javascript拖拽（一）基礎介紹
2018-12-24
JavaScript
Sql介紹與 Sql基礎查詢
2024-09-26
SQL
Spring基礎只是—AOP的概念介紹
2022-06-11
Spring
資料庫基礎知識介紹！
2022-04-18
資料庫
[java基礎]之JDK目錄介紹
2021-02-07
JavaJDK
BSN-DDC基礎網路詳解（一）：基礎介紹
2023-02-01
elasticsearch 基礎操作
2020-04-04
Elasticsearch
【重溫基礎】15.JS物件介紹
2019-01-14
JS物件
【重溫基礎】16.JSON物件介紹
2019-01-17
JSON物件
每日優鮮小程式基礎元件介紹
2018-09-29
元件
【筆記】Python基礎（二）運算子介紹
2018-06-28
筆記Python
Java基礎知識篇——Java基本介紹
2024-03-11
Java
【Kubernetes系列】第2篇基礎概念介紹
2019-09-06
python基礎學習-埠介紹說明
2020-01-26
Python