TODO
基本概念
ElasticSearch
什麼是ElasticSearch?
首推官網的解釋: https://www.elastic.co/guide/en/elasticsearch/reference/7.11/elasticsearch-intro.html
我簡單總結下,ES(ElasticSearch的縮寫,下文大寫的ES都表示ElasticSearch)是一個分散式的搜尋和分析引擎,可以通過Logstash、Beats收集資料,並將其儲存在ES中。然後通過Kibana視覺化的展示、分析你儲存的資料。上述就著名的ELK三件套,當然L不是必需的,資料也可以自己寫入。
ES不同於傳統關係型資料庫(RDBMS),ES不是將資料轉為一列列的資料行,而是儲存已經序列化為JSON文件的複雜資料結構。這些文件分佈在叢集中,可以從任何節點上立即訪問。當文件被儲存時,它就會被編入索引,並且在1秒內就可以被搜尋到,可以做到近實時。
ES使用的是一種被稱為倒排索引的資料結構,倒排索引會列出文件中每一個單詞,並標識出這些單詞出現過的所有文件。所以,如果拿ES當搜尋引擎使用,怎麼分詞是非常重要的。
應用場景
-
搜尋類場景,比如電商網站、招聘網站、新聞資訊等各類應用,只要涉及到搜尋功能,都可以用ES來做。
-
日誌平臺,經典的ELK三件套,日誌的收集、儲存、分析一套完成,省心又省力。
-
資料分析,比如篩選出topN訪問量的頁面。
核心概念
-
索引(Index):類似關係型資料庫中的資料庫,通常一類資料只放到一個索引中。比如A系統的日誌,就放到log_a索引中。系統B的訪問量統計,就放到pv_b中。
-
型別(type):這個概念每個版本變動都比較大,ES5.X中一個index可以有多種type,6.X中一個index只能有一個type,7.X中要逐漸移除這個概念。type表示這個文件是該index中,哪一個類別的。如果非要和關係型資料庫做個類比,可以想象成表。
-
文件(document):文件就是一條JSON資料,類似於關係型資料庫中的一行資料。
-
對映(mapping):mapping定義了文件中,每個欄位的型別等資訊,類似於關係型資料庫中的表結構。
Kibana
Kibana是一個基於Node.js的視覺化工具,可以利用ES的聚合功能,生成柱狀圖、餅圖、折線圖等各類圖示。而且還提供了操作ES的控制檯(Dev Tools),可以直接在控制檯中輸入RESTful API來操作ES,並且提供了一定的API提示和語法高亮,有助於我們對ES API的學習。
Kibana沒有太多複雜的概念,我們只要會用即可。最後整合ELK時,我會介紹一些基本的用法。也可以看看官方文件,裡面還有視訊教程:https://www.elastic.co/guide/en/kibana/7.11/introduction.html
Logstash
貼一張官方的圖,Logstash的作用一目瞭然:
Logstash是一個具有實時收集資料的開源引擎,Logstash可以收集不同的資料來源,然後將資料規範化的輸出到你的目的地,也就是ES。
Logstash有三個重要的組成部分,inputs、filters、outputs。inputs和outputs是必需的,需要我們配置資料的輸入源和資料的輸出源。而在實際中,filters更為重要,它可以按照你指定的規則,過濾、運算元據。資料的格式統一,存入到ES後,有助於我們分析、查詢這些資料。
系統環境和軟體準備
作業系統
CentOS7
JDK
JDK8
yum install -y java-1.8.0-openjdk
ElasticSearch
版本號7.11,Kibana、Logstash和ES版本保持一致。
#下載es7.11壓縮包
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.11.0-linux-x86_64.tar.gz
Kibana
wget https://artifacts.elastic.co/downloads/kibana/kibana-7.11.0-linux-x86_64.tar.gz
Logstash
wget https://artifacts.elastic.co/downloads/logstash/logstash-7.11.0-linux-x86_64.tar.gz
快速開始
ElasticSearch
# 解壓壓縮包
tar -zxvf elasticsearch-7.11.0-linux-x86_64.tar.gz
# 移至你專門放軟體的目錄,儘量別在root根目錄
mv elasticsearch-7.11.0 /usr/elasticsearch/
# 修改配置檔案
vim /usr/elasticsearch/elasticsearch-7.11.0/config/elasticsearch.yml
單機啟動只需簡單修改如下幾項配置即可。如果是運維的朋友,可以去官方文件瞭解更多的配置資訊:https://www.elastic.co/guide/en/elasticsearch/reference/7.11/settings.html 根據右側目錄可以快速找到自己想看的配置主題,比如Network settings。
node.name: node-1
# 因為我部署在雲伺服器上,想要外網訪問這裡要配置成0.0.0.0
# 如果是虛擬機器的話就配置成ip地址,
# 如果是本機可以不改此項,預設綁到本機
# 可參考文件:https://www.elastic.co/guide/en/elasticsearch/reference/7.11/modules-network.html
network.host: 0.0.0.0
# 如果是雲伺服器記得在防火牆裡新增9200、9300,後面Kibana用到的5601埠也要記得新增
http.port: 9200
cluster.initial_master_nodes: ["node-1"]
根據自己的機器配置,按需修改JVM記憶體配置。ES預設配置是1G,考慮到後面會啟動Kibana,可以增加一些。
vim /usr/elasticsearch/elasticsearch-7.11.0/config/jvm.options
# 配置初始和最大堆記憶體
-Xms2g
-Xmx2g
新增es使用者,es預設root使用者無法啟動,所以需要新建一個使用者
useradd es # 新建使用者
passwd es # 修改密碼
chown -R es /usr/elasticsearch/ #賦予軟體包所在目錄的許可權
Elasticsearch 預設情況下使用 mmapfs 目錄來儲存其索引。mmap 計數的預設限制可能太低,這可能導致記憶體不足異常。可以以root身份執行以下命令增加限制
sysctl -w vm.max_map_count=655360
如果要永久更改這個限制可以去系統檔案中修改
vim /etc/sysctl.conf # 末尾新增如下內容vm.max_map_count=655360
# :wq後,使新增內容生效
sysctl -p
ES同樣會用到大量執行緒池,所以我們也需要修改一些配置,確保ES可以建立的執行緒數量至少為4096個。
vim /etc/security/limits.conf# 文末新增es - nofile 65535
切換到es使用者,然後啟動ES
su es/usr/elasticsearch/elasticsearch-7.11.0/bin/elasticsearch
觀察啟動日誌,如果你的版本和我一樣,並且沒有遺漏什麼配置,應該都能正常啟動。如果沒有正常啟動,根據日誌解決問題即可。如果看不明白日誌,自行Google。
新建一個終端,或者開啟瀏覽器,訪問ip:port,如果返回如下資訊,就表示啟動成功。
curl http://ip:9200/
# 響應資訊
{
"name" : "node-1",
"cluster_name" : "elasticsearch",
"cluster_uuid" : "uAIt_QYIQTy0YkATySbDhw",
"version" : {
"number" : "7.11.0",
"build_flavor" : "default",
"build_type" : "tar",
"build_hash" : "8ced7813d6f16d2ef30792e2fcde3e755795ee04",
"build_date" : "2021-02-08T22:44:01.320463Z",
"build_snapshot" : false,
"lucene_version" : "8.7.0",
"minimum_wire_compatibility_version" : "6.8.0",
"minimum_index_compatibility_version" : "6.0.0-beta1"
},
"tagline" : "You Know, for Search"
}
到此為止,單機版ES啟動完畢,說的比較詳細,後面的Kibana會適當簡略一點。建議有能力的,還是根據自己的需求過一遍文件。可以不用全部看完,運維的朋友可以著重看看配置、叢集管理、監控等相關章節。開發的朋友可以著重看看API、client、Mapping、DSL等。
Kibana
解壓、移動
tar -zxvf kibana-7.11.0-linux-x86_64.tar.gzmv kibana-7.11.0-linux-x86_64 /usr/kibana/
賦予es使用者Kibana目錄許可權
chown -R es /usr/kibana/
修改配置檔案
vim /usr/kibana/kibana-7.11.0-linux-x86_64/config/kibana.yml
配置內容如下:
server.port: 5601server.host: "0.0.0.0" # 如果ES和Kibana不在同一臺機器上,這裡改成ES所在機器的IP
elasticsearch.hosts: ["http://localhost:9200"]
啟動Kibana,觀察日誌有沒有報錯
su es/usr/kibana/kibana-7.11.0-linux-x86_64/bin/kibana
進入Kibana視覺化頁面,開啟瀏覽器,輸入ip:5601
Logstash
解壓、移動、賦予目錄許可權
tar -zxvf logstash-7.11.0-linux-x86_64.tar.gzmv logstash-7.11.0 /usr/logstash/chown -R es /usr/logstash/
配置input、output。filter我們暫時不配置,下面的SpringBoot整合ELK再演示filter。
su es
# 先進到配置檔案目錄,複製一份配置模板
cd /usr/logstash/logstash-7.11.0/config/cp logstash-sample.conf logstash.conf
# 配置輸入輸出
vim logstash.conf
填入如下內容:
input {
file {
path => ["/usr/log/movies.csv"] # 待匯入資料的目錄
start_position => "beginning" # 頭從開始
}
}
filter {
csv {
separator => ","
columns => ["id","content","genre"]
}
mutate {
split => { "genre" => "|" }
remove_field => ["path", "host","@timestamp","message"]
}
mutate {
split => ["content", "("]
add_field => { "title" => "%{[content][0]}"}
add_field => { "year" => "%{[content][1]}"}
}
mutate {
convert => {
"year" => "integer"
}
strip => ["title"]
remove_field => ["path", "host","@timestamp","message","content"]
}
}
output {
elasticsearch {
hosts => "http://localhost:9200"
index => "movies"
document_id => "%{id}"
}
}
上述配置檔案中,我簡單說說它們的意思。其中input、filter和output就是Logstash管道的三個元件。元件裡面的file、csv、mutate、elasticsearch等,是各自元件的外掛,它們有不同的功能。比如file外掛就是讀取檔案,而filter裡面的mutate外掛可以對資料進行常規的操作,比如重新命名、刪除、修改等。具體的外掛用法和解釋可見如下連結:
-
Input Plugins:https://www.elastic.co/guide/en/logstash/7.11/input-plugins.html
-
Filter Plugins:https://www.elastic.co/guide/en/logstash/7.11/filter-plugins.html
-
Output Plugins:https://www.elastic.co/guide/en/logstash/7.11/output-plugins.html
在啟動Logstash前我們先往/usr/log/目錄中放些資料,資料集我是在網上找的,地址:https://grouplens.org/datasets/movielens/ 大家可以根據自己的網速、硬碟大小下載,網速慢的就下個小點的資料集。然後複製到/usr/log/目錄下即可。
# 下載測試的資料集
wget https://files.grouplens.org/datasets/movielens/ml-latest-small.zipunzip ml-latest-small.zip cd ml-latest-small/cp movies.csv /usr/log/
# 載入指定配置檔案,啟動Logstash
/usr/logstash/logstash-7.11.0/bin/logstash -f /usr/logstash/logstash-7.11.0/config/logstash.conf
觀察日誌,看是否正常啟動。我第一次啟動時,由於ELK都部署在同一臺雲服務(4G記憶體),記憶體不足啟動失敗,可以去Logstash的jvm配置檔案裡面適當減小最小堆記憶體即可。
匯入成功後,就可以去Kibana的Index Management頁面看到這個資料集了。