ElasticSearch簡寫ES,ES是一個高擴充套件、開源的全文檢索和分析引擎,它可以準實時地快速儲存、搜尋、分析海量的資料。
應用場景
- 我們常見的商城商品的搜尋
- 日誌分析系統(ELK)
- 基於大量資料(數千萬的資料)需要快速調查、分析並且並將結果視覺化的業務需求
安裝並執行ES
Java環境安裝
Elastic 需要 Java 8 環境。如果你的機器還沒安裝 Java
,可以參考JAVA安裝
ElasticSearch安裝
安裝完Java環境後,我們可以開始以下ElasticSearch
安裝或者根據官方文件安裝
wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip unzip elasticsearch-5.5.1.zip cd elasticsearch-5.5.1/
進入解壓目錄之後,執行下面命令,啟動ElasticSearch
./bin/elasticsearch
如果此時報以下錯誤
錯誤一
OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, thenyou should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N
開啟: elasticsearch-5.5.1/config/jvm.options
在末尾新增:
-XX:-AssumeMP
錯誤二
OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000085330000, 2060255232, 0) failed; error='Cannot allocate memory' (errno=12)
先執行:
sysctl -w vm.max_map_count=262144
再開啟elasticsearch-5.5.1/config/jvm.options
-Xmx512m
-Xms512m
錯誤三
[2019-06-27T15:01:43,165][WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [] uncaught exception in thread [main] org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root
原因:elasticsearch自5版本之後,處於安全考慮,不允許使用root使用者執行。
解決:建立一個普通使用者,將elasticsearch 安裝目錄許可權修改一下,切換至普通使用者執行elasticsearch就可以了
useradd elk chown -R elk.elk /usr/local/share/applications/elasticsearch-5.5.1 su - elk cd /usr/local/share/applications/elasticsearch-5.5.1
重新啟動
./bin/elasticsearch
如果一切正常,Elastic
就會在預設的9200
埠執行。這時,開啟另一個命令列視窗,請求該埠,會得到說明資訊。
$ curl 'localhost:9200' { "name" : "cWyaT72", "cluster_name" : "elasticsearch", "cluster_uuid" : "A7akNm1SRw2Gm-BdSBkdaw", "version" : { "number" : "5.5.1", "build_hash" : "19c13d0", "build_date" : "2017-07-18T20:44:24.823Z", "build_snapshot" : false, "lucene_version" : "6.6.0" }, "tagline" : "You Know, for Search" }
訪問配置
Elastic
預設情況下,只允許本地訪問,如果需要遠端訪問,可以修改 config/elasticsearch.yml
檔案,去掉network.host
的註釋,將它的值改成0.0.0.0
,然後重新啟動 Elastic。
network.host: 0.0.0.0
上面程式碼中,設成0.0.0.0
讓任何人都可以訪問。線上服務不要這樣設定,要設成具體的 IP。
基本概念
Node 與 Cluster
Elastic
本質上是一個分散式資料庫,允許多臺伺服器協同工作,每臺伺服器可以執行多個 Elastic
例項。
單個 Elastic
例項稱為一個節點(node)
。一組節點構成一個叢集(cluster)
。
檢視Cluster Health
curl -X GET 'http://localhost:9200/_cat/health?v'
獲取叢集的所有節點
curl -X GET 'http://localhost:9200/_cat/nodes?v'
Index
Elastic
會索引所有欄位,經過處理後寫入一個反向索引(Inverted Index)。查詢資料的時候,直接查詢該索引。(一個 Index
類似於傳統關聯式資料庫中的一個 資料庫
,是一個儲存關係型文件的地方)。
所以,Elastic 資料管理的頂層單位就叫做 Index(索引)。它是單個資料庫的同義詞。每個 Index (即資料庫)的名字必須是小寫。
下面的命令可以檢視當前節點的所有 Index。
curl -X GET 'http://localhost:9200/_cat/indices?v'
Document
Index裡的單條記錄稱為Document
,多條Document
構成一個Index
.
Document
使用JSON格式表示,如:
{ "goods_name": "空調", "category_name": "家電分類", "price": "3999.00" }
同一個 Index 裡面的 Document
,不要求有相同的結構(scheme),但是最好保持相同,這樣有利於提高搜尋效率。
Type
Document
是可以分組的,如goods_list
這個Index
,可以按照category(家電、衣服)
分類,也可以按照price(>1000、 <1000)
分類。這種分組叫Type
它是虛擬的邏輯分組,用於過濾Document
。
列出每個Index
下面的Type
curl 'http://localhost:9200/_mapping?pretty=true'
根據規劃,Elastic 6.x 版只允許每個 Index 包含一個 Type,7.x 版將會徹底移除 Type。
Index操作
新建(Create Index)
新建 Index
,可以直接向 Elastic
伺服器發出 PUT 請求。下面的例子是新建一個名叫goods_list
的 Index
。
curl -X PUT 'http://localhost:9200/goods_list'
伺服器返回一個 JSON 物件,裡面的acknowledged
欄位表示操作成功。
{ "acknowledged": true, "shards_acknowledged": true }
刪除(Delete Index)
curl -X DELETE 'http://localhost:9200/goods_list' { "acknowledged": true }
資料操作
上面介紹了Index
和Type
的一些基本的概念和Index
的基本操作,現在先來建立一個完整的Index
結構,並對資料進行操作。
新建Index結構
curl -X PUT 'localhost:9200/goods_list' -d ' { "mappings": { "goods_info": { "properties": { "goods_name": { "type": "keyword" }, "category_name": { "type": "keyword" }, "price": { "type": "float" } } } } } ' { "acknowledged": true }
執行上面命名,重新建立一個新的Index
新增記錄
向指定的 /Index/Type
傳送 PUT
請求,就可以在 Index
裡面新增一條記錄。比如,向/goods_list/goods_info
傳送請求,就可以新增一條商品記錄。
curl -X PUT 'localhost:9200/goods_list/goods_info/1' -d ' { "goods_name": "華為筆記本", "category_name": "計算機", "price": "1000" }'
伺服器返回的 JSON 物件,會給出 Index、Type、Id、Version 等資訊:
{ "_index": "goods_list", "_type": "goods_info", "_id": "1", "_version": 1, "result": "created", "_shards": { "total": 2, "successful": 1, "failed": 0 }, "created": true }
相信細心的你會發現/goods_list/goods_info/1
,後面多了一個1
,這個1
是該條記錄的 ID。可以是任意字串
新增記錄的時候,也可以不指定 Id,這時要改成 POST 請求。
curl -X POST 'localhost:9200/goods_list/goods_info' -d ' { "goods_name": "洗衣機", "category_name": "家電", "price": "899.99" }'
如果沒有指定ID
,那麼Elastic
會隨機生成一串字串作為ID
{ "_index": "goods_list", "_type": "goods_info", "_id": "AWub5f7FFq1D5epJJhqT", "_version": 1, "result": "created", "_shards": { "total": 2, "successful": 1, "failed": 0 }, "created": true }
檢視記錄
curl 'localhost:9200/goods_list/goods_info/1?pretty=true'
上面程式碼請求檢視/goods_list/goods_info/1
這條記錄,URL 的引數pretty=true
表示以易讀的格式返回。
返回的資料中,found
欄位表示查詢成功,_source
欄位返回原始記錄:
{ "_index" : "goods_list", "_type" : "goods_info", "_id" : "1", "_version" : 1, "found" : true, "_source" : { "goods_name" : "華為筆記本", "category_name" : "計算機", "price" : "1000" } }
如果 ID
不正確,就查不到資料,found
欄位就是false
。
curl 'localhost:9200/goods_list/goods_info/2?pretty=true'
ID=2
並不存在,所以會返回以下結果:
{ "_index" : "goods_list", "_type" : "goods_info", "_id" : "2", "found" : false }
刪除記錄
curl -X DELETE 'localhost:9200/goods_list/goods_info/1'
PS:這裡先不要刪除這條記錄,後面還要用到。
更新記錄
curl -X PUT 'localhost:9200/goods_list/goods_info/1' -d ' { "user" : "華為筆記本", "title" : "計算機", "desc" : "5000" }'
更新記錄就是使用 PUT 請求,重新傳送一次資料。
{ "_index": "goods_list", "_type": "goods_info", "_id": "1", "_version": 2, "result": "updated", "_shards": { "total": 2, "successful": 1, "failed": 0 }, "created": false }
返回結果裡面,有幾個欄位發生了變化:
"_version" : 2, "result" : "updated", "created" : false
資料查詢
返回所有記錄
curl 'localhost:9200/goods_list/goods_info/_search' { "took": 127, "timed_out": false, "_shards": { "total": 5, "successful": 5, "failed": 0 }, "hits": { "total": 2, "max_score": 1, "hits": [ { "_index": "goods_list", "_type": "goods_info", "_id": "AWub5f7FFq1D5epJJhqT", "_score": 1, "_source": { "goods_name": "洗衣機", "category_name": "家電", "price": "899.99" } }, { "_index": "goods_list", "_type": "goods_info", "_id": "1", "_score": 1, "_source": { "user": "華為筆記本", "title": "計算機", "desc": "5000" } } ] } }
上面程式碼中,返回結果的 took
欄位表示該操作的耗時(單位為毫秒),timed_out
欄位表示是否超時,hits
欄位表示命中的記錄,裡面子欄位的含義如下:
total
:返回記錄數,本例是2條。max_score
:最高的匹配程度,本例是1.0
。hits
:返回的記錄組成的陣列。
返回的記錄中,每條記錄都有一個_score
欄位,表示匹配的程式,預設是按照這個欄位降序排列。
總結
這裡主要介紹了Elastic
的安裝、基本概念以及資料的基本操作,在下一章帶來Elastic
的分詞和全文搜尋以及相關的技術點。