ElasticSearch基礎入門

WilburXu發表於2019-06-28

ElasticSearch簡寫ES,ES是一個高擴充套件、開源的全文檢索和分析引擎,它可以準實時地快速儲存、搜尋、分析海量的資料。

應用場景

  • 我們常見的商城商品的搜尋
  • 日誌分析系統(ELK)
  • 基於大量資料(數千萬的資料)需要快速調查、分析並且並將結果視覺化的業務需求

安裝並執行ES

Java環境安裝

Elastic 需要 Java 8 環境。如果你的機器還沒安裝 Java,可以參考JAVA安裝

ElasticSearch安裝

安裝完Java環境後,我們可以開始以下ElasticSearch安裝或者根據官方文件安裝

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-5.5.1.zip
unzip elasticsearch-5.5.1.zip
cd elasticsearch-5.5.1/

進入解壓目錄之後,執行下面命令,啟動ElasticSearch

./bin/elasticsearch

如果此時報以下錯誤

錯誤一
OpenJDK 64-Bit Server VM warning: If the number of processors is expected to increase from one, thenyou should configure the number of parallel GC threads appropriately using -XX:ParallelGCThreads=N

開啟: elasticsearch-5.5.1/config/jvm.options

在末尾新增:

-XX:-AssumeMP
錯誤二
OpenJDK 64-Bit Server VM warning: INFO: os::commit_memory(0x0000000085330000, 2060255232, 0) failed; error='Cannot allocate memory' (errno=12)

先執行:

sysctl -w vm.max_map_count=262144

再開啟elasticsearch-5.5.1/config/jvm.options

-Xmx512m
-Xms512m
錯誤三
[2019-06-27T15:01:43,165][WARN ][o.e.b.ElasticsearchUncaughtExceptionHandler] [] uncaught exception in thread [main]
org.elasticsearch.bootstrap.StartupException: java.lang.RuntimeException: can not run elasticsearch as root

原因:elasticsearch自5版本之後,處於安全考慮,不允許使用root使用者執行。

解決:建立一個普通使用者,將elasticsearch 安裝目錄許可權修改一下,切換至普通使用者執行elasticsearch就可以了

useradd elk
chown -R elk.elk /usr/local/share/applications/elasticsearch-5.5.1
su - elk
cd /usr/local/share/applications/elasticsearch-5.5.1

重新啟動

./bin/elasticsearch

如果一切正常,Elastic 就會在預設的9200埠執行。這時,開啟另一個命令列視窗,請求該埠,會得到說明資訊。

$ curl 'localhost:9200'
{
  "name" : "cWyaT72",
  "cluster_name" : "elasticsearch",
  "cluster_uuid" : "A7akNm1SRw2Gm-BdSBkdaw",
  "version" : {
    "number" : "5.5.1",
    "build_hash" : "19c13d0",
    "build_date" : "2017-07-18T20:44:24.823Z",
    "build_snapshot" : false,
    "lucene_version" : "6.6.0"
  },
  "tagline" : "You Know, for Search"
}

訪問配置

Elastic 預設情況下,只允許本地訪問,如果需要遠端訪問,可以修改 config/elasticsearch.yml檔案,去掉network.host的註釋,將它的值改成0.0.0.0,然後重新啟動 Elastic。

network.host: 0.0.0.0

上面程式碼中,設成0.0.0.0讓任何人都可以訪問。線上服務不要這樣設定,要設成具體的 IP。

基本概念

Node 與 Cluster

Elastic本質上是一個分散式資料庫,允許多臺伺服器協同工作,每臺伺服器可以執行多個 Elastic 例項。

單個 Elastic 例項稱為一個節點(node)。一組節點構成一個叢集(cluster)

檢視Cluster Health

curl -X GET 'http://localhost:9200/_cat/health?v'

獲取叢集的所有節點

curl -X GET 'http://localhost:9200/_cat/nodes?v'

Index

Elastic會索引所有欄位,經過處理後寫入一個反向索引(Inverted Index)。查詢資料的時候,直接查詢該索引。(一個 Index 類似於傳統關聯式資料庫中的一個 資料庫 ,是一個儲存關係型文件的地方)。

所以,Elastic 資料管理的頂層單位就叫做 Index(索引)。它是單個資料庫的同義詞。每個 Index (即資料庫)的名字必須是小寫。

下面的命令可以檢視當前節點的所有 Index。

curl -X GET 'http://localhost:9200/_cat/indices?v'

Document

Index裡的單條記錄稱為Document,多條Document構成一個Index.

Document使用JSON格式表示,如:

{
    "goods_name": "空調",
    "category_name": "家電分類",
    "price": "3999.00"
}

同一個 Index 裡面的 Document,不要求有相同的結構(scheme),但是最好保持相同,這樣有利於提高搜尋效率。

Type

Document是可以分組的,如goods_list這個Index ,可以按照category(家電、衣服)分類,也可以按照price(>1000、 <1000)分類。這種分組叫Type它是虛擬的邏輯分組,用於過濾Document

列出每個Index下面的Type

curl 'http://localhost:9200/_mapping?pretty=true'

根據規劃,Elastic 6.x 版只允許每個 Index 包含一個 Type,7.x 版將會徹底移除 Type。

Index操作

新建(Create Index)

新建 Index,可以直接向 Elastic伺服器發出 PUT 請求。下面的例子是新建一個名叫goods_list的 Index

curl -X PUT 'http://localhost:9200/goods_list'

伺服器返回一個 JSON 物件,裡面的acknowledged欄位表示操作成功。

{
    "acknowledged": true,
    "shards_acknowledged": true
}

刪除(Delete Index)

curl -X DELETE 'http://localhost:9200/goods_list'
{
    "acknowledged": true
}

資料操作

上面介紹了IndexType的一些基本的概念和Index的基本操作,現在先來建立一個完整的Index結構,並對資料進行操作。

新建Index結構

curl -X PUT 'localhost:9200/goods_list' -d '
{
    "mappings": {
        "goods_info": {
            "properties": {
                "goods_name": {
                    "type": "keyword"
                },
                "category_name": {
                    "type": "keyword"
                },
                "price": {
                    "type": "float"
                }
            }
        }
    }
}
'

{
    "acknowledged": true
}

執行上面命名,重新建立一個新的Index

新增記錄

向指定的 /Index/Type 傳送 PUT 請求,就可以在 Index 裡面新增一條記錄。比如,向/goods_list/goods_info傳送請求,就可以新增一條商品記錄。

curl -X PUT 'localhost:9200/goods_list/goods_info/1' -d '
{
  "goods_name": "華為筆記本",
  "category_name": "計算機",
  "price": "1000"
}' 

伺服器返回的 JSON 物件,會給出 Index、Type、Id、Version 等資訊:

{
    "_index": "goods_list",
    "_type": "goods_info",
    "_id": "1",
    "_version": 1,
    "result": "created",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "created": true
}

相信細心的你會發現/goods_list/goods_info/1,後面多了一個1,這個1是該條記錄的 ID。可以是任意字串

新增記錄的時候,也可以不指定 Id,這時要改成 POST 請求。

curl -X POST 'localhost:9200/goods_list/goods_info' -d '
{
  "goods_name": "洗衣機",
  "category_name": "家電",
  "price": "899.99"
}'

如果沒有指定ID,那麼Elastic會隨機生成一串字串作為ID

{
    "_index": "goods_list",
    "_type": "goods_info",
    "_id": "AWub5f7FFq1D5epJJhqT",
    "_version": 1,
    "result": "created",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "created": true
}

檢視記錄

curl 'localhost:9200/goods_list/goods_info/1?pretty=true'

上面程式碼請求檢視/goods_list/goods_info/1這條記錄,URL 的引數pretty=true表示以易讀的格式返回。

返回的資料中,found欄位表示查詢成功,_source欄位返回原始記錄:

{
  "_index" : "goods_list",
  "_type" : "goods_info",
  "_id" : "1",
  "_version" : 1,
  "found" : true,
  "_source" : {
    "goods_name" : "華為筆記本",
    "category_name" : "計算機",
    "price" : "1000"
  }
}

如果 ID不正確,就查不到資料,found欄位就是false

curl 'localhost:9200/goods_list/goods_info/2?pretty=true'

ID=2並不存在,所以會返回以下結果:

{
  "_index" : "goods_list",
  "_type" : "goods_info",
  "_id" : "2",
  "found" : false
}

刪除記錄

curl -X DELETE 'localhost:9200/goods_list/goods_info/1'

PS:這裡先不要刪除這條記錄,後面還要用到。

更新記錄

curl -X PUT 'localhost:9200/goods_list/goods_info/1' -d '
{
    "user" : "華為筆記本",
    "title" : "計算機",
    "desc" : "5000"
}'

 

更新記錄就是使用 PUT 請求,重新傳送一次資料。

{
    "_index": "goods_list",
    "_type": "goods_info",
    "_id": "1",
    "_version": 2,
    "result": "updated",
    "_shards": {
        "total": 2,
        "successful": 1,
        "failed": 0
    },
    "created": false
}

 

返回結果裡面,有幾個欄位發生了變化:

"_version" : 2,
"result" : "updated",
"created" : false

 

資料查詢

返回所有記錄


curl 'localhost:9200/goods_list/goods_info/_search'
{
    "took": 127,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "failed": 0
    },
    "hits": {
        "total": 2,
        "max_score": 1,
        "hits": [
            {
                "_index": "goods_list",
                "_type": "goods_info",
                "_id": "AWub5f7FFq1D5epJJhqT",
                "_score": 1,
                "_source": {
                    "goods_name": "洗衣機",
                    "category_name": "家電",
                    "price": "899.99"
                }
            },
            {
                "_index": "goods_list",
                "_type": "goods_info",
                "_id": "1",
                "_score": 1,
                "_source": {
                    "user": "華為筆記本",
                    "title": "計算機",
                    "desc": "5000"
                }
            }
        ]
    }
}

 

上面程式碼中,返回結果的 took欄位表示該操作的耗時(單位為毫秒),timed_out欄位表示是否超時,hits欄位表示命中的記錄,裡面子欄位的含義如下:

  • total:返回記錄數,本例是2條。
  • max_score:最高的匹配程度,本例是1.0
  • hits:返回的記錄組成的陣列。

返回的記錄中,每條記錄都有一個_score欄位,表示匹配的程式,預設是按照這個欄位降序排列。

總結

這裡主要介紹了Elastic的安裝、基本概念以及資料的基本操作,在下一章帶來Elastic的分詞和全文搜尋以及相關的技術點。

原文地址

https://github.com/WilburXu/b...

相關文章