ES 24 - 如何通過Elasticsearch進行聚合檢索 (分組統計)

瘦風發表於2019-08-02

原文網址 : https://www.cnblogs.com/shoufeng/p/11290669.html

1 普通聚合分析

1.1 直接聚合統計

(1) 計算每個tag下的文件數量, 請求語法:

GET book_shop/it_book/_search
{
    "size": 0,              // 不顯示命中(hits)的所有文件資訊
    "aggs": {
        "group_by_tags": {  // 聚合結果的名稱, 需要自定義(複製時請去掉此註釋)
            "terms": {
                "field": "tags"
            }
        }
    }
}

(2) 發生錯誤:

說明: 索引book_shop的mapping對映是ES自動建立的, 它把tag解析成了text型別, 在發起對tag的聚合請求後, 將丟擲如下錯誤:

{
    "error": {
        "root_cause": [
            {
                "type": "illegal_argument_exception",
                "reason": "Fielddata is disabled on text fields by default. Set fielddata=true on [tags] in order to load fielddata in memory by uninverting the inverted index. Note that this can however use significant memory. Alternatively use a keyword field instead."
            }
        ],
        "type": "search_phase_execution_exception",
        "reason": "all shards failed",
        "phase": "query",
        "grouped": true,
        "failed_shards": [......]
    },
    "status": 400
}

(3) 錯誤分析:

錯誤資訊: Set fielddata=true on [xxxx] ......
錯誤分析: 預設情況下, Elasticsearch 對 text 型別的欄位(field)禁用了 fielddata;
text 型別的欄位在建立索引時會進行分詞處理, 而聚合操作必須基於欄位的原始值進行分析;
所以如果要對 text 型別的欄位進行聚合操作, 就需要儲存其原始值 —— 建立mapping時指定fielddata=true, 以便通過反轉倒排索引(即正排索引)將索引資料載入至記憶體中.

(4) 解決方案一: 對text型別的欄位開啟fielddata屬性:

將要分組統計的text field(即tags)的fielddata設定為true:

PUT book_shop/_mapping/it_book
{
    "properties": {
        "tags": {
            "type": "text",
            "fielddata": true
        }
    }
}

可參考官方文件進行設定:
https://www.elastic.co/guide/en/elasticsearch/reference/6.6/fielddata.html. 成功後的結果如下:
```
{
  "acknowledged": true
}
```

再次統計, 得到的結果如下:

{
    "took": 153,
    "timed_out": false,
    "_shards": {
        "total": 5,
        "successful": 5,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": 4,
        "max_score": 0.0,
        "hits": []
    },
    "aggregations": {
        "group_by_tags": {
            "doc_count_error_upper_bound": 0,
            "sum_other_doc_count": 6,
            "buckets": [
                {
                    "key": "java",
                    "doc_count": 3
                },
                {
                    "key": "程",
                    "doc_count": 2
                },
                ......
            ]
        }
    }
}

(5) 解決方法二: 使用內建keyword欄位:

開啟fielddata將佔用大量的記憶體.

Elasticsearch 5.x 版本開始支援通過text的內建欄位keyword作精確查詢、聚合分析:

GET shop/it_book/_search
{
    size": 0,
    "aggs": {
        "group_by_tags": {
            "terms": {
                "field": "tags.keyword"   // 使用text型別的內建keyword欄位
          }
      }
    }
}

1.2 先檢索, 再聚合

(1) 統計name中含有“jvm”的圖書中每個tag的文件數量, 請求語法:

GET book_shop/it_book/_search
{
    "query": {
        "match": { "name": "jvm" }
    }, 
    "aggs": {
        "group_by_tags": {  // 聚合結果的名稱, 需要自定義. 下面使用內建的keyword欄位: 
            "terms": { "field": "tags.keyword" }
        }
    }
}

(2) 響應結果:

{
  "took" : 7,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 0.64072424,
    "hits" : [
      {
        "_index" : "book_shop",
        "_type" : "it_book",
        "_id" : "2",
        "_score" : 0.64072424,
        "_source" : {
          "name" : "深入理解Java虛擬機器：JVM高階特性與最佳實踐",
          "author" : "周志明",
          "category" : "程式語言",
          "desc" : "Java圖書領域公認的經典著作",
          "price" : 79.0,
          "date" : "2013-10-01",
          "publisher" : "機械工業出版社",
          "tags" : [
            "Java",
            "虛擬機器",
            "最佳實踐"
          ]
        }
      }
    ]
  },
  "aggregations" : {
    "group_by_tags" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "Java",
          "doc_count" : 1
        },
        {
          "key" : "最佳實踐",
          "doc_count" : 1
        },
        {
          "key" : "虛擬機器",
          "doc_count" : 1
        }
      ]
    }
  }
}

1.3 擴充套件: fielddata和keyword的聚合比較

為某個 text 型別的欄位開啟fielddata欄位後, 聚合分析操作會對這個欄位的所有分詞分別進行聚合, 獲得的結果大多數情況下並不符合我們的需求.
使用keyword內建欄位, 不會對相關的分詞進行聚合, 結果可能更有用.

推薦使用text型別欄位的內建keyword進行聚合操作.

2 巢狀聚合

2.1 先分組, 再聚合統計

(1) 先按tags分組, 再計算每個tag下圖書的平均價格, 請求語法:

GET book_shop/it_book/_search
{
    "size": 0, 
    "aggs": {
        "group_by_tags": {
            "terms": { "field": "tags.keyword" },
            "aggs": {
                "avg_price": {
                    "avg": { "field": "price" }
                }
            }
        }
    }
}

(2) 響應結果:

  "hits" : {
    "total" : 3,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_tags" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : "Java",
          "doc_count" : 3,
          "avg_price" : {
            "value" : 102.33333333333333
          }
        },
        {
          "key" : "程式語言",
          "doc_count" : 2,
          "avg_price" : {
            "value" : 114.0
          }
        },
        ......
      ]
    }
  }

2.2 先分組, 再統計, 最後排序

(1) 計算每個tag下圖書的平均價格, 再按平均價格降序排序, 查詢語法:

GET book_shop/it_book/_search
{
    "size": 0,
    "aggs": {
        "all_tags": {
            "terms": {
                "field": "tags.keyword", 
                "order": { "avg_price": "desc" } // 根據下述統計的結果排序
            },
            "aggs": {
                "avg_price": {
                    "avg": { "field": "price" }
                }
            }
        }
    }
}

(2) 響應結果:

與#2.1節內容相似, 區別在於按照價格排序顯示了.

2.3 先分組, 組內再分組, 然後統計、排序

(1) 先按價格區間分組, 組內再按tags分組, 計算每個tags組的平均價格, 查詢語法:

GET book_shop/it_book/_search
{
    "size": 0, 
    "aggs": {
        "group_by_price": {
            "range": {
                "field": "price", 
                "ranges": [
                    { "from": 00,  "to": 100 },
                    { "from": 100, "to": 150 }
                ]
            }, 
            "aggs": {
                "group_by_tags": {
                    "terms": { "field": "tags.keyword" }, 
                    "aggs": {
                        "avg_price": {
                            "avg": { "field": "price" }
                        }
                    }
                }
            }
        }
    }
}

(2) 響應結果:

  "hits" : {
    "total" : 3,
    "max_score" : 0.0,
    "hits" : [ ]
  },
  "aggregations" : {
    "group_by_price" : {
      "buckets" : [
        {
          "key" : "0.0-100.0",    // 區間0.0-100.0
          "from" : 0.0,
          "to" : 100.0,
          "doc_count" : 1,        // 共查詢到了3條文件
          "group_by_tags" : {     // 對tags分組聚合
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "Java",
                "doc_count" : 1,
                "avg_price" : {
                  "value" : 79.0
                }
              },
              ......
            ]
          }
        },
        {
          "key" : "100.0-150.0",
          "from" : 100.0,
          "to" : 150.0,
          "doc_count" : 2,
          "group_by_tags" : {
            "doc_count_error_upper_bound" : 0,
            "sum_other_doc_count" : 0,
            "buckets" : [
              {
                "key" : "Java",
                "doc_count" : 2,
                "avg_price" : {
                  "value" : 114.0
                }
              },
              ......
              }
            ]
          }
        }
      ]
    }
  }

版權宣告

作者: 馬瘦風(https://healchow.com)

出處: 部落格園馬瘦風的部落格(https://www.cnblogs.com/shoufeng)

感謝閱讀, 如果文章有幫助或啟發到你, 點個[好文要頂?] 或 [推薦?] 吧?

本文版權歸博主所有, 歡迎轉載, 但 [必須在文章頁面明顯位置標明原文連結], 否則博主保留追究相關人員法律責任的權利.

Elasticsearch 查詢結果分組統計,聚合檢索(group by stats)
2021-03-05
Elasticsearch
ElasticSearch進階檢索
2021-08-11
Elasticsearch
ES 筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
分組向量檢索
2024-11-25
ES：檢索
2018-11-07
ElasticSearch 實現分詞全文檢索 - 概述
2023-03-03
Elasticsearch分詞
ElasticSearch入門檢索
2021-08-09
Elasticsearch
Homestead 環境下安裝 Elasticsearch 並使用 scout 進行全文檢索
2020-04-01
Elasticsearch
ElasticSearch 實現分詞全文檢索 - delete-by-query
2023-03-15
Elasticsearch分詞delete
基於ElasticSearch實現商品的全文檢索檢索
2018-04-15
Elasticsearch
筆記六：通過 Analyzer 進行分詞
2019-10-15
筆記分詞
【翻譯】ES modules：通過漫畫進行深入理解
2018-04-16
ES 21 - Elasticsearch的高階檢索語法 (包括term、prefix、wildcard、fuzzy、boost等)
2019-06-28
Elasticsearch
Elasticsearch加速檢索的Tips總結
2018-09-11
Elasticsearch
Elasticsearch 第六篇：聚合統計查詢
2020-11-06
Elasticsearch
小試牛刀ElasticSearch大資料聚合統計
2021-01-21
Elasticsearch大資料
如何通過CRM進行遠端支援？
2022-02-16
ES 23 - 檢索和過濾的區別 (query vs. filter)
2019-07-31
Filter
通過ES-Hadoop實現Hive讀寫Elasticsearch資料
2020-09-30
HadoopHiveElasticsearch
PostgreSQL全文檢索-詞頻統計
2018-04-18
SQL
聚合函式及分組與過濾（GROUP BY … HAVING）
2020-11-01
函式
ES 筆記二十二：多語言及中文分詞與檢索
2019-11-17
筆記中文分詞
昆蟲分類與檢索系統的設計與開發
2019-02-15
springboot ElasticSearch 簡單的全文檢索高亮
2019-01-19
Spring BootElasticsearch
通過 Spring 框架如何進行JDBC操作呢？
2020-09-30
Spring框架JDBC
Mac系統如何通過自帶的工具進行磁碟修復
2021-12-03
Mac
laravel Es搜尋檢索高亮顯示
2022-03-13
Laravel
SQL-分組聚合 - 單欄位分組
2024-12-04
SQL
Elasticsearch 聚合
2021-03-17
Elasticsearch
通過串列埠進行通訊 :
2018-03-27
串列埠
條件過濾檢索
2024-11-07
如何給一個下拉選項進行分組？
2024-11-28
dhtmlxGantt如何對任務進行分組使用教程
2021-03-17
HTML
[轉]23個最有用的Elasticsearch檢索技巧
2018-08-24
Elasticsearch
ElasticSearch 億級資料檢索案例實戰
2019-12-06
Elasticsearch
Elasticsearch 8.X：這個複雜的檢索需求如何實現？
2023-09-25
Elasticsearch
Elasticsearch 指令碼分組
2019-01-15
Elasticsearch指令碼
Oracle OCP(15)：分層檢索
2019-01-24
Oracle

ES 24 - 如何通過Elasticsearch進行聚合檢索 (分組統計)

1 普通聚合分析

1.1 直接聚合統計

1.2 先檢索, 再聚合

1.3 擴充套件: fielddata和keyword的聚合比較

2 巢狀聚合

2.1 先分組, 再聚合統計

2.2 先分組, 再統計, 最後排序

2.3 先分組, 組內再分組, 然後統計、排序

版權宣告

相關文章