- Elasticsearch除搜尋以外,提供的針對ES資料進行統計分析的功能
- 實時性
- Hadoop (T+1)
- 通過聚合,我們會得到一個資料的概念,是分析和總結全套的資料,而不是尋找單個文件
- 尖沙咀和香港島的客房數量
- 不同的價格區間,可預定的經濟型酒店和五星級酒店的數量
- 高效能,只需要一條語句,就可以從ES得到分析結果
- 無需再客戶端自己去實現分析邏輯
- Bucket Aggregation - 一些列滿足特定條件的文件的集合
- Metric Aggregation - 一些數學運算,可以對文件欄位進行統計分析
- Pipeline Aggregation - 對其他的聚合結果進行二次聚合
- Matrix Aggregation - 支援對多個欄位的操作並提供一個結果矩陣
- Metric - 一些系統的統計方法(類似 count)
- Bucket - 一組滿足條件的文件(group by)
Bucket
- 一些例子
- 杭州屬於浙江 / 演員是男或女
- 巢狀關係 - 杭州屬於浙江屬於中國屬於亞洲
- ES 提供了許多的型別的Bucket,幫助用多種方式劃分文件
- Tern & Range (時間 / 年齡區間 / 地理位置)
- Tern & Range (時間 / 年齡區間 / 地理位置)
Metric
- Metric 會基於資料集計算結果,除了支援在欄位上進行計算,同樣也支援在指令碼(painless script)產生的結果之上進行計算
- 大多數Metric是數學計算,僅輸出一個值
- min / max / sum / avg /cardinality
- 部分metric 支援輸出多個數值
- stats / percentiles / percentile_ranks
Demo
本作品採用《CC 協議》,轉載必須註明作者和本文連結