小試牛刀ElasticSearch大資料聚合統計

beetlex發表於2021-01-21

ElasticSearch相信有不少朋友都瞭解，即使沒有了解過它那相信對ELK也有所認識E即是ElasticSearch。ElasticSearch最開始更多用於檢索，作為一搜尋的叢集產品簡單易用絕對是一個非常不錯的選擇，其實本人早在ElasticSearch v0.2的時候就使用，一轉眼數年過去現在都7.X了。

其實ElasticSearch除了提供強大的叢集化搜尋服務外，它提供一個aggregation功能會再一次讓你受到它的強大，aggregation是一個資料統計彙總功能，表面上這功能在關聯式資料庫上也可以做，但結合分詞建維度就更能體現出它的靈活之處。

關聯式資料庫問題

拿產品訂單為例，它有產品分類，不同的規格，銷售人，客戶和地區等；然而這些資訊在設計上都是歸納到不同的表中，如果要針對這些不同的資訊來統計訂單銷售情況那相信是一件非常繁瑣和效率極其低下的工作（先不說資料數千萬了上億或更大規模，就算幾十上百萬資料這個關係資料的SQL查詢也夠受了）。即便可以把資料抽取並歸納起來做統計，但隨著新的資料維度增加新的維度欄位重新呼叫。

無維度欄位？

在資料統計每個維度都對一個資訊列來儲存，這樣加入維度必須就需要新增資訊列。如果用一個欄位儲存所有維度資訊呢？顯然這種想法在傳統關聯式資料庫中也不可能的，因為無法做表的關聯和維度區分，其實不要說傳統資料庫很多資料庫都無法在一個字元中拆分出不同的維度出來，除非加入程式來切分，但這種法在資料規模大的情況必然是不可取的!

如果用一個欄位就能儲存所有維度，那就意味著以後加入新的維度資料也無須調整結構和程式就實現新維護度資料的統計處理。這看上去多麼美好，似乎也很難實現，但ElasticSearch能解決這一問題。

試驗

首先ElasticSearch是一個搜尋引擎，它最擅長的工作是對內容進行分詞並構建索引；在這機制下可以對一個欄位的資訊進行拆分並儲存到索引上。通過這一特性同樣可以把一個欄位的資訊切分成N個維度的資訊，然後儲存到索引；只要有了單一的維度索引那接下來針對不同維護的彙總統計就簡單了。

在單節點的ElasticSearch上建立了5千萬條產品銷售資料；然後Tag欄位儲存對應的維度資訊，每個維度通過/來區分，分別有:customer,employee,country和category.有了這些資訊，接下來的工作是嘗試使用Aggr功能來完成相應的彙總

var query = db.Index.CreateQuery();
query.Prefix("Tag", "客戶");
var aggs = db.Index.CreateAggs("customer_group", 
     Elasticsearch.Search.AggsType.terms, "Tag");
aggs.SubAggs("sum_quantity", Elasticsearch.Search.AggsType.sum, "Quantity");
aggs.SubAggs("sum_total", Elasticsearch.Search.AggsType.sum, "Total");
aggs.Size(5);
aggs.Query = query;
var items = await aggs.Execute<OrderRecord>();

程式碼並不複雜，查詢Tag標籤存在customer的資料，並對它們進行一個分組，最後再彙總出對應的Quantity和Total資訊；最後獲取排在最前面的5條資料。

效率

ElasticSearch做這方面的效率怎樣呢？部署在一個節點上，分別彙總了客戶，國家和員工。

5千萬條(單機單節點)

5千萬條(單機雙節點)

這個時間是在不停更新索引下同時做統計的結果，當在索引不更新的情況其二次處理效率會高上幾倍。

靜態歷史資料

上面紹了ElasticSearch對大資料一個聚合效率做了一個測試，那測試是基於動態資料測試，即在聚合測試的過程中同時大量更新索引資料；接下來做的測試則是針對固定的歷史資料，在聚合測試過程中不進行資料更新。

測試資料環境

5千萬條件產品銷售資料，分佈在2000-2020間，所有資料部署在單機雙節點的服務中。

測試過程

分別彙總每一年的員工，國家和分類資料，並顯示最前面的3條記錄。

int top = 3;
for (int i = 2000; i < 2020; i++)
{
    DateTime start = new DateTime(i, 1, 1);
    DateTime end = new DateTime(i + 1, 1, 1);
    var result = await db.AggsTag("國家", top, start, end, null);
    Console.WriteLine($"|  {result.Title} use {result.UseTime:###,###.00}ms");
    Console.WriteLine($"|-{"".PadLeft(89, '-')}|");
    foreach (SummaryItem item in result.Items)
    {
        Print(item);
    }

    result = await db.AggsTag("分類", top, start, end, null);
    Console.WriteLine($"|  {result.Title} use {result.UseTime:###,###.00}ms");
    Console.WriteLine($"|-{"".PadLeft(89, '-')}|");
    foreach (SummaryItem item in result.Items)
    {
        Print(item);
    }

    result = await db.AggsTag("員工", top, start, end, null);
    Console.WriteLine($"|  {result.Title} use {result.UseTime:###,###.00}ms");
    Console.WriteLine($"|-{"".PadLeft(89, '-')}|");
    foreach (SummaryItem item in result.Items)
    {
        Print(item);
    }
}

測試結果

從測試結果來看效率非常出色，每個年分類聚合統計所損耗的時候大概在0.1秒。

ElasticSearch學習一-小試牛刀
2019-03-03
Elasticsearch
Laravel 事件系統（一）、小試牛刀
2018-09-03
Laravel事件
Celery：小試牛刀
2021-03-09
Elasticsearch 系列（五）- 資料聚合
2024-03-31
Elasticsearch
vite plugins小試牛刀
2024-08-10
VitePlugin
nodejs redis 小試牛刀
2024-10-25
NodeJSRedis
Jena ARQ小試牛刀
2018-04-14
貼吧小試牛刀
2018-03-26
第2章牛刀小試
2018-11-12
spring篇（一）牛刀小試
2020-10-20
Spring
Elasticsearch 第六篇：聚合統計查詢
2020-11-06
Elasticsearch
Java11 HttpClient小試牛刀
2019-03-04
JavaHTTPclient
分散式鎖--Redis小試牛刀
2018-08-09
分散式Redis
Jmeter介面測試例項-牛刀小試
2019-07-14
JMeter
Elasticsearch 聚合
2021-03-17
Elasticsearch
Vue.js 牛刀小試（持續更新~~~）
2018-08-28
Vue.js
python定時任務之小試牛刀
2024-11-25
Python
Abp小試牛刀之圖片上傳
2020-12-27
Flink 狀態管理與checkPoint資料容錯機制深入剖析-Flink牛刀小試
2018-11-24
ElasticSearch聚合分析
2018-08-19
Elasticsearch
ElasticSearch 聚合分析
2021-02-24
Elasticsearch
python小試牛刀： K-best演算法
2020-11-04
Python演算法
【小試牛刀】Stage-2 裝飾器初探
2019-01-31
constraintayout新功能montionLayout寫動畫小試牛刀
2020-12-31
AI動畫
Flink Window分析及Watermark解決亂序資料機制深入剖析-Flink牛刀小試
2019-03-04
elasticsearch 聚合之 date_histogram 聚合
2022-11-30
ElasticsearchHistogram
Elasticsearch 查詢結果分組統計,聚合檢索(group by stats)
2021-03-05
Elasticsearch
elasticsearch之metric聚合
2022-12-27
Elasticsearch
大資料測試與傳統資料庫測試
2019-08-07
大資料資料庫
Golang框架Beego在Windows環境下小試牛刀
2018-09-17
Golang框架Windows
Golang框架beego電影網爬蟲小試牛刀
2018-09-25
Golang框架爬蟲
【小白學PyTorch】8 實戰之MNIST小試牛刀
2020-09-09
PyTorch
ES 24 - 如何通過Elasticsearch進行聚合檢索 (分組統計)
2019-08-02
Elasticsearch
Elasticsearch聚合學習之二：區間聚合
2022-09-14
Elasticsearch
解密！傳統測試 vs 大資料測試
2020-10-19
解密大資料
雲端計算大資料面試題，雲端計算大資料面試題集錦
2019-06-19
大資料面試題
極速匯入elasticsearch測試資料
2022-09-11
Elasticsearch
【Vue.js 牛刀小試】05：第五章 - 計算屬性與監聽器
2018-11-08
Vue.js

小試牛刀ElasticSearch大資料聚合統計

相關文章