大資料技術 - Druid

元亨利貞發表於2023-12-05

介紹

Apache Druid 是一個開源的分散式資料儲存引擎,它融合了時間序列資料庫、資料倉儲和全文檢索系統的特性,以創造一個適用廣泛用例的統一系統。

特點

亞秒響應的互動式查詢:支援較高併發。

實時匯入:匯入的資料即可被查詢,支援高併發匯入。

分散式架構:採用分散式 shared-nothing 的架構,可以擴充套件到PB級。

支援聚合函式:包括 count 和 sum,以及使用 javascript 實現自定義 UDF。

支援複雜的 Aggregator:例如 HyperLoglog 以及 Yahoo 開源的 DataSketches。

支援多種查詢:包括 Groupby,Select,Search查詢。

資料的預聚合:Druid 可以按照給定的時間粒度和所有維度列,進行最細粒度的指標聚合運算,並加以儲存為原始資料。

列式儲存:對部分列進行查詢時可以顯著提高效率。

Bitmap 索引:利用點陣圖對所有維度列構建索引,可以快速定位資料行。

場景

點選流分析:衡量使用者參與度,為產品釋出追蹤A/B測試資料,並瞭解使用者使用方式。

網路流分析:管理以任意屬性切分組合的流資料。

儲存伺服器指標:收集機器生成的實時資料,執行快速臨時的分析,去估量效能,最佳化硬體資源,和定位問題。

應用效能指標:追蹤應用程式生成的可運營資料。

數字市場分析:儲存和查詢線上廣告資料。

OLAP和商業智慧:經常用於商業智慧場景。


文章推薦

https://mp.weixin.qq.com/s/c0mX3Gsy0Vphqhy0cH3p2g

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024433/viewspace-2998722/,如需轉載,請註明出處,否則將追究法律責任。

相關文章