GridGain的資料湖加速器簡介
由 Hadoop 提供支援的資料湖是大規模分析和報告的絕佳選擇。Hadoop 可橫向擴充套件且具有成本效益,並可實現跨越大資料集的長期執行的操作。
實時分析用例的持續增長以及查詢操作和歷史資料集的需求——其中操作必須在幾秒鐘內完成而不是幾分鐘,或者幾毫秒而不是幾秒鐘——帶來了新的挑戰。然而,許多人繼續嘗試依靠資料湖來滿足新要求,而忽視了資料湖專為高延遲工作負載和批處理而設計的事實。
與此同時,常規的複雜分析必須與新的實時工作負載共存。例如,作為資料湖的 Hadoop 必須保持在精細的架構中,同時將實時操作解除安裝到更快的儲存。
GridGain 是通往包括 Hadoop 在內的資料湖實時分析的橋樑。GridGain 用作專用於低延遲和高吞吐量操作的 HTAP 儲存,而資料湖繼續用於長時間執行的 OLAP 工作負載。
GridGain Data Lake Accelerator 是一種解決方案架構,它支援對現有資料湖部署的運營和歷史資料孤島進行實時分析。以下是解決方案的主要組成部分:
首先,通過這種架構,GridGain 被部署為一個單獨的分散式儲存,它可以儲存從 Hadoop 預載入的資料,以實現低延遲操作和報告。資料位於跨 RAM、磁碟和英特爾傲騰持久記憶體的 GridGain 多層儲存中。
其次,應用層直接使用GridGain叢集。GridGain 為標準資料訪問模式提供 SQL 和鍵值 API,以及用於資料和計算密集型記憶體計算的計算(又名 map reduce)和機器學習介面,在網路上移動最少或沒有資料移動。
第三,每當應用程式需要執行聯合查詢或跨資料庫查詢時,其中操作將儲存在 GridGain 和 Hadoop 中的資料連線起來,它可以使用 Apache Spark。GridGain 與 Spark 整合,後者原生支援 Hive/Hadoop。當 GridGain 和 Hadoop 都不包含整個資料集時,應僅在有限數量的場景中考慮跨資料庫查詢。有關更多詳細資訊,請參閱跨資料庫查詢部分。
更多點選標題
相關文章
- 資料湖架構及概念簡介架構
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料湖
- 資料集簡介
- 資料湖中加熱資料?
- 資料立方體簡介
- 資料結構簡介資料結構
- MongoDB資料庫簡介MongoDB資料庫
- WIOD資料庫簡介資料庫
- oceanbase資料庫簡介資料庫
- HSQL 資料庫介紹(1)--簡介SQL資料庫
- Oracle - 資料庫的組成簡介Oracle資料庫
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 關於資料湖、資料倉儲的想法
- 資料湖--架構師如何助力“湖加速”?架構
- 大資料技術簡介大資料
- MySQL資料庫索引簡介MySql資料庫索引
- 資料Redpanda平臺簡介
- ffmpeg資料結構簡介資料結構
- Redis資料結構簡介Redis資料結構
- Hibernate資料校驗簡介
- Oracle:容器資料庫簡介Oracle資料庫
- 大資料框架原理簡介大資料框架
- clickhouse資料型別簡介資料型別
- Elasticsearch在資料湖中的地位Elasticsearch
- 基於Apache Hudi構建資料湖的典型應用場景介紹Apache
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 資料湖和中央資料倉儲的設計
- 讀資料湖倉05資料需要的層次
- 讀資料湖倉03不同型別的資料型別
- 讀資料湖倉08資料架構的演化架構
- 資料湖架構,為什麼需要“湖加速”?架構
- 讀資料湖倉06資料整合
- 讀資料湖倉02資料抽象抽象
- 對GaussDB資料庫和資料管理的簡單介紹資料庫
- H2 資料庫介紹(1)--簡介資料庫
- 阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料阿里
- 基於DataLakeAnalytics的資料湖實踐