GridGain的資料湖加速器簡介

banq發表於2021-12-26

Hadoop 提供支援的資料湖是大規模分析和報告的絕佳選擇。Hadoop 可橫向擴充套件且具有成本效益,並可實現跨越大資料集的長期執行的操作。

實時分析用例的持續增長以及查詢操作和歷史資料集的需求——其中操作必須在幾秒鐘內完成而不是幾分鐘,或者幾毫秒而不是幾秒鐘——帶來了新的挑戰。然而,許多人繼續嘗試依靠資料湖來滿足新要求,而忽視了資料湖專為高延遲工作負載和批處理而設計的事實。

與此同時,常規的複雜分析必須與新的實時工作負載共存。例如,作為資料湖的 Hadoop 必須保持在精細的架構中,同時將實時操作解除安裝到更快的儲存。

GridGain 是通往包括 Hadoop 在內的資料湖實時分析的橋樑。GridGain 用作專用於低延遲和高吞吐量操作的 HTAP 儲存,而資料湖繼續用於長時間執行的 OLAP 工作負載。

GridGain Data Lake Accelerator 是一種解決方案架構,它支援對現有資料湖部署的運營和歷史資料孤島進行實時分析。以下是解決方案的主要組成部分:

GridGain的資料湖加速器簡介

首先,通過這種架構,GridGain 被部署為一個單獨的分散式儲存,它可以儲存從 Hadoop 預載入的資料,以實現低延遲操作和報告。資料位於跨 RAM、磁碟和英特爾傲騰持久記憶體的 GridGain 多層儲存中。

其次,應用層直接使用GridGain叢集。GridGain 為標準資料訪問模式提供 SQL 和鍵值 API,以及用於資料和計算密集型記憶體計算的計算(又名 map reduce)和機器學習介面,在網路上移動最少或沒有資料移動。

第三,每當應用程式需要執行聯合查詢或跨資料庫查詢時,其中操作將儲存在 GridGain 和 Hadoop 中的資料連線起來,它可以使用 Apache Spark。GridGain 與 Spark 整合,後者原生支援 Hive/Hadoop。當 GridGain 和 Hadoop 都不包含整個資料集時,應僅在有限數量的場景中考慮跨資料庫查詢。有關更多詳細資訊,請參閱跨資料庫查詢部分。

更多點選標題

相關文章