大資料湖倉一體架構對分散式儲存有哪些技術需求?

danny_2018發表於2023-12-22

分散式儲存作為湖倉一體技術的重要支撐,也隨著湖倉一體技術在不斷演進。作為儲存系統,除了提供原有的資料共享訪問、靈活擴充套件、快照、克隆、容災等功能外,還需要為湖倉一體的上層應用提供特定的服務能力。

隨著雲端計算、大資料的快速發展,資料體量急速增長,與之相應,資料管理技術也在快速演進,其中,就包括湖倉一體( Lakehouse )技術。在諮詢公司 Gartner 釋出的“資料管理技術成熟度曲線”中,湖倉一體技術處於高速發展階段。

按照雲端計算提供商亞馬遜的定義,湖倉一體是一種新的資料管理模式,它將資料倉儲和資料湖兩者之間的差異進行融合,並將資料倉儲構建在資料湖上,從而有效簡化了企業資料的基礎架構,提升資料儲存彈性和質量的同時還能降低成本,減小資料冗餘。

湖倉一體架構中所包含的資料既有“倉裡”的結構化資料,更多的則是“湖裡”的半結構化和非結構化資料。資料湖倉一體架構主要一點是實現“湖裡”和“倉裡”的資料能夠無縫打通,對資料倉儲的彈性和資料湖的靈活性進行有效整合,讓湖中的資料可以”流到“資料倉中,並能直接進行資料呼叫;而資料倉中的資料也可以儲存於資料湖中,供未來資料探勘使用。在該架構中,主要將資料湖作為中央儲存庫,將機器學習、資料倉儲、日誌分析、大資料等技術進行整合,形成一套資料服務環,更好地分析、整合資料,讓資料倉儲和資料湖中的資料可以自由流動,使用者可以更便捷地調取其中的資料,讓資料“入湖”、“出湖”更為便捷。

湖倉一體技術不是憑空產生的,它是在資料倉儲和資料湖的基礎上發展而來的。從資料管理架構的發展來看,湖倉一體技術的發展可分為三個階段。第一階段是上世紀 80 年代開始的“資料倉儲”階段,第二階段是 2012 年伴隨著大資料發展普及而產生的“資料湖”技術,第三階段就是近年來開始的資料湖與資料倉儲的融合趨勢,即“湖倉一體”。

近年來,各大雲端計算廠商以及眾多的 Startup 公司紛紛推出自己的湖倉一體技術方案。典型國外廠商如 Amazon 的 Redshift Spectrum,Microsoft 的 Asure Synapse Analytics,Google 的Dataplex,Databrics 的 Lakehouse Platform 等;國內廠商如阿里雲的 Maxcompute,騰訊雲的雲原生資料湖,華為雲的 Fusion Insight 等。

分散式儲存作為湖倉一體技術的重要支撐,也隨著湖倉一體技術在不斷演進。作為儲存系統,除了提供原有的資料共享訪問、靈活擴充套件、快照、克隆、容災等功能外,還需要為湖倉一體的上層應用提供特定的服務能力。圖示如下:

儲存資源池首先要提供的就是多協議融合儲存能力。

湖倉一體架構中的資料是異構、多源、海量的。既包含以 S3 寫入的物件儲存資料、也包括以 HDFS/NFS/CIFS/FTP 等寫入的檔案資料 , 還包含以 iSCSI/FC 等寫入的塊儲存資料,以及特定私有 API 寫入的儲存資料。要使湖倉內資料高效流動,就必須實現多種儲存訪問協議間的 IO 語義互通,在後設資料的層面打通不同儲存協議間的壁壘。這樣,在不同的協議訪問同一份資料時,就不再需要資料轉換和複製,從而大幅提升資料儲存、轉換、處理效率。

除了多協議融合的基本能力,儲存資源池還需要提供快取服務、運算元解除安裝、後設資料服務、資料分層和流動等高階能力。

快取服務

從整體架構上說,要達到良好的資料加速效果,快取服務需要在計算層面和資料儲存層面進行統一考慮。在計算層面,首先要具備本地的應用快取能力。基於特定的應用,基於區域性性原理(時間區域性性和空間區域性性),實現資料和後設資料的快取。基於應用的快取層,一方面可以提升資料訪問速度,還可以提升資料使用效率(避免對於遠端資料(其他 AZ 的資料,甚至第三方雲平臺資料)的重複訪問)。在儲存層面,基於本地資料的訪問熱度提供快取服務。這個快取服務既可以以快取池的形式,也可以以分級儲存熱資料層的形式提供。不管哪種形式,都可以為本地或者遠端提供低時延、高吞吐的訪問效能。對於寫快取,目前已經有較為成熟的 IO 聚合方法;對於讀快取,目前一些廠商在探索利用 AI 方法進行智慧預讀提升命中率。

運算元解除安裝

運算元解除安裝主要是利用儲存系統的算力以及資料佈局特點對資料進行高效的處理,實現訪問加速。一個熟知的運算元解除安裝的例子是 VMWare 的 VAAI 介面。目前已有的運算元解除安裝應用包括影片處理的流直存、資料庫的 SQL 查詢加速、 KV 訪問加速等。

後設資料服務

提供後設資料的多維檢索、標記、批次變換等操作。這裡的後設資料是指從儲存協議( S3/NFS/HDFS 等)角度看的後設資料,非應用角度後設資料。在湖倉上層應用處理過程中,往往涉及對海量小檔案後設資料的查詢,由儲存層提供特定的後設資料訪問引擎,可以大幅提升資料處理效率。

資料分層和流動

這裡的資料分層和流動既包含本地資料的分層和流動,也包含不同資料中心間的資料分層和流動。資料的訪問和處理往往具有一定的時效性特徵,為了取得良好的價效比,資料會儲存在 SSD、HDD、磁帶、藍光等不同介質中;為了保證的更高可靠性,還可能在多個資料中心儲存冗餘資料。此時,全域性最佳化的資料儲存策略以及智慧的資料排程演算法可以助力資料分層和流動效率的提升。

來自 “ twt社群 ”, 原文作者:xianghezhang;原文連結:https://mp.weixin.qq.com/s/1mqWSejjXGxA6krF90wA0w,如有侵權,請聯絡管理員刪除。

相關文章