湖倉一體技術架構到底有什麼價值?

danny_2018發表於2024-01-29

隨著大資料技術的發展,湖倉一體資料平臺已經成為主流的技術架構了,但是湖倉一體技術架構到底能給客戶或者使用方帶來哪些價值了?本文從以下幾個方面來探討:

常規湖上建倉有什麼問題?

湖倉一體架構的實際價值

湖倉一體資料平臺的市場情況

湖倉一體的主要發展趨勢

01

湖上建倉有什麼問題?

湖上建倉不是真的湖倉一體

湖上建倉將資料湖和資料倉儲結合起來,實現了多源異構資料的ETL到資料湖的整合和儲存,並進一步ETL到資料倉儲,支援資料分析、資料科學、資料探勘、機器學習以及深度學習等多種計算分析引擎的訪問。

然而,湖上建倉並沒有完全解決資料一致性和資料冗餘等問題,也未實現資料的統一管理。此外,從資料湖到資料倉儲的ETL過程也帶來了複雜性。湖上建倉架構存在以下不足之處:

1、資料質量不可靠:資料從資料湖ETL到資料倉儲時,需要經過多個流式引擎進行處理來保證資料湖和資料倉儲之間的資料一致性。相比傳統的批處理方式,這增加了操作的複雜性,並且難以保證可靠性,容易產生資料一致性問題。

2、未實現對非結構化資料的ACID事務支援:資料湖中的大部分資料仍然是非結構化的,而資料倉儲並不支援對資料湖中資料的治理。因此,資料湖中的資料仍然不支援ACID事務。

3、未消除資料冗餘:湖上建倉實際上是將資料湖和資料倉儲進行了兩層架構的融合,同一份資料仍然以不同的方式儲存在資料湖和資料倉儲中,因此資料冗餘並沒有完全消除。

4、資料倉儲不支援機器學習和資料探勘等計算引擎:像TensorFlow和PyTorch這樣的機器學習和深度學習框架需要使用非SQL程式碼來處理大規模資料集,無法直接訪問資料倉儲內部的資料格式,因此不適用於資料倉儲系統。

02

湖倉一體的真正價值

湖倉融合才是真的湖倉一體

湖倉融合是將資料湖的低成本儲存和資料倉儲的高效分析能力相結合,透過事務層實現後設資料統一,解決資料孤島、資料冗餘的問題,並提供多種工作負載的實時、準確的資料支援,加速資料共享和價值挖掘。

在資料湖上增加事務層是湖倉融合的關鍵。事務層提供諸如事務管理、統一後設資料、索引、事務版本和狀態控制、資料目錄以及湖表格式支援等功能。事務層使得使用者可以靈活地從多種計算引擎中讀取不同型別的資料,如BI、視覺化、資料科學和機器學習。同時,事務層還具備ACID事務性,實現了對結構化資料、半結構化資料和非結構化資料的統一管理。目前已經有多個資料湖解決方案,如Delta Lake、Apache Iceberg和Apache Hudi,實現了在資料湖上的事務層功能。

另外,在滿足實時分析需求、處理大規模資料以及資源動態擴充套件等需求的驅動下,存算分離和批流一體成為湖倉融合的必備功能。此外,對於多資料來源系統,湖倉融合還可以透過資料虛擬化實現多源系統資料資產的統一管理。湖倉一體提供了一站式資料平臺能力,覆蓋了資料採集、資料開發、資料治理、資料資產管理、資料建模分析和資料服務等全鏈路資料能力,更好地滿足了企業的需求。

以下展示了湖上建倉和湖倉一體的功能區別:

湖倉一體資料平臺的真正價值

1、湖倉一體在資料計算、資料管理和資料應用方面都具有明顯優勢,能更好地滿足企業的資料資產統一管理需求。

在資料計算方面,湖倉融合路線實現了基於一套資料的開發、計算和管理,徹底消除了資料冗餘,具備了ACID事務性、存算分離、批流一體和實時分析等方面的明顯優勢。

在資料管理方面,湖倉融合採用了先進的資料工程和資料管理理念,透過一套資料支援實現資料工程的DataOps和Data Fabric的概念。

在資料應用方面,湖倉融合可以支援BI、視覺化、資料科學、機器學習等多種資料應用場景,實現了多場景融合分析。

2、湖倉融合還能降低資料遷移的風險和成本,為大中型企業的數字化轉型提供成熟的解決方案。

在數字化轉型過程中,大中型企業通常存在資料湖、資料倉儲、專用資料庫、雲端儲存、大資料平臺和流資料處理平臺等多種系統共存的複雜架構。而湖倉融合需要企業將已有系統中的資料遷移到新的資料湖,用新的湖倉引擎替代舊有的數倉和資料湖引擎,並在湖倉一體的基礎上實現資料的統一儲存、開發和管理。這種遷移不僅存在巨大的成本和安全風險,還要求企業放棄原有的資料倉儲、資料湖等架構,導致原有架構的效能被浪費。

相比之下,湖倉一體可以透過資料虛擬化的方式以邏輯的方式統一組織、管理和共享資料庫、資料倉儲、資料湖和雲上資料,從而降低資料遷移的風險和成本。

03

湖倉一體的主要發展趨勢

目前所有湖倉一體的廠家的基本情況如下圖所示:

1、雲廠家行業佈局:依託於雲能力面向政府政務和網際網路企業提供湖倉解決方案,如華為側重政府政務,阿里雲面向網際網路。

2、資料庫行業佈局:優先在資料庫、資料倉儲的深入性行業如金融、政府提供服務。

3、資料中臺行業佈局:優先服務零售消費、先進製造、生物醫藥等新經濟行業的集團型企業以及部分金融企業。

4、大資料行業佈局:以獨立引擎提供相容性的湖倉能力,可在金融、政府、能源、零售、汽車等全行業實現落地。

2022 年,在湖倉一體平臺軟體市場中,科傑科技市場份額佔比 11.1%,位居第一。華為雲、星環科技市場份額佔比分別為 9.5%、7.3%,分別位列第二、第三。

未來湖倉一體的重要發展方向有兩個:

1)雲原生是一套全新的IT技術體系,包括容器、Kubernetes、微服務、服務網格、DevOps、可觀測等關鍵技術。雲原生技術具有松耦合、自動化、彈性排程、計算資源按需分配、高容錯性等特點,可以充分發揮湖倉一體平臺的價值。具體原因如下:

關鍵元件採用容器化封裝,提升部署交付效率,更靈活滿足各類企業的業務需求。

實現存算分離,降低資料儲存成本,提升資料計算效率。

自動化編排和排程,降低湖倉一體平臺的運維成本。

2)DataOps和Data Fabric是可以增強湖倉一體平臺的應用價值,並提升其競爭優勢的先進概念。

DataOps是一種先進的資料工程理念,涵蓋了資料獲取、資料整合、資料準備、資料治理、資料分析與建模等全流程。它提供了資料協作、資料開發、資料部署、編排、測試與監控等功能,可以顯著提高資料開發管理效率。

Data Fabric作為一種前沿的資料管理理念,能夠實現主動實時的資料治理。不同於傳統的被動資料集中管控和集中治理,Data Fabric透過後設資料主動發現功能可以自動檢測資料來源的變化,並通知下游使用資料的演算法和模型。此外,它還可以提前判斷資料的可預測性錯誤併發出警告,增強湖倉一體平臺中的資料標準、主資料管理、資料質量和資料資產目錄等功能。

Data Fabric是一種儲存和管理資料的架構,它可以將分佈在不同地點、不同環境中的資料整合在一起,併為使用者提供統一的訪問和管理介面。Data Fabric具有以下特點:

1、分散式儲存:Data Fabric可以在多個地點同時儲存資料,實現資料的分散式儲存和備份,提高資料的可用性和容錯性。

2、彈性伸縮:Data Fabric可以根據實際需求靈活調整儲存和計算資源,從而實現在不同規模和負載下的彈性伸縮。

3、資料整合:Data Fabric可以將多種資料來源的資料整合在一起,包括結構化資料、半結構化資料和非結構化資料,為使用者提供統一的訪問介面。

4、資料管理:Data Fabric提供了資料管理的功能,包括資料的索引、查詢、版本控制和許可權管理,便於使用者對資料進行有效的管理和控制。

5、資料安全:Data Fabric具有完善的安全機制,可以對資料進行加密、許可權控制和資料備份,確保資料的安全性和可靠性。

來自 “ ruby的資料漫談 ”, 原文作者:ruby的資料漫談;原文連結:https://mp.weixin.qq.com/s/z79nuEa0IxkOQ17OZBZRzg,如有侵權,請聯絡管理員刪除。

相關文章