談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係

ITPUB社群發表於2023-01-28

Data Fabric 和 Data Mesh 是新興的資料管理概念,旨在解決組織變革以及在混合多雲生態系統中理解、管理和使用企業資料的複雜性。這兩個資料架構概念是互補的。但究竟什麼是資料編織和資料網格,如何使用這些資料管理解決方案來利用企業資料來做出更好的決策?

一 什麼是資料編織

Gartner 將資料編織定義為“一種設計概念,用作資料和連線過程的整合層。資料編制利用對現有的、可發現的和推斷的後設資料的持續分析來支援跨所有環境(包括混合和多雲平臺)的整合和可重用資料集的設計、部署和利用。”

資料編織架構方法可以簡化組織中的資料訪問,並促進大規模的自助資料消費。這種方法打破了資料孤島,為塑造資料治理、資料整合、單一事實檢視和可信賴的人工智慧實施以及其他常見行業用例提供了新的機會。換句話說,資料訪問、資料整合和資料保護的障礙被最小化,為終端使用者提供最大的靈活性。

談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係

使用這種方法,組織不必將所有資料移動到一個位置或資料儲存,也不必採用完全分散的方法。相反,資料編織架構意味著需要在邏輯上或物理上分散的內容與需要集中的內容之間取得平衡。由於這種平衡,可以參與資料編織生態系統的專用資料儲存的數量沒有限制。這意味著將獲得一個全域性資料目錄,該目錄用作抽象層、單一事實來源和具有注入治理的單點資料訪問。

二 資料編織的六個核心功能

1.知識目錄:此抽象層為360度客戶檢視提供對資料的通用業務理解,從而實現透明度和協作。知識目錄充當一個圖書館,其中包含有關資料的見解。為了幫助瞭解資料,該目錄包含業務詞彙表、分類法、資料資產(資料產品)以及相關資訊,例如質量得分、與每個資料元素關聯的業務術語、資料所有者、活動資訊、相關資產等。

2.自動資料豐富:要建立知識目錄,需要自動資料管理服務。這些服務包括自動發現和分類資料、檢測敏感資訊、分析資料質量、將業務術語連結到技術後設資料以及將資料釋出到知識目錄的能力。為了處理企業內部如此龐大的資料量,自動化資料豐富需要由機器學習驅動的智慧服務。

3.自助服務管理資料訪問:這些服務使使用者能夠輕鬆地查詢、理解、操作和使用具有關鍵管理功能的資料,例如資料分析、資料預覽、向資料集新增標籤和註釋、在專案中協作以及使用 SQL 介面在任何地方訪問資料或 API。

談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係

4.智慧整合:資料整合功能對於提取、攝取、流式傳輸、虛擬化和轉換資料至關重要,無論資料位於何處。使用旨在同時最大化效能和最小化儲存和訪問成本的資料策略,智慧整合有助於確保資料隱私。保護應用於每個資料管道。

5.資料治理、安全性和合規性:使用資料編制,可以透過統一且集中的方式來建立策略和規則。透過後設資料(例如資料分類、業務術語、使用者組、角色等)自動將這些策略和規則連結到各種資料資產的能力很容易獲得。這些政策和規則,包括資料訪問控制、資料隱私、資料保護和資料質量,然後可以在資料訪問或資料移動期間在所有資料中大規模應用和強制執行。

6.統一生命週期:端到端生命週期,使用 MLOps 和 AI 在統一體驗中組合、構建、測試、部署、編排、審查和管理資料編制的各個方面,例如資料管道。

Data Fabric 架構的這六項關鍵功能使資料消費者能夠更加信任和自信地使用資料。無論資料是什麼,或駐留在何處——無論是在傳統資料中心還是混合雲環境中,在傳統資料庫或 Hadoop、物件儲存或其他地方——Data Fabric 架構都為資料訪問和使用提供了一種簡單且整合的方法,為使用者提供自助服務並使企業能夠使用資料來最大化其價值鏈。

三 什麼是資料網格

根據 Forrester 的說法,“資料網格是一種分散的社會技術方法,用於在複雜和大規模的環境中共享、訪問和管理分析資料——在組織內部或跨組織使用。”

Data Mesh的主要目標是超越利用資料倉儲和資料湖的傳統集中式資料管理方法。Data Mesh 透過賦予資料生產者和資料消費者訪問和管理資料的能力來強調組織敏捷性的理念,而無需將任務委託給資料湖或資料倉儲團隊。Data Mesh 的分散方法將資料所有權分配給特定領域的組,這些組將資料作為產品提供服務、擁有和管理。

Data Mesh 的實施提高了希望在不確定的經濟環境中蓬勃發展的組織的組織敏捷性。所有組織都需要能夠以低成本、高回報的方式應對環境變化。引入新的資料來源、需要遵守不斷變化的監管要求或滿足新的分析要求都是促使組織資料管理活動發生變化的驅動因素。當前的資料管理方法通常基於操作和分析系統之間複雜且高度整合的 ETL,這些系統努力及時改變以在面對這些驅動因素時及時支援業務需求。Data Mesh 的目的是針對資料提供一種更具彈性的方法,以有效地響應這些變化。

四 資料網格的四個基本原則

是由Zhamak Dehghani在2019 年創造的,基於四個基本原則:

領域所有權原則要求領域團隊對其資料負責。根據這一原則,分析資料應該圍繞域組成,類似於與系統的有界上下文對齊的團隊邊界。遵循領域驅動的分散式架構,分析和運算元據所有權從中央資料團隊轉移到領域團隊。

資料作為產品原則將產品思維哲學投射到分析資料上。這個原則意味著域外的資料有消費者。領域團隊負責透過提供高質量的資料來滿足其他領域的需求。基本上,域資料應該被視為任何其他公共 API。

自助資料基礎設施平臺背後的想法是將平臺思維應用於資料基礎設施。一個專門的資料平臺團隊提供與領域無關的功能、工具和系統來為所有領域構建、執行和維護可互操作的資料產品。藉助其平臺,資料平臺團隊使領域團隊能夠無縫地使用和建立資料產品。

聯邦治理原則透過標準化實現所有資料產品的互操作性,由治理組透過整個資料網格來推動。聯邦治理的主要目標是建立一個遵守組織規則和行業規則的資料生態系統。

談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係

資料網格架構是一種將業務領域或功能的資料來源與資料所有者對齊的方法。透過資料所有權去中心化,資料所有者可以為他們各自的領域建立資料產品,這意味著資料消費者,包括資料科學家和業務使用者,可以使用這些資料產品的組合來進行資料分析和資料科學。

資料網格方法的價值在於,與依賴資料工程師清理和整合下游資料產品相比,它將資料產品的建立轉移給最瞭解業務領域的上游主題專家。

談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係

此外,資料網格透過啟用釋出-訂閱模型和利用 API 加速資料產品的重用,這使資料消費者更容易獲得他們需要的資料產品,包括可靠的更新。

五 資料編織與資料網格的關係

資料編織和資料網格可以共存。事實上,資料編織可以透過三種方式實現資料網格:

1.為資料所有者提供資料產品建立功能,例如對資料資產進行編目、將資產轉化為產品以及遵循聯合治理策略

2.使資料所有者和資料消費者能夠以各種方式使用資料產品,例如將資料產品釋出到目錄、搜尋和查詢資料產品以及利用資料虛擬化或使用 API 查詢或視覺化資料產品。

3.透過學習模式作為資料產品建立過程的一部分或作為監控資料產品過程的一部分,使用來自資料編織後設資料的見解來自動化任務

在資料管理方面,資料編織透過自動執行建立資料產品和管理資料產品生命週期所需的許多工,提供了實施和充分利用資料網格所需的功能。透過使用資料編織基礎的靈活性,您可以實施資料網格,繼續利用以用例為中心的資料架構,無論資料駐留在本地還是雲端。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024420/viewspace-2933045/,如需轉載,請註明出處,否則將追究法律責任。

相關文章