Data Mesh,一種新的資料架構理念!

danny_2018發表於2023-04-27

在這篇文章中,你將瞭解更多有關資料網格(data mesh)架構的知識,以及為什麼它們在現代商業環境中非常重要、為什麼它們對下一代資料平臺非常重要。

#01

什麼是資料網格架構?

在過去的十年中,組織越來越依賴於儲存大量資料,建立資料管道以從中提取價值。這也增加了對有效資料管理和消費架構的需求。最近一個旨在幫助組織實現這一目標的概念是資料網格。

技術顧問 Zhamak Dehghani 最初創造了資料網格這個術語,用於描述基於分散式軟體架構和麵向領域設計的資料平臺模型。這裡的 “面向領域” 源於領域驅動設計(DDD)理論,即你的程式碼結構和語言與相應的業務域匹配。

所有這些都意味著,資料網格架構支援特定業務部門或領域的分散式資料使用者。在這種模式下,資料是一個產品,企業中的每個業務領域都有權處理自己的資料管道。

在本文中,你將瞭解有關資料網格架構的更多資訊,它們在現代商業環境中的相關性,以及它們對下一代資料平臺的重要性。

#02

為什麼需要資料網格架構?

目前的資料格局分為兩個平面:運營資料和分析資料。業務資料儲存在 SingleStoreDB 這樣的業務資料庫中,並實時為業務需求服務。

分析資料隨著時間的推移被彙總,用於商業智慧的查詢。資料網狀結構認識到這些資料平面之間的差異及其架構的性質,它尋求從分析資料中創造規模價值。

直到最近,許多公司都依賴於一個單一的資料基礎設施,它直接與商業智慧(BI)工具進行通訊,併為所有使用情況執行所有的資料轉換。

這些單一的資料基礎設施 —— 資料湖或倉庫 —— 負責資料的攝入、儲存、轉換和資料輸出。這種集中的模式對於那些業務領域和資料消費需求較少的組織來說是有效的。

在更大型的企業中,有更廣泛的資料來源和領域,以及更多元化的客戶群體。傳統的單體式資料架構在這些情況下不夠有效,存在多種缺陷:

資料管道過載:傳統的資料架構模型可以確保資料湖能夠攝取、儲存、清洗、增強、轉換和服務於資料。但隨著更多資料的出現,資料系統將逐漸無法將資料整合到一個平臺中。

團隊孤立和過度專業化:構建和管理這些資料平臺可能導致不同的團隊在組織上和知識領域上高度隔離和過度專業化。管理上游資料來源的團隊、構建 ETL(資料提取、轉換和載入)管道的工程師以及下游的資料消費者或決策者通常都在知識和組織上分開,而沒有全域性的業務知識。

新客戶或資料來源的輸出交付速度較慢:隨著組織試驗創新議程以擴大其消費者群體,會出現新的資料用例以滿足需求。這導致組織的資料處理需求增加,不同的轉換需求也不同。結果,組織將面臨更長的響應時間,試圖為新的消費者提供價值。

為了說明這一點,讓我們以一個流媒體平臺為例,該平臺透過提供像 YouTube 一樣的影片媒體服務來開展業務。為了擴大市場,公司增加了歌曲流媒體服務、播客和直播等新服務或業務領域。這些新服務或業務領域意味著需要在平臺上新增新的功能,例如直播的觀眾數量或歌曲的播放率。

為了實現這一點,需要在現有的 ETL 管道中攝取、清洗和重新轉換運營資料,這將需要改變管道的多個元件。每次平臺新增新功能或業務領域時都需要重複這個過程,這將減緩擴充套件過程。

資料網格架構代表著從傳統建立資料平臺的方法中的正規化轉變。在其核心,資料網格由將應用程式域連結在一起的分散式資料處理節點組成。

與現代軟體工程中微服務是遠離單塊應用程式的一種方式類似,資料網格可以被視為資料平臺的微服務。雖然這個概念相對較新,但它承諾透過允許更高程度的靈活性和資料自治來解決單體資料平臺的以上缺點。它建立了一種可複製的方式來管理組織生態系統中的資料來源,這樣資料消費者或終端使用者就可以快速有效地訪問他們所需的資料。

資料網格架構為你的企業提供多種優勢:

分散的資料所有權和技能:資料網格將你的資料架構分散到不同的域中,而資料不會被複制。這意味著每個域中所需的資料所有權和技能也是分散式和分散的,因此你的組織可以在確保滿足每個域中的 IT 和業務要求的同時,實現資料的民主化。

真相的單一版本:使用資料網格可以實現長期組織目標,即實現真相的單一版本。由於每個業務領域所需的資料直接從源通道到領域,因此你可以消除資料複製,並控制資料來源和資料使用者之間的任何差距。每個業務單元負責為其領域提供資料真相作為源資料集,以提供給資料使用者和整個業務。

分散式安全:資料網格所建立的高度分散式資料架構也需要分散式安全架構。身份驗證和訪問管理活動可以在內部進行或外包給第三方平臺。無論哪種方式,你的資料都將在多層加密和不同級別的使用者訪問下得到安全保障。

資料網格的概念將繼續發展,因為越來越多的企業計劃將分散式資料儲存在資料孿生技術之中,以便有效地生成見解並提供商業價值。為了進一步瞭解這種架構,你應該瞭解其指導原則。

#03

資料網格架構的原則

資料網格模型有四個基本原則。

1、領域擁有權

現代軟體架構受到領域驅動設計的影響,領域驅動設計由 Eric Evans 在其同名書籍中闡述。其基本思想是將軟體系統的微服務架構分解和結構化為分散式服務,以反映業務功能或領域的能力。這些領域可以由特定領域的團隊獨立擁有和管理。這就是資料網格架構中領域擁有權背後的思想。

在資料網格中,資料的所有權是聯邦化的。這些資料所有者,包括工程師和科學家,負責確保其領域資料作為服務的可用性,並確保與不同位置的其他領域的互操作性。每個領域還負責自己的 ETL 管道,負責資料攝取、聚合和清理。

一旦一個領域接收到資料,它會執行特定的轉換任務,然後利用所得到的資料來支援該領域的業務功能。在資料網格中實現資料的領域所有權的一個關鍵好處是,它減少了資料生成團隊和資料消費地點之間必要的步驟和交接。繼續之前所使用的媒體流媒體平臺的例子,如果該平臺在新增新的業務領域時採用了分散式資料架構,那麼該領域可以擁有、處理和服務於自己的資料集,以適當的格式為下游特定的用例提供服務。像 SingleStoreDB 這樣的強大分散式資料庫可以作為每個領域資料集的儲存。

2、資料即產品

這意味著資料被視為一種產品。就像軟體應用程式有產品所有者一樣,領域資料也有產品所有者。資料產品所有者將確保資料以正確的質量、速度和格式交付。他們必須深入瞭解領域資料轉換的要求,並確保資料符合使用者的標準。每個領域都可以開發資料產品以及其他功能性特徵。資料產品可以包括清理和轉換管道、資料集等等。

每個領域的團隊直接負責建立和管理資料資源,瞭解資料來源和下游用例。這有助於減少傳統方法聚合資料到一箇中心位置併為每個用例應用相同資料模型所產生的摩擦。將軟體開發的指導原則和過程應用於資料。例如,版本控制、檔案編寫和加密等概念也被應用於資料產品。Zhamak Dehghani 總結了領域資料產品的主要特點,如可發現性、互操作性、可定址性、可信度和安全性。

3、自助式平臺

資料網格模型的開發旨在使團隊完全掌控其資料。團隊被授權獨立提取價值,無需中央資料專家的幫助。資料平臺的技術複雜性透過自助式資料架構的自動化進行抽象化處理。

自助式資料平臺的主要優點是,由於內建自動化,它可以縮短建立新產品的領先時間。

4、聯邦治理

儘管資料及其領域產品可在任何地方使用和訪問,但資料治理仍受資料產生的地方限制。資料網格模型中採用聯邦治理的目標是建立一個嚴格遵守領域、組織和行業規則和法規的生態系統。在以前的資料管理模型中,資料從類似 SingleStoreDB 這樣的操作性資料庫中移動,並儲存在中央資料湖中,進行清洗、質量控制和加密(集中式資料治理)。這在資料網格中是分散的。每個業務領域都有自己的質量控制和資料治理原則,在資料成為產品之前必須符合全球業務標準。

#04

結論

資料網格架構模型是一個相對較新的概念,但它為組織提供了多種好處。將資料責任轉移給領域團隊使這些團隊能夠更高效地工作並擁有更深入的知識,同時確保他們使用的資料不會在組織內其他地方重複。

請記住,分散現有資料架構的這種轉變必須逐漸和有條不紊地進行。領域工程師和資料產品所有者需要時間來深入瞭解領域資料、工具和用例。目標是考慮如何以最佳方式為團隊服務的資料網格架構。

來自 “ 談資料 ”, 原文作者:談資料;原文連結:https://mp.weixin.qq.com/s/v2A6povCzjVSjrYvJndXYQ,如有侵權,請聯絡管理員刪除。

相關文章