資料網格與Data Fabric的區別 - thenewstack

banq發表於2022-01-07

Data Fabric和Data Mesh資料網格都認為:在物理上集中所有資料是徒勞的。他們都認識到資料量只會增長,而資料來源只會成倍增加。
結果,這兩者有時往往會混為一談。
但是它們在理念和實施方面都非常不同,並且每種方法都有很大的優點。
從本質上講,資料網格是一種類似於聯邦政府的模型,而Data Fabric資料結構則類似於集中式結構。
 

Data Fabric
Data Fabric 平臺賦予分散資料的物理現實性,並試圖透過建立仍然在邏輯上整合資料的虛擬化訪問層來緩解這種情況。這種邏輯上的統一意味著中央點:這個單點仍然可以管理資料、治理資料並使其符合公司範圍的標準。
Data Fabric 還收集了一系列用於資料轉換和分析的技術,並將它們按單點形式提供給組織業務部門,以實現自助分析。
Data Fabric與特定供應商堆疊相關聯,特別耦合於提供完整資料平臺的供應商。
 

資料網格:協作自治
資料網格表示不同的資料子集應該由最常使用它的業務領域內的團隊完全管理。這些團隊應該將資料作為事件流、表或 API 驅動的服務提供給其他業務部門/領域的其他團隊,並且應該使它們像可以與其他資料結合的構建塊一樣易於使用。

Thoughtworks 的開創者 Zhamak Dehghani描述了其嚴格性。Dehghani 表示,Data Mesh 架構基於面向領域、去中心化資料所有權和架構的原則;資料作為產品;作為平臺的自助服務基礎設施;和聯合計算治理。此外,Dehghani 表示,每個面向領域的團隊生產的資料產品都應該是可發現的、可定址的、值得信賴的,並具有自我描述的語義和語法。它們還應該是可互操作的、安全的,並受全球標準和訪問控制的約束。
換句話說,相對較小的跨職能團隊擁有屬於其業務領域的所有資料資產的開發、部署和維護。領域資料集、服務和 API 是以產品驅動的心態開發的,強調可發現性和可用性。
資料集的消費者是客戶;他們的滿意度和採用水平構成了領域團隊成功的重要指標。基礎設施的實施、供應和維護是集中的,治理標準和控制也是如此。其餘的由業務領域團隊控制。
Data Mesh 背後的思想與 2000 年代中期的面向服務架構 (SOA) 運動和今天的微服務背後的思想非常相似。它斷言緊密耦合的單體架構是脆弱的,缺乏敏捷性,最終會過時。相反,最好將分析資料重構為鬆散耦合的構建塊服務,開發人員可以輕鬆理解、採用和使用這些服務,並與其他此類服務結合以創造更高價值的東西。
資料網格領域中的領域團隊類似於軟體世界中的開發團隊,後者是跨職能的,對他們設計、開發和交付的軟體產品承擔全部責任。不利的一面是,開發團隊及其程式碼庫之間的實現風格、語義和開發方法的差異當然會發生。
 
開明的架構、授權和自治將有所幫助。但它們必須以強制合規性和相容性的現實為基礎,同時避免技術債務和碎片化。
 

相關文章