Schemata:分散式的資料結構建模框架
自從 Hadoop 和 MapReduce 誕生以來,資料工程社群一直非常關注資料轉換的商品化。所有 Hadoop 抽象,如 Hive、Pig、Crunch 等。在 Hadoop 之上構建以進一步簡化資料轉換。透過簡化資料轉換,Apache Spark 對 dbt 資料工程社群取得了重大飛躍。
資料湖(或 LakeHouse)成為事實上的架構模式來獲取事件併產生分析見解。
資料湖本質上在產品功能團隊和資料工程團隊之間建立了生產者-消費者關係。隨著資料湖的增長,資料管理的複雜性也在增長。讓我們以典型資料管理中的日常資料流為例。
- 資料生產者為他們開發的產品功能生成資料並將其傳送到資料湖。(如果你很幸運,可以作為 ProtoBuf/Avro/Thrift 或 Json 格式,如果你喜歡資料冒險)
- 下游的消費者對生產者沒有領域瞭解,並且難以理解資料湖資料。
- 消費者然後與資料生產者聯絡,以瞭解生產者的領域專家的資料。領域專家可能沒有上下文,或者人類知識可能不可用。
資料湖變成了技術債務而不是戰略優勢,因為它變成了垃圾儲存而不是資料作為資產。
在 Schemata 之前,沒有系統的方法來衡量資料模型的完整性。我們不斷構建沒有反饋迴圈的新資料模型,以平衡資料資產的成本和完整性。它建立 Garbage-In Garbage-Out 模型。
GIGO 問題就像組織知識管理系統中的病毒,是許多公司的重要業務差異化因素。
Schemata是一個用於資料合約的去中心化模式建模框架。
Schemata 如何解決 Garbage-In Garbage-Out (GIGO) 問題?
1、Schemata 啟用面向領域的資料所有權
Schemata 專注於將資料視為產品。處理產品特性的特性團隊對資料有領域的理解,而不是資料的消費者。Schemata 使特性團隊能夠擁有資料所有權,以建立、附加後設資料、對資料進行編目並儲存它以便於使用。
資料建立階段的資料管理和資料編目帶來了更多的可見性並使其更易於使用。該過程還消除了人類知識孤島,真正使資料民主化。它幫助資料消費者不必擔心資料發現,並專注於從資料中產生價值。
2、Schemata 促進去中心化資料建模
傳統上,前期資料建模是有代價的。一個集中的資料架構/建模團隊通常與多個團隊協作來設計企業資料建模。一個人很難在腦海中掌握整個公司的資料架構。資料建模工具不反映資料建模的當前狀態。去中心化資料建模是唯一可擴充套件的方法,Schemata 支援自下而上的眾包資料建模方法,使組織中的資料訪問民主化。
3、Schemata 將 DevOps 原則引入資料建模。
去中心化資料建模原則帶來了一種獨特的協作方法來管理資料資產的生命週期。它將所有經過驗證的 devops 原則(如所有權、責任、協作、自動化、持續改進和以客戶為中心的行動)引入資料管理。
Schemata 加強資料模型的連線性和完整性
4、資料本質上是社會性的。
去中心化資料管理的重大挑戰是資料之間缺乏連通性會降低資料的可用性。Schemata 是一個固執己見的資料建模框架,它以程式設計方式測量資料模型的連通性併為其分配分數。
相關文章
- 阿里分散式服務框架Dubbo的架構總結阿里分散式框架架構
- 資料建模與框架設計的暫時總結框架
- 分散式服務框架 Zookeeper -- 管理分散式環境中的資料分散式框架
- Cassandra 分散式資料庫詳解,第 2 部分:資料結構與資料讀寫分散式資料庫資料結構
- 多層結構下分散式資料庫資料容災概要性設計分散式資料庫
- 分散式資料庫的架構演變之路分散式資料庫架構
- 資料結構:順序結構和鏈式結構的資料型別定義資料結構資料型別
- (二) MdbCluster分散式記憶體資料庫——分散式架構1分散式記憶體資料庫架構
- OceanBase分散式儲存引擎公共模組——基礎資料結構分散式儲存引擎資料結構
- 網易馬進:DDB從分散式資料庫到結構化資料中心的架構變遷分散式資料庫架構
- 分散式框架分散式框架
- 崑崙分散式資料庫架構介紹分散式資料庫架構
- 分散式資料庫架構原理 - Alex Petrov分散式資料庫架構
- 微服務 - Redis快取 · 資料結構 · 持久化 · 分散式 · 高併發微服務Redis快取資料結構持久化分散式
- tcc分散式事務框架原始碼解析系列(一)之專案結構分散式框架原始碼
- 【Redis的那些事 · 上篇】Redis的介紹、五種資料結構演示和分散式鎖Redis資料結構分散式
- 分散式資料(4)分散式與版本化分散式
- 資料庫建模或表結構(模型設計)_隨記(二)資料庫模型
- 分散式資料庫分散式資料庫
- 資料結構知識框架【超詳細】資料結構框架
- 分散式資料庫 ZNBase 的分散式計劃生成分散式資料庫
- 資料管理架構:單體資料架構與分散式資料網格比較 - enyo架構分散式
- [原始碼解析] PyTorch 分散式(17) --- 結合DDP和分散式 RPC 框架原始碼PyTorch分散式RPC框架
- DTM:Golang中微服務架構的分散式事務框架Golang微服務架構分散式框架
- 解析分散式應用框架Ray架構原始碼分散式框架架構原始碼
- redis必會基礎命令、資料結構、lua指令碼和分散式鎖等Redis資料結構指令碼分散式
- 大資料時代,如何根據業務選擇合適的分散式框架大資料分散式框架
- [分散式][Redis]Redis分散式框架搭建與整合分散式Redis框架
- Apache新成員:LinkedIn分散式資料整合框架GobblinApache分散式框架Go
- 資料結構與演算法_知識框架資料結構演算法框架
- 框架篇:分散式鎖框架分散式
- 分散式資料庫概述分散式資料庫
- MyCat 啟蒙:分散式系統的資料庫架構演變分散式資料庫架構
- 分散式架構篇 | 如何在分散式架構下完美實現“全域性資料一致性”?分散式架構
- 《使用Gin框架構建分散式應用》讀後感框架架構分散式
- 結構化資料、半結構化資料和非結構化資料
- 金融級分散式資料庫架構設計要點分散式資料庫架構
- [分散式]--Dubbo分散式服務框架-服務治理分散式框架