Schemata:分散式的資料結構建模框架
自從 Hadoop 和 MapReduce 誕生以來,資料工程社群一直非常關注資料轉換的商品化。所有 Hadoop 抽象,如 Hive、Pig、Crunch 等。在 Hadoop 之上構建以進一步簡化資料轉換。透過簡化資料轉換,Apache Spark 對 dbt 資料工程社群取得了重大飛躍。
資料湖(或 LakeHouse)成為事實上的架構模式來獲取事件併產生分析見解。
資料湖本質上在產品功能團隊和資料工程團隊之間建立了生產者-消費者關係。隨著資料湖的增長,資料管理的複雜性也在增長。讓我們以典型資料管理中的日常資料流為例。
- 資料生產者為他們開發的產品功能生成資料並將其傳送到資料湖。(如果你很幸運,可以作為 ProtoBuf/Avro/Thrift 或 Json 格式,如果你喜歡資料冒險)
- 下游的消費者對生產者沒有領域瞭解,並且難以理解資料湖資料。
- 消費者然後與資料生產者聯絡,以瞭解生產者的領域專家的資料。領域專家可能沒有上下文,或者人類知識可能不可用。
資料湖變成了技術債務而不是戰略優勢,因為它變成了垃圾儲存而不是資料作為資產。
在 Schemata 之前,沒有系統的方法來衡量資料模型的完整性。我們不斷構建沒有反饋迴圈的新資料模型,以平衡資料資產的成本和完整性。它建立 Garbage-In Garbage-Out 模型。
GIGO 問題就像組織知識管理系統中的病毒,是許多公司的重要業務差異化因素。
Schemata是一個用於資料合約的去中心化模式建模框架。
Schemata 如何解決 Garbage-In Garbage-Out (GIGO) 問題?
1、Schemata 啟用面向領域的資料所有權
Schemata 專注於將資料視為產品。處理產品特性的特性團隊對資料有領域的理解,而不是資料的消費者。Schemata 使特性團隊能夠擁有資料所有權,以建立、附加後設資料、對資料進行編目並儲存它以便於使用。
資料建立階段的資料管理和資料編目帶來了更多的可見性並使其更易於使用。該過程還消除了人類知識孤島,真正使資料民主化。它幫助資料消費者不必擔心資料發現,並專注於從資料中產生價值。
2、Schemata 促進去中心化資料建模
傳統上,前期資料建模是有代價的。一個集中的資料架構/建模團隊通常與多個團隊協作來設計企業資料建模。一個人很難在腦海中掌握整個公司的資料架構。資料建模工具不反映資料建模的當前狀態。去中心化資料建模是唯一可擴充套件的方法,Schemata 支援自下而上的眾包資料建模方法,使組織中的資料訪問民主化。
3、Schemata 將 DevOps 原則引入資料建模。
去中心化資料建模原則帶來了一種獨特的協作方法來管理資料資產的生命週期。它將所有經過驗證的 devops 原則(如所有權、責任、協作、自動化、持續改進和以客戶為中心的行動)引入資料管理。
Schemata 加強資料模型的連線性和完整性
4、資料本質上是社會性的。
去中心化資料管理的重大挑戰是資料之間缺乏連通性會降低資料的可用性。Schemata 是一個固執己見的資料建模框架,它以程式設計方式測量資料模型的連通性併為其分配分數。
相關文章
- 阿里分散式服務框架Dubbo的架構總結阿里分散式框架架構
- 分散式資料庫的架構演變之路分散式資料庫架構
- (二) MdbCluster分散式記憶體資料庫——分散式架構1分散式記憶體資料庫架構
- 網易馬進:DDB從分散式資料庫到結構化資料中心的架構變遷分散式資料庫架構
- 分散式框架分散式框架
- 微服務 - Redis快取 · 資料結構 · 持久化 · 分散式 · 高併發微服務Redis快取資料結構持久化分散式
- 分散式資料庫架構原理 - Alex Petrov分散式資料庫架構
- [原始碼解析] PyTorch 分散式(17) --- 結合DDP和分散式 RPC 框架原始碼PyTorch分散式RPC框架
- 【Redis的那些事 · 上篇】Redis的介紹、五種資料結構演示和分散式鎖Redis資料結構分散式
- 分散式資料庫 ZNBase 的分散式計劃生成分散式資料庫
- 崑崙分散式資料庫架構介紹分散式資料庫架構
- 資料結構知識框架【超詳細】資料結構框架
- 分散式資料(4)分散式與版本化分散式
- 分散式資料庫分散式資料庫
- 資料管理架構:單體資料架構與分散式資料網格比較 - enyo架構分散式
- DTM:Golang中微服務架構的分散式事務框架Golang微服務架構分散式框架
- redis必會基礎命令、資料結構、lua指令碼和分散式鎖等Redis資料結構指令碼分散式
- 解析分散式應用框架Ray架構原始碼分散式框架架構原始碼
- [分散式][Redis]Redis分散式框架搭建與整合分散式Redis框架
- 框架篇:分散式鎖框架分散式
- MyCat 啟蒙:分散式系統的資料庫架構演變分散式資料庫架構
- 結構化資料、半結構化資料和非結構化資料
- HarmonyOS Next方舟資料管理與分散式資料庫實戰:構建高效同步架構分散式資料庫架構
- 分散式架構篇 | 如何在分散式架構下完美實現“全域性資料一致性”?分散式架構
- 資料結構 中綴表示式轉化資料結構
- 《使用Gin框架構建分散式應用》讀後感框架架構分散式
- 金融級分散式資料庫架構設計要點分散式資料庫架構
- 基於 Apache ShardingSphere 構建高可用分散式資料庫Apache分散式資料庫
- 【資料結構篇】認識資料結構資料結構
- 分散式架構的概述分散式架構
- [分散式]--Dubbo分散式服務框架-服務治理分散式框架
- Facebook 開源 Golang 實體框架 Ent 支援分散式資料庫 TiDBGolang框架分散式資料庫TiDB
- 【大資料】BigTable分散式資料儲存系統分散式資料庫 | 複習筆記大資料分散式資料庫筆記
- C++資料結構和pb資料結構的轉換C++資料結構
- 結構化資料與非結構化資料的差異
- 分散式資料庫的健康評估分散式資料庫
- “熱搜”中的分散式資料庫分散式資料庫
- cats 的資料結構資料結構