Schemata:分散式的資料結構建模框架

banq發表於2022-08-21

自從 Hadoop 和 MapReduce 誕生以來,資料工程社群一直非常關注資料轉換的商品化。所有 Hadoop 抽象,如 Hive、Pig、Crunch 等。在 Hadoop 之上構建以進一步簡化資料轉換。透過簡化資料轉換,Apache Spark 對 dbt 資料工程社群取得了重大飛躍。 

資料湖(或 LakeHouse)成為事實上的架構模式來獲取事件併產生分析見解。
資料湖本質上在產品功能團隊和資料工程團隊之間建立了生產者-消費者關係。隨著資料湖的增長,資料管理的複雜性也在增長。讓我們以典型資料管理中的日常資料流為例。 
  • 資料生產者為他們開發的產品功能生成資料並將其傳送到資料湖。(如果你很幸運,可以作為 ProtoBuf/Avro/Thrift 或 Json 格式,如果你喜歡資料冒險)
  • 下游的消費者對生產者沒有領域瞭解,並且難以理解資料湖資料。
  • 消費者然後與資料生產者聯絡,以瞭解生產者的領域專家的資料。領域專家可能沒有上下文,或者人類知識可能不可用。


資料湖變成了技術債務而不是戰略優勢,因為它變成了垃圾儲存而不是資料作為資產。 

在 Schemata 之前,沒有系統的方法來衡量資料模型的完整性。我們不斷構建沒有反饋迴圈的新資料模型,以平衡資料資產的成本和完整性。它建立 Garbage-In Garbage-Out 模型。 

GIGO 問題就像組織知識管理系統中的病毒,是許多公司的重要業務差異化因素。

Schemata是一個用於資料合約的去中心化模式建模框架。

Schemata 如何解決 Garbage-In Garbage-Out (GIGO) 問題?

1、Schemata 啟用面向領域的資料所有權
Schemata 專注於將資料視為產品。處理產品特性的特性團隊對資料有領域的理解,而不是資料的消費者。Schemata 使特性團隊能夠擁有資料所有權,以建立、附加後設資料、對資料進行編目並儲存它以便於使用。
資料建立階段的資料管理和資料編目帶來了更多的可見性並使其更易於使用。該過程還消除了人類知識孤島,真正使資料民主化。它幫助資料消費者不必擔心資料發現,並專注於從資料中產生價值。

2、Schemata 促進去中心化資料建模
傳統上,前期資料建模是有代價的。一個集中的資料架構/建模團隊通常與多個團隊協作來設計企業資料建模。一個人很難在腦海中掌握整個公司的資料架構。資料建模工具不反映資料建模的當前狀態。去中心化資料建模是唯一可擴充套件的方法,Schemata 支援自下而上的眾包資料建模方法,使組織中的資料訪問民主化。

3、Schemata 將 DevOps 原則引入資料建模。
去中心化資料建模原則帶來了一種獨特的協作方法來管理資料資產的生命週期。它將所有經過驗證的 devops 原則(如所有權、責任、協作、自動化、持續改進和以客戶為中心的行動)引入資料管理。
Schemata 加強資料模型的連線性和完整性

4、資料本質上是社會性的。 
去中心化資料管理的重大挑戰是資料之間缺乏連通性會降低資料的可用性。Schemata 是一個固執己見的資料建模框架,它以程式設計方式測量資料模型的連通性併為其分配分數。

https ://github.com/ananthdurai/schemata

相關文章