資料網格將替代資料倉儲或資料湖？- thenewstack

banq發表於2022-01-30

資料網格由Thoughtworks的技術顧問 Zhamak Dehghani 於一年多前開發的，旨在糾正她認為當今商業世界中資料生成和消費方式的主要缺陷：它從DDD領域驅動設計（用於開發微服務）、DevOps（自動化和自助服務基礎設施）或可觀察性（日誌記錄和治理）中汲取靈感，並將其應用於資料世界。
資料網格是對重要原則的一種表述，一旦遵循這些原則，就會從根本上改變組織生產、使用和分發資料的方式。從廣義上講，它是一種戰略和戰術結構，用於透過縮小每個業務領域的運營和分析平面之間的差距，重新調整資料的產生方式和消費方式，來設計更可靠的資料平臺。

傳統Hadoop等資料倉儲或資料湖問題
現在，資料幾乎在一個組織的每一個點上都在不斷產生。這導致了廣泛的事件流處理（ESP），即對一系列資料點採取行動的做法，這些資料點來自一個從未停止生成資料的系統。
"事件 "指的是系統中的每個資料點，而 "流 "指的是這些事件的持續交付。

事件包括組織中發生的與業務有關的事情，如使用者註冊、銷售、庫存變化或員工更新。然後，這些事件被按順序組織成一個流，用於促進持續交付；
事件流隨著新資料的出現而更新，其資料可以由任何業務來源產生--銷售、流媒體影片和音訊以及文字資料。

在許多組織中，來自所有這些不同系統的穩定的資料流被倒入資料湖，一個以其自然/原始格式儲存的資訊庫，或資料倉儲，它結合並儲存來自不同來源的資料。在那裡，一個資料分析師團隊對資訊進行清理，使其可以被不同的人和許多其他不同的背景所使用。
一個典型的資料倉儲有許多來源，分佈在一個公司，具有不同的質量水平。會有許多ETL（提取、轉換、載入）工作在不同的系統中執行，並將資料集拉回中央倉庫。分析團隊清理和修復大量的資料。提取和載入佔據了剩下的時間。
資料倉儲模型是一個被設計成可擴充套件、可靠和持久的系統，但它充滿了麻煩。
我們已經嘗試使用 Apache Hadoop 等解決方案來應對這種快速增長的資料量的範圍。
但不幸的是，我們這些資料領域的人非常熟悉一致、穩定和定義明確的資料的稀缺性。這通常表現為分析報告中的差異：例如，分析報告發生了 1,100 次產品參與，但向客戶收取了 1,123 次參與的費用。運營系統和分析系統並不總是一致，這在很大程度上是由於從多個不同來源獲取資料。
簡而言之，資料倉儲或資料湖戰略已經變得容易出錯且不可持續。它導致資料生產者脫節，資料消費者缺乏耐心，資料團隊不堪重負，難以跟上步伐。

資料網格系統
資料網格旨在製作組織中重要業務資料的優質產品。它很簡單。資料網格將提供乾淨、可用和可靠資料的責任放在生成、使用和儲存資料的工作人員身上，而不是集中在分析團隊身上。它將clean整理資料的責任放在最接近資料的人身上。
在這種去中心化的方法中，多方共同努力以確保出色的資料。擁有資料的各方必須是資料的好管家，並與他人溝通以確保滿足他們的資料需求。
資料不再被視為應用程式的副產品，而是被設想為定義良好的資料產品。

將資料網格視為資料倉儲的對立面：把資料當成產品本身，而不是產品的副產品。
資料產品是分佈在您公司周圍的格式良好的資料來源，每個產品本身都被視為一流的產品，並具有專門的所有權、生命週期管理和服務水平協議。我們的想法是精心製作、策劃並將這些作為產品呈現給組織的其他成員，供其他團隊使用，從而為在整個組織中共享資料提供可靠和值得信賴的來源。
事件流是支援絕大多數資料產品的最佳解決方案。它們是一種可擴充套件、可靠且持久的儲存和通訊重要業務資料的方式，並彌合了分析和運營處理之間越來越模糊的差距。他們讓消費者控制該資料的不斷更新的只讀副本，以便按照他們認為合適的方式處理、改造、儲存和更新（想想微服務）。
雲端儲存和計算產品的普及使得這很容易適應；分析消費者可以在雲物件儲存中接收資料以進行大規模並行處理，而運維使用者可以直接使用資料，在運維警報事件發生時對其進行操作。

資料湖+資料倉儲 = 資料湖庫架構
2022-01-13
架構
資料湖 vs 資料倉儲 vs 資料庫
2022-01-16
資料庫
資料湖會取代資料倉儲嗎?
2022-11-09
談談資料湖和資料倉儲
2022-11-29
關於資料湖、資料倉儲的想法
2024-06-06
資料倉儲被淘汰了？都怪資料湖
2021-03-29
萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
2022-02-23
資料湖和中央資料倉儲的設計
2023-12-06
資料倉儲、資料湖與湖倉一體的區別與聯絡
2024-02-20
資料湖 VS 資料倉儲之爭？阿里提出大資料架構新概念：湖倉一體
2020-10-12
阿里大資料架構
資料湖是下一代資料倉儲？
2022-12-26
通俗語言解釋資料倉儲、資料湖、資料中臺
2020-09-11
資料湖是誰？那資料倉儲又算什麼？
2020-12-26
讀資料湖倉06資料整合
2024-10-04
讀資料湖倉02資料抽象
2024-09-28
抽象
如何實施資料網格？ - thenewstack
2022-02-21
資料倉儲 vs 資料湖 vs 湖倉一體：如何基於自身資料策略，選擇最合適的資料管理方案？
2024-05-06
資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別？
2021-09-14
一文讀懂：本地資料湖丨資料倉儲丨雲資料湖的利與弊
2022-06-02
奈學：資料湖和資料倉儲的區別有哪些？
2020-06-28
讀資料湖倉01讓資料可信
2024-09-27
資料湖 vs 倉庫 vs 資料庫
2022-01-16
資料庫
讀資料湖倉04資料架構與資料工程
2024-10-02
架構
有了資料湖，資料倉儲究竟能不能被取代？
2023-05-11
一文讀懂選擇資料湖還是資料倉儲
2022-10-20
讀資料湖倉07描述性資料
2024-10-05
資料倉儲、資料集市、資料湖，你的企業更適合哪種資料管理架構？
2023-04-04
架構
讀資料湖倉05資料需要的層次
2024-10-03
讀資料湖倉03不同型別的資料
2024-09-30
型別
讀資料湖倉08資料架構的演化
2024-10-06
架構
資料庫倉庫系列：(一)什麼是資料倉儲，為什麼要資料倉儲
2020-12-12
資料庫
資料網格與Data Fabric的區別 - thenewstack
2022-01-07
淺談資料倉儲和大資料
2018-06-21
大資料
雲資料建模：為資料倉儲設計資料庫
2022-06-30
資料庫
大資料和資料倉儲解決方案
2020-03-24
大資料
資料倉儲與大資料的區別
2024-08-09
大資料
資料倉儲 - ER模型
2023-05-15
模型
資料湖中加熱資料？
2022-02-13

資料網格將替代資料倉儲或資料湖？- thenewstack

相關文章