資料網格將替代資料倉儲或資料湖?- thenewstack
資料網格由Thoughtworks的技術顧問 Zhamak Dehghani 於一年多前開發的,旨在糾正她認為當今商業世界中資料生成和消費方式的主要缺陷:它從DDD領域驅動設計(用於開發微服務)、DevOps(自動化和自助服務基礎設施)或可觀察性(日誌記錄和治理)中汲取靈感,並將其應用於資料世界。
資料網格是對重要原則的一種表述,一旦遵循這些原則,就會從根本上改變組織生產、使用和分發資料的方式。從廣義上講,它是一種戰略和戰術結構,用於透過縮小每個業務領域的運營和分析平面之間的差距,重新調整資料的產生方式和消費方式,來設計更可靠的資料平臺。
傳統Hadoop等資料倉儲或資料湖問題
現在,資料幾乎在一個組織的每一個點上都在不斷產生。這導致了廣泛的事件流處理(ESP),即對一系列資料點採取行動的做法,這些資料點來自一個從未停止生成資料的系統。
"事件 "指的是系統中的每個資料點,而 "流 "指的是這些事件的持續交付。
- 事件包括組織中發生的與業務有關的事情,如使用者註冊、銷售、庫存變化或員工更新。然後,這些事件被按順序組織成一個流,用於促進持續交付;
- 事件流隨著新資料的出現而更新,其資料可以由任何業務來源產生--銷售、流媒體影片和音訊以及文字資料。
在許多組織中,來自所有這些不同系統的穩定的資料流被倒入資料湖,一個以其自然/原始格式儲存的資訊庫,或資料倉儲,它結合並儲存來自不同來源的資料。在那裡,一個資料分析師團隊對資訊進行清理,使其可以被不同的人和許多其他不同的背景所使用。
一個典型的資料倉儲有許多來源,分佈在一個公司,具有不同的質量水平。會有許多ETL(提取、轉換、載入)工作在不同的系統中執行,並將資料集拉回中央倉庫。分析團隊清理和修復大量的資料。提取和載入佔據了剩下的時間。
資料倉儲模型是一個被設計成可擴充套件、可靠和持久的系統,但它充滿了麻煩。
我們已經嘗試使用 Apache Hadoop 等解決方案來應對這種快速增長的資料量的範圍。
但不幸的是,我們這些資料領域的人非常熟悉一致、穩定和定義明確的資料的稀缺性。這通常表現為分析報告中的差異:例如,分析報告發生了 1,100 次產品參與,但向客戶收取了 1,123 次參與的費用。運營系統和分析系統並不總是一致,這在很大程度上是由於從多個不同來源獲取資料。
簡而言之,資料倉儲或資料湖戰略已經變得容易出錯且不可持續。它導致資料生產者脫節,資料消費者缺乏耐心,資料團隊不堪重負,難以跟上步伐。
資料網格系統
資料網格旨在製作組織中重要業務資料的優質產品。它很簡單。資料網格將提供乾淨、可用和可靠資料的責任放在生成、使用和儲存資料的工作人員身上,而不是集中在分析團隊身上。它將clean整理資料的責任放在最接近資料的人身上。
在這種去中心化的方法中,多方共同努力以確保出色的資料。擁有資料的各方必須是資料的好管家,並與他人溝通以確保滿足他們的資料需求。
資料不再被視為應用程式的副產品,而是被設想為定義良好的資料產品。
將資料網格視為資料倉儲的對立面:把資料當成產品本身,而不是產品的副產品。
資料產品是分佈在您公司周圍的格式良好的資料來源,每個產品本身都被視為一流的產品,並具有專門的所有權、生命週期管理和服務水平協議。我們的想法是精心製作、策劃並將這些作為產品呈現給組織的其他成員,供其他團隊使用,從而為在整個組織中共享資料提供可靠和值得信賴的來源。
事件流是支援絕大多數資料產品的最佳解決方案。它們是一種可擴充套件、可靠且持久的儲存和通訊重要業務資料的方式,並彌合了分析和運營處理之間越來越模糊的差距。他們讓消費者控制該資料的不斷更新的只讀副本,以便按照他們認為合適的方式處理、改造、儲存和更新(想想微服務)。
雲端儲存和計算產品的普及使得這很容易適應;分析消費者可以在雲物件儲存中接收資料以進行大規模並行處理,而運維使用者可以直接使用資料,在運維警報事件發生時對其進行操作。
相關文章
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 關於資料湖、資料倉儲的想法
- 資料倉儲被淘汰了?都怪資料湖
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料湖和中央資料倉儲的設計
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 資料湖是下一代資料倉儲?
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 資料湖是誰?那資料倉儲又算什麼?
- 讀資料湖倉06資料整合
- 讀資料湖倉02資料抽象抽象
- 如何實施資料網格? - thenewstack
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 資料倉儲、資料集市、資料湖、資料中臺到底有什麼區別?
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 奈學:資料湖和資料倉儲的區別有哪些?
- 讀資料湖倉01讓資料可信
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 讀資料湖倉04資料架構與資料工程架構
- 有了資料湖,資料倉儲究竟能不能被取代?
- 一文讀懂選擇資料湖還是資料倉儲
- 讀資料湖倉07描述性資料
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- 讀資料湖倉05資料需要的層次
- 讀資料湖倉03不同型別的資料型別
- 讀資料湖倉08資料架構的演化架構
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 資料網格與Data Fabric的區別 - thenewstack
- 淺談資料倉儲和大資料大資料
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 大資料和資料倉儲解決方案大資料
- 資料倉儲與大資料的區別大資料
- 資料倉儲 - ER模型模型
- 資料湖中加熱資料?