資料網格將替代資料倉儲或資料湖?- thenewstack

banq 發表於 2022-01-30

資料網格由Thoughtworks的技術顧問 Zhamak Dehghani 於一年多前開發的,旨在糾正她認為當今商業世界中資料生成和消費方式的主要缺陷:它從DDD領域驅動設計(用於開發微服務)、DevOps(自動化和自助服務基礎設施)或可觀察性(日誌記錄和治理)中汲取靈感,並將其應用於資料世界。

資料網格是對重要原則的一種表述,一旦遵循這些原則,就會從根本上改變組織生產、使用和分發資料的方式。從廣義上講,它是一種戰略和戰術結構,用於通過縮小每個業務領域的運營和分析平面之間的差距,重新調整資料的產生方式和消費方式,來設計更可靠的資料平臺。

 

傳統Hadoop等資料倉儲或資料湖問題

現在,資料幾乎在一個組織的每一個點上都在不斷產生。這導致了廣泛的事件流處理(ESP),即對一系列資料點採取行動的做法,這些資料點來自一個從未停止生成資料的系統。

"事件 "指的是系統中的每個資料點,而 "流 "指的是這些事件的持續交付。

  • 事件包括組織中發生的與業務有關的事情,如使用者註冊、銷售、庫存變化或員工更新。然後,這些事件被按順序組織成一個流,用於促進持續交付;
  • 事件流隨著新資料的出現而更新,其資料可以由任何業務來源產生--銷售、流媒體視訊和音訊以及文字資料。

在許多組織中,來自所有這些不同系統的穩定的資料流被倒入資料湖,一個以其自然/原始格式儲存的資訊庫,或資料倉儲,它結合並儲存來自不同來源的資料。在那裡,一個資料分析師團隊對資訊進行清理,使其可以被不同的人和許多其他不同的背景所使用。

一個典型的資料倉儲有許多來源,分佈在一個公司,具有不同的質量水平。會有許多ETL(提取、轉換、載入)工作在不同的系統中執行,並將資料集拉回中央倉庫。分析團隊清理和修復大量的資料。提取和載入佔據了剩下的時間。

資料倉儲模型是一個被設計成可擴充套件、可靠和持久的系統,但它充滿了麻煩。

我們已經嘗試使用 Apache Hadoop 等解決方案來應對這種快速增長的資料量的範圍。

但不幸的是,我們這些資料領域的人非常熟悉一致、穩定和定義明確的資料的稀缺性。這通常表現為分析報告中的差異:例如,分析報告發生了 1,100 次產品參與,但向客戶收取了 1,123 次參與的費用。運營系統和分析系統並不總是一致,這在很大程度上是由於從多個不同來源獲取資料。

簡而言之,資料倉儲或資料湖戰略已經變得容易出錯且不可持續。它導致資料生產者脫節,資料消費者缺乏耐心,資料團隊不堪重負,難以跟上步伐。

 

資料網格系統

資料網格旨在製作組織中重要業務資料的優質產品。它很簡單。資料網格將提供乾淨、可用和可靠資料的責任放在生成、使用和儲存資料的工作人員身上,而不是集中在分析團隊身上。它將clean整理資料的責任放在最接近資料的人身上。 

在這種去中心化的方法中,多方共同努力以確保出色的資料。擁有資料的各方必須是資料的好管家,並與他人溝通以確保滿足他們的資料需求。

資料不再被視為應用程式的副產品,而是被設想為定義良好的資料產品。

將資料網格視為資料倉儲的對立面:把資料當成產品本身,而不是產品的副產品。

資料產品是分佈在您公司周圍的格式良好的資料來源,每個產品本身都被視為一流的產品,並具有專門的所有權、生命週期管理和服務水平協議。我們的想法是精心製作、策劃並將這些作為產品呈現給組織的其他成員,供其他團隊使用,從而為在整個組織中共享資料提供可靠和值得信賴的來源。

事件流是支援絕大多數資料產品的最佳解決方案。它們是一種可擴充套件、可靠且持久的儲存和通訊重要業務資料的方式,並彌合了分析和運營處理之間越來越模糊的差距。他們讓消費者控制該資料的不斷更新的只讀副本,以便按照他們認為合適的方式處理、改造、儲存和更新(想想微服務)。

雲端儲存和計算產品的普及使得這很容易適應;分析消費者可以在雲物件儲存中接收資料以進行大規模並行處理,而運維使用者可以直接使用資料,在運維警報事件發生時對其進行操作。

 

相關文章