資料網格將替代資料倉儲或資料湖?- thenewstack
資料網格由Thoughtworks的技術顧問 Zhamak Dehghani 於一年多前開發的,旨在糾正她認為當今商業世界中資料生成和消費方式的主要缺陷:它從DDD領域驅動設計(用於開發微服務)、DevOps(自動化和自助服務基礎設施)或可觀察性(日誌記錄和治理)中汲取靈感,並將其應用於資料世界。
資料網格是對重要原則的一種表述,一旦遵循這些原則,就會從根本上改變組織生產、使用和分發資料的方式。從廣義上講,它是一種戰略和戰術結構,用於通過縮小每個業務領域的運營和分析平面之間的差距,重新調整資料的產生方式和消費方式,來設計更可靠的資料平臺。
傳統Hadoop等資料倉儲或資料湖問題
現在,資料幾乎在一個組織的每一個點上都在不斷產生。這導致了廣泛的事件流處理(ESP),即對一系列資料點採取行動的做法,這些資料點來自一個從未停止生成資料的系統。
"事件 "指的是系統中的每個資料點,而 "流 "指的是這些事件的持續交付。
- 事件包括組織中發生的與業務有關的事情,如使用者註冊、銷售、庫存變化或員工更新。然後,這些事件被按順序組織成一個流,用於促進持續交付;
- 事件流隨著新資料的出現而更新,其資料可以由任何業務來源產生--銷售、流媒體視訊和音訊以及文字資料。
在許多組織中,來自所有這些不同系統的穩定的資料流被倒入資料湖,一個以其自然/原始格式儲存的資訊庫,或資料倉儲,它結合並儲存來自不同來源的資料。在那裡,一個資料分析師團隊對資訊進行清理,使其可以被不同的人和許多其他不同的背景所使用。
一個典型的資料倉儲有許多來源,分佈在一個公司,具有不同的質量水平。會有許多ETL(提取、轉換、載入)工作在不同的系統中執行,並將資料集拉回中央倉庫。分析團隊清理和修復大量的資料。提取和載入佔據了剩下的時間。
資料倉儲模型是一個被設計成可擴充套件、可靠和持久的系統,但它充滿了麻煩。
我們已經嘗試使用 Apache Hadoop 等解決方案來應對這種快速增長的資料量的範圍。
但不幸的是,我們這些資料領域的人非常熟悉一致、穩定和定義明確的資料的稀缺性。這通常表現為分析報告中的差異:例如,分析報告發生了 1,100 次產品參與,但向客戶收取了 1,123 次參與的費用。運營系統和分析系統並不總是一致,這在很大程度上是由於從多個不同來源獲取資料。
簡而言之,資料倉儲或資料湖戰略已經變得容易出錯且不可持續。它導致資料生產者脫節,資料消費者缺乏耐心,資料團隊不堪重負,難以跟上步伐。
資料網格系統
資料網格旨在製作組織中重要業務資料的優質產品。它很簡單。資料網格將提供乾淨、可用和可靠資料的責任放在生成、使用和儲存資料的工作人員身上,而不是集中在分析團隊身上。它將clean整理資料的責任放在最接近資料的人身上。
在這種去中心化的方法中,多方共同努力以確保出色的資料。擁有資料的各方必須是資料的好管家,並與他人溝通以確保滿足他們的資料需求。
資料不再被視為應用程式的副產品,而是被設想為定義良好的資料產品。
將資料網格視為資料倉儲的對立面:把資料當成產品本身,而不是產品的副產品。
資料產品是分佈在您公司周圍的格式良好的資料來源,每個產品本身都被視為一流的產品,並具有專門的所有權、生命週期管理和服務水平協議。我們的想法是精心製作、策劃並將這些作為產品呈現給組織的其他成員,供其他團隊使用,從而為在整個組織中共享資料提供可靠和值得信賴的來源。
事件流是支援絕大多數資料產品的最佳解決方案。它們是一種可擴充套件、可靠且持久的儲存和通訊重要業務資料的方式,並彌合了分析和運營處理之間越來越模糊的差距。他們讓消費者控制該資料的不斷更新的只讀副本,以便按照他們認為合適的方式處理、改造、儲存和更新(想想微服務)。
雲端儲存和計算產品的普及使得這很容易適應;分析消費者可以在雲物件儲存中接收資料以進行大規模並行處理,而運維使用者可以直接使用資料,在運維警報事件發生時對其進行操作。
相關文章
- 被領導吐槽做圖表太醜?5大資料視覺化工具助你翻身
- Smartbi手把手教你如何搭建企業大資料BI平臺系統
- 海量資料“一鍵篩選”,比Excel還好用的篩選功能,更便捷了!
- 開源資料庫流行度首次超過非開源資料庫Confluent
- 開源資料庫商業化加速,雲端計算助推開源軟體發展
- 雲對基礎設施和軟體的影響和改變是深遠的資料技術AI
- 商湯創新地通過GPS與視覺融合的資料關聯方法和引數分塊優化方法
- 高密度資料中心“神器” -- 浪潮資訊多節點伺服器i48
- python操作MySQL資料庫連線(pymysql)
- 三大核心能力,揭示全面釋放資料價值的獨門祕訣
- FoneLab Mac Data Retriever for Mac Mac資料檢索軟體
- SpringBoot使用非同步執行緒池實現生產環境批量資料推送
- 從新建資料夾開始構建ShadowPlay Engine遊戲引擎(6)
- 這24個“萬億俱樂部”城市均已披露了2021年GDP資料。
- 濟南、寧波、廣州8城兩年平均增速超過全國5.1%的資料。
- 成立5年來,奇點雲始終以“普惠大資料”的理念為引領
- 助推600+企業便捷地使用大資料,降低成本、節約能耗。
- 大資料成為解決這一難題的一個“抓手”。
- 壹點指數是壹點智庫通過深度挖掘壹點大資料、蛙眼全網資訊大資料