聊一聊資料應用中的資料集市
今天我們聊聊什麼是資料集市(DM)?什麼時候需要資料集市?具有成本效益的資料集市、資料集市的成本、資料集市的型別、實施資料集市的步驟、資料集市的結構以及資料集市的缺點以及資料倉儲(DW)與資料集市之間的差異。
一 什麼是資料集市
資料集市是資料倉儲的一小部分,主要與生產、採購、銷售、財務等特定業務領域應用相關。儲存在 DW 系統中的資料非常龐大,因此資料集市設計屬於各個部門的資料子集。因此,特定的使用者組可以輕鬆地利用這些資料進行分析。與具有多種使用者組合的資料倉儲不同,每個資料集市都有一組特定的終端使用者。終端使用者數量越少,響應時間就越短。
商業智慧 (BI) 工具也可以訪問資料集市。資料集市不包含重複或未使用的資料。它們確實會定期更新。它們是面向主題的靈活資料庫。每個團隊都有權開發和維護其資料集市,而無需修改資料倉儲或其他資料集市的資料。
資料集市更適合小型應用,因為它的成本遠低於資料倉儲系統。構建資料集市所需的時間也少於構建資料倉儲所需的時間。
多個資料集市的圖示:
什麼時候需要資料集市
根據需要,透過讓利益相關者參與來為部門規劃和設計資料集市,因為資料集市的運營成本有時可能會很高。
考慮以下構建資料集市的原因:
-
如果想用一組使用者訪問控制策略對資料進行分割槽。
-
如果某個部門想要更快地檢視查詢結果,而不是掃描龐大的 DW 資料。
-
如果一個部門希望資料建立在其他硬體或軟體平臺上。
-
如果一個部門希望以適合其工具的方式設計資料。
具有成本效益的資料集市
可以透過以下步驟構建具有成本效益的資料集市:
-
確定功能劃分:將組織資料劃分為每個資料集市(部門)特定資料以滿足其要求,而無需任何進一步的組織依賴性。
-
識別使用者訪問工具要求:市場上可能有不同的使用者訪問工具需要不同的資料結構。資料集市用於支援所有這些內部結構,而不會干擾 DW 資料。一個資料集市可以根據使用者需要與一個工具相關聯。資料集市還可以每天為此類工具提供更新的資料。
-
識別訪問控制問題:如果 DW 系統中的不同資料段需要隱私並且應該由一組授權使用者訪問,那麼所有這些資料都可以移動到資料集市中。
資料集市成本
資料集市的成本可以估算如下:
-
硬體和軟體成本:任何新新增的資料集市都可能需要額外的硬體、軟體、處理能力、網路和磁碟儲存空間來處理終端使用者請求的查詢。這使得資料集市成為一種昂貴的策略。因此,預算應該精確計劃。
-
網路訪問:如果資料集市的位置與資料倉儲的位置不同,則所有資料都應透過資料集市載入過程進行傳輸。因此,應該提供一個網路來傳輸可能很昂貴的大量資料。
-
時間視窗約束:資料集市載入過程所花費的時間將取決於各種因素,例如資料的複雜性和數量、網路容量、資料傳輸機制等。
二 資料倉儲與資料集市的比較
三 資料集市的型別
資料集市分為三種型別,即依賴型、獨立型和混合型。這種分類基於它們的填充方式,即來自資料倉儲或來自任何其他資料來源。提取、轉換和傳輸 (ETT) 是用於從任何源系統填充資料集市資料的過程。
讓我們詳細看看每種型別!
1) 依賴型資料集市
在依賴資料集市中,資料來源於現有資料倉儲本身。這是一種自上而下的方法,因為資料集市中的重組資料部分是從集中式資料倉儲中提取的。
資料集市可以在邏輯上或物理上使用 DW 資料,如下所示:
-
邏輯檢視:在這種情況下,資料集市的資料與 DW 沒有物理分離。它透過虛擬檢視或表在邏輯上引用 DW 資料。
-
物理子集:在這種情況下,資料集市的資料在物理上與 DW 分離。
一旦開發了一個或多個資料集市,就可以允許使用者僅訪問資料集市或訪問資料集市和資料倉儲。
在依賴資料集市的情況下,ETT 是一個簡化的過程,因為可用資料已經存在於集中式 DW 中。準確的彙總資料集應僅移動到相應的資料集市。
相關資料集市的示例如下所示:
2) 獨立型資料集市
獨立的資料集市最適合組織中的小型應用。這裡的資料不是來自現有的資料倉儲。獨立資料集市既不依賴於企業 DW,也不依賴於其他資料集市。
獨立資料集市是從外部或內部資料來源提取、轉換和載入資料的獨立系統。這些很容易設計和維護,直到它支援簡單的部門明智的業務需求。
在獨立資料集市的情況下,必須處理 ETT 流程的每個階段,其方式類似於將資料處理到集中式 DW 中的方式。但是,填充到資料集市的源和資料的數量可能會更少。
獨立資料集市的圖示:
3) 混合資料集市
在混合資料集市中,資料來自 DW 和其他作業系統。混合資料集市具有靈活的大型儲存結構。它還可以引用其他資料集市資料。
混合資料集市的圖示:
四 資料集市的實施步驟
被認為有點複雜的資料集市的實現在如下步驟進行了說明:
-
設計:從業務使用者請求資料集市開始,設計階段就涉及到需求收集、從各個資料來源建立適當的資料、建立邏輯和物理資料結構以及 ER 圖。
-
構建:團隊將設計資料集市系統中的所有表、檢視、索引等。
-
填充:資料將與後設資料一起被提取、轉換並載入到資料集市中。
-
訪問:資料集市資料可供終端使用者訪問。他們可以查詢資料以進行分析和報告。
-
管理:這涉及各種管理任務,例如使用者訪問控制、資料集市效能微調、維護現有資料集市以及在系統出現故障時建立資料集市恢復方案。
五 資料集市的結構
每個資料集市的結構都是根據要求建立的。資料集市結構稱為星型聯接。這種結構會因一個資料集市而異。
星型連線是由事實表和維度表組成的多維結構,用於支援大量資料。星型聯接將在中心有一個事實表,由維度表包圍。各個事實表資料透過外來鍵引用與維度表資料相關聯。一個事實表可以被 20-30 個維度表包圍。與 DW 系統類似,在星型連線中,事實表僅包含數字資料,而相應的文字資料可以在維度表中進行描述。這種結構類似於 DW 中的星型模式。
星形連線結構的圖示。
但是來自集中式 DW 的粒度資料是任何資料集市資料的基礎。對規範化的 DW 資料進行多次計算,將其轉換為多維資料集市資料,以多維資料集的形式儲存。
這與如何將來自遺留源系統的資料轉換為規範化 DW 資料的工作方式類似。
六 資料集市的缺點
儘管資料集市比 DW 有一些好處,但它們也有一些缺點,如下所述:
-
建立的不需要的資料集市很難維護。
-
資料集市旨在滿足小型應用的需求。增加資料集市的大小會降低其效能。
-
如果要建立更多數量的資料集市,那麼管理層應該妥善處理它們的版本控制、安全性和效能。
-
資料集市可能包含歷史或彙總或詳細資料。但是,由於資料不一致的問題,DW 資料和資料集市資料的更新可能不會同時發生。
來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/5Vkmq1boxYiu-AN_4onGzQ,如有侵權,請聯絡管理員刪除。
相關文章
- 聊一聊資料匯出那些事
- 聊一聊時序資料庫和TimescaleDB資料庫
- 聊一聊圖資料庫的發展現狀資料庫
- 一次SQL調優 聊一聊 SQLSERVER 資料頁SQLServer
- 聊一聊資料庫基準測試那些事資料庫
- 聊一聊常見的瀏覽器端資料儲存方案瀏覽器
- 聊一聊異構系統間資料一致性
- 聊一聊redis十種資料型別及底層原理Redis資料型別
- 聊一聊 Javascript 中的 ASTJavaScriptAST
- 聊一聊HTTPS雙向認證的簡單應用HTTP
- 從前世今生聊一聊,大廠為啥親睞時序資料庫資料庫
- 聊一聊Javascript中的Promise物件JavaScriptPromise物件
- 聊一聊在 Airtest 自動化中如何清除 iOS 後臺應用AIiOS
- [貝聊科技]理解資料庫索引資料庫索引
- 一本正經的聊資料結構(4):樹資料結構
- 聊一聊chkrookit的誤信和誤用
- 面向未來,我們來聊一聊什麼是現代化資料架構架構
- 聊一下關於判斷資料型別資料型別
- 聊一聊Vue中的回撥函式Vue函式
- 聊一聊 JVM 的 GCJVMGC
- 聊一聊 Spring 中的擴充套件機制(一)Spring套件
- 聊一聊 RestTemplateREST
- 聊一聊原生瀏覽器中的模組瀏覽器
- 今天我們來聊一聊Java中的SemaphoreJava
- 簡單聊一聊Javascript中的模組化JavaScript
- SpringBoot在貝聊的應用Spring Boot
- 聊新基建、信創,資料庫不能少!資料庫
- 解析資料庫的“四世同堂”,暢聊資料前沿技術!資料庫
- 對話科藍軟體張俊喜:聊一聊資料庫智慧財產權的那些事兒資料庫
- 課時5:閒聊之Python的資料型別Python資料型別
- 聊一聊Mac系統中的隱藏快捷鍵Mac
- 聊一聊Java8中map的putIfAbsent,computeIfAbsent 方法Java
- 聊一聊 TLS/SSLTLS
- 美國資深資料科學家暢聊:資料分析與北美電商資料科學
- 簡單聊一聊Vuex的原理Vue
- 聊一聊Java的列舉enumJava
- 聊一聊遊戲的壓測遊戲
- 聊一聊MySQL的字符集MySql