聊一聊資料應用中的資料集市

qing_yun發表於2022-10-21

今天我們聊聊什麼是資料集市(DM)?什麼時候需要資料集市?具有成本效益的資料集市、資料集市的成本、資料集市的型別、實施資料集市的步驟、資料集市的結構以及資料集市的缺點以及資料倉儲(DW)與資料集市之間的差異。

一 什麼是資料集市

資料集市是資料倉儲的一小部分,主要與生產、採購、銷售、財務等特定業務領域應用相關。儲存在 DW 系統中的資料非常龐大,因此資料集市設計屬於各個部門的資料子集。因此,特定的使用者組可以輕鬆地利用這些資料進行分析。與具有多種使用者組合的資料倉儲不同,每個資料集市都有一組特定的終端使用者。終端使用者數量越少,響應時間就越短。

商業智慧 (BI) 工具也可以訪問資料集市。資料集市不包含重複或未使用的資料。它們確實會定期更新。它們是面向主題的靈活資料庫。每個團隊都有權開發和維護其資料集市,而無需修改資料倉儲或其他資料集市的資料。

資料集市更適合小型應用,因為它的成本遠低於資料倉儲系統。構建資料集市所需的時間也少於構建資料倉儲所需的時間。

多個資料集市的圖示:

什麼時候需要資料集市

根據需要,透過讓利益相關者參與來為部門規劃和設計資料集市,因為資料集市的運營成本有時可能會很高。

考慮以下構建資料集市的原因:

  • 如果想用一組使用者訪問控制策略對資料進行分割槽。

  • 如果某個部門想要更快地檢視查詢結果,而不是掃描龐大的 DW 資料。

  • 如果一個部門希望資料建立在其他硬體或軟體平臺上。

  • 如果一個部門希望以適合其工具的方式設計資料。

具有成本效益的資料集市

可以透過以下步驟構建具有成本效益的資料集市:

  • 確定功能劃分:將組織資料劃分為每個資料集市(部門)特定資料以滿足其要求,而無需任何進一步的組織依賴性。

  • 識別使用者訪問工具要求:市場上可能有不同的使用者訪問工具需要不同的資料結構。資料集市用於支援所有這些內部結構,而不會干擾 DW 資料。一個資料集市可以根據使用者需要與一個工具相關聯。資料集市還可以每天為此類工具提供更新的資料。

  • 識別訪問控制問題:如果 DW 系統中的不同資料段需要隱私並且應該由一組授權使用者訪問,那麼所有這些資料都可以移動到資料集市中。

資料集市成本

資料集市的成本可以估算如下:

  • 硬體和軟體成本:任何新新增的資料集市都可能需要額外的硬體、軟體、處理能力、網路和磁碟儲存空間來處理終端使用者請求的查詢。這使得資料集市成為一種昂貴的策略。因此,預算應該精確計劃。

  • 網路訪問:如果資料集市的位置與資料倉儲的位置不同,則所有資料都應透過資料集市載入過程進行傳輸。因此,應該提供一個網路來傳輸可能很昂貴的大量資料。

  • 時間視窗約束:資料集市載入過程所花費的時間將取決於各種因素,例如資料的複雜性和數量、網路容量、資料傳輸機制等。

二 資料倉儲與資料集市的比較

三 資料集市的型別

資料集市分為三種型別,即依賴型、獨立型和混合型。這種分類基於它們的填充方式,即來自資料倉儲或來自任何其他資料來源。提取、轉換和傳輸 (ETT) 是用於從任何源系統填充資料集市資料的過程。

讓我們詳細看看每種型別!

1) 依賴型資料集市

在依賴資料集市中,資料來源於現有資料倉儲本身。這是一種自上而下的方法,因為資料集市中的重組資料部分是從集中式資料倉儲中提取的。

資料集市可以在邏輯上或物理上使用 DW 資料,如下所示:

  • 邏輯檢視:在這種情況下,資料集市的資料與 DW 沒有物理分離。它透過虛擬檢視或表在邏輯上引用 DW 資料。

  • 物理子集:在這種情況下,資料集市的資料在物理上與 DW 分離。

一旦開發了一個或多個資料集市,就可以允許使用者僅訪問資料集市或訪問資料集市和資料倉儲。

在依賴資料集市的情況下,ETT 是一個簡化的過程,因為可用資料已經存在於集中式 DW 中。準確的彙總資料集應僅移動到相應的資料集市。

相關資料集市的示例如下所示:

2) 獨立型資料集市

獨立的資料集市最適合組織中的小型應用。這裡的資料不是來自現有的資料倉儲。獨立資料集市既不依賴於企業 DW,也不依賴於其他資料集市。

獨立資料集市是從外部或內部資料來源提取、轉換和載入資料的獨立系統。這些很容易設計和維護,直到它支援簡單的部門明智的業務需求。

在獨立資料集市的情況下,必須處理 ETT 流程的每個階段,其方式類似於將資料處理到集中式 DW 中的方式。但是,填充到資料集市的源和資料的數量可能會更少。

獨立資料集市的圖示:

3) 混合資料集市

在混合資料集市中,資料來自 DW 和其他作業系統。混合資料集市具有靈活的大型儲存結構。它還可以引用其他資料集市資料。

混合資料集市的圖示:

四 資料集市的實施步驟

被認為有點複雜的資料集市的實現在如下步驟進行了說明:

  • 設計:從業務使用者請求資料集市開始,設計階段就涉及到需求收集、從各個資料來源建立適當的資料、建立邏輯和物理資料結構以及 ER 圖。

  • 構建:團隊將設計資料集市系統中的所有表、檢視、索引等。

  • 填充:資料將與後設資料一起被提取、轉換並載入到資料集市中。

  • 訪問:資料集市資料可供終端使用者訪問。他們可以查詢資料以進行分析和報告。

  • 管理:這涉及各種管理任務,例如使用者訪問控制、資料集市效能微調、維護現有資料集市以及在系統出現故障時建立資料集市恢復方案。

五 資料集市的結構

每個資料集市的結構都是根據要求建立的。資料集市結構稱為星型聯接。這種結構會因一個資料集市而異。

星型連線是由事實表和維度表組成的多維結構,用於支援大量資料。星型聯接將在中心有一個事實表,由維度表包圍。各個事實表資料透過外來鍵引用與維度表資料相關聯。一個事實表可以被 20-30 個維度表包圍。與 DW 系統類似,在星型連線中,事實表僅包含數字資料,而相應的文字資料可以在維度表中進行描述。這種結構類似於 DW 中的星型模式。

星形連線結構的圖示。

但是來自集中式 DW 的粒度資料是任何資料集市資料的基礎。對規範化的 DW 資料進行多次計算,將其轉換為多維資料集市資料,以多維資料集的形式儲存。

這與如何將來自遺留源系統的資料轉換為規範化 DW 資料的工作方式類似。

六 資料集市的缺點

儘管資料集市比 DW 有一些好處,但它們也有一些缺點,如下所述:

  • 建立的不需要的資料集市很難維護。

  • 資料集市旨在滿足小型應用的需求。增加資料集市的大小會降低其效能。

  • 如果要建立更多數量的資料集市,那麼管理層應該妥善處理它們的版本控制、安全性和效能。

  • 資料集市可能包含歷史或彙總或詳細資料。但是,由於資料不一致的問題,DW 資料和資料集市資料的更新可能不會同時發生。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/5Vkmq1boxYiu-AN_4onGzQ,如有侵權,請聯絡管理員刪除。

相關文章