資料倉儲的組成

wmlm發表於2007-07-19

簡介

[@more@]

回顧資料倉儲的定義

什麼是資料的非易變性?

從操作型系統中提取的資料和從外部資料來源中取得的資料,在資料倉儲中被轉換、整合、儲存。資料倉儲中的資料不是用來進行每天的商業交易的。當你想要處理一個客戶的下一張訂單時,你不能從資料倉儲中得到當前存貨的狀態。在資料倉儲中,你只儲存過去的存貨狀態資訊,你也不需要根據你的每一筆訂單來實時地更新資料倉儲。

一旦資料存入了資料倉儲,你就不能對這個資料進行修改。資料倉儲中的資料不像操作型系統中的資料那樣,可以隨時修改。資料倉儲中的資料是用來查詢和分析的。

什麼是資料粒度?

在操作型系統中,資料儲存非常詳細。比如銷售資料會記錄每一筆交易,一旦你要彙總資料,你需要將這些單獨的交易資料累加。如果你需要某個月的訂購情況,那你要將這個月的所有明細都調出來,然後相加。在操作型系統中,一般不保留這一加和資料。

當使用者需要查詢資料倉儲來進行分析工作的時候,他通常首先看加和資料、總體情況。下一步才是看每個地區、每個辦事處的情況。一般來講,使用者習慣於從高層次向低層次的細節過渡。

因此,在資料倉儲中,會按不同層次組織資料的儲存。根據查詢的需要,你能夠得到不同級別的細節情況。資料粒度就是指這種細節的級別。越下層的資料,資料粒度的越小。

典型的三個資料層次:日報表、月報表、季報表

資料倉儲的組成

l 源資料部分

l 資料準備部分

l 資料儲存部分

l 多維資料庫和資料集市

l 資料探勘、OLAP、查詢與報表

2.1 源資料的四種類別

生產資料:在用的操作型系統的資料。

The significant and disturbing characteristic of production data is disparity. Your great challenge is to standardize and transform the disparate data from the various production systems, convert the data, and integrate the pieces into useful data for storage in the data warehouse.(生產資料的重要煩人的特性是多樣性。你面臨的最大挑戰是如何將這些從不同生產系統得到的多種資料進行標準化,並將它們轉換、整合成資料倉儲可以儲存的有用資料)

內部資料:每一個組織中的使用者,所擁有的電子表格、文件、客戶資訊等。你不能忽略這些存在於私人資料中的內部資料。

存檔資料:生產資料的歷史備份資料

外部資料:本行業的統計資料、競爭者的市場佔有率資料等等,有助於分析決策的資料。

2.2 資料準備部分

為了將源資料存入資料倉儲,有三個主要的程式需要完成:抽取、轉換、載入(ETL

資料抽取E:可以購買專用的工具軟體,也可以自己開發抽取程式。常見的方法是將資料抽取到一個獨立的物理環境中。

資料轉換T:在這個階段中,有以下幾個單獨的步驟:對不同來源的資料進行清洗,如更正錯誤、檢查邏輯矛盾或者補充遺失資料的預設值,也可以排除從多個資料來源系統中取同一個數值時出現的重複問題。

在轉換過程中,也包括對資料元素的標準化,比如對同類資料元素的長度進行標準化、語義的標準化。語義標準化指的是解決異形同義、同音異義的問題。比如不同的欄位名代表同一個元素或者反之,相同的欄位名代表不同的元素。

對資料的分類與聚類大部分工作是在資料轉換階段完成的。資料轉換還包括適當的資料彙總。在資料倉儲中,沒有必要將資料儲存到像操作型系統那樣的細節程式。

資料裝載L:資料裝載包括初始基礎資料的載入和源資料變動的載入

2.3 資料儲存部分

操作型系統通常只包含當前的資料,而資料倉儲中需要儲存分析用的大量歷史資料,而且必須使這些資料的結構和格式適合分析工作,而不是適合快速檢索的單條資訊。資料倉儲中的資料庫可以是關聯式資料庫管理系統,也可以使用多維資料庫管理系統。如果使用多維資料庫,就需要對資料倉儲中抽取的資料進行加和,加和後的資料儲存在多維資料庫裡。這種多維資料庫通常是專賣產品。

2.4 資料傳遞部分

在資料倉儲有了資料之後,就可以對外進行資訊的傳遞,這包括:提供定製的報表、複雜的查詢、進行多維分析、提供給資料探勘需要的資料。

2.5 後設資料部分

後設資料是資料倉儲的資料字典,它儲存了資料倉儲本身的資訊。後設資料包括操作型後設資料、抽取和轉換後設資料、終端使用者後設資料。

2.6 管理和控制部分

這部分對資料倉儲中的服務和活動起協調作用。它控制了資料轉換和將資料裝載儲存器的工作。它監視資料進入準備區及從準備區轉輸到儲存器的過程。後設資料是管理模組的資料來源。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/271063/viewspace-927143/,如需轉載,請註明出處,否則將追究法律責任。

相關文章