資料倉儲設計的問題和重要概念

sembh發表於2011-10-16

1:設計資料倉儲重要問題:粒度,分割槽。基本問題:資料清理。有多種資料分割槽的標準:(1)時間 (2) 業務範圍 (3) 地理位置 (4)組織單位

2:在操作性環境中的檔案資料的時間範圍稱為資料的操作性視窗,一般不長,一個星期到兩年。

3:從操作型環境提取資料到資料倉儲環境需要整合資料的問題:

(1)編碼不一致 (2)單位不一致 (3)欄位語義不一致

4:後設資料就是關於資料的資料。

5:在資料倉儲中,每一個主題域都是以一組相關的表來具體實現的。且每個主體域的資料可以儲存在不同的介質上。每個表都有一個時間元素作為關鍵字,記錄都是以某型形式的日期連線到關鍵字。

6:資料倉儲中的資料組織形式:

(1) 堆積結構--&gt輪轉綜合檔案

(2)簡單直接檔案:操作型資料間隔一定時間的一個快照。--&gt連續檔案

7:資料建模分三個層次:高層建模(實體關係圖ERD),中間層建模(DIS),底層建模(物理模型)

物理設計中需要考慮的核心是物理I/O的使用情況。什麼是物理I/O?物理I/O就是將資料從外部儲存器調入計算機,或者將資料從計算機送到外部儲存器。傳送以塊為單位進行。為什麼是核心問題?計算機運算速度以納秒計,而資料的傳輸速度以毫秒計。所以設計者的工作是組織好物理資料,以保證執行一次物理I/O能返回最大數量的記錄。

資料週期:從操作性環境中的資料發生變化起,到這個變化反映到資料倉儲中所用的時間。

8:關係模型是資料倉儲的最佳設計基礎(資料的間接訪問)

9:資料集市(部門級),適合使用星形連線(資料的直接訪問)

10:高粒度級,代表細節程度低;低粒度級,代表細節程度高.

概括為一句話就是:高細低粒,低細高粒

11:輕度綜合資料級(資料集市級)

12:ETL工具內估計可能主要是用來建立源到目標的對映,轉換規則等。那些複雜的業務邏輯,ETL估計可能是無法實現的。所以,我認為ETL做的工作,側重於技術層面,涉及到各種技術。比如處理非結構化文字技術等(shell,awk等)。對於處理那些複雜的業務邏輯的能力是有限的。

其實可以這麼理解:首先用程式語言編寫好實現邏輯,然後在程式碼外面包一層ETL工具,在ETL工具內配置對映,轉換規則等,然後進行抽取,轉換,載入工作。

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24214296/viewspace-1055729/,如需轉載,請註明出處,否則將追究法律責任。

相關文章