設計資料倉儲和資料倉儲的粒度

sembh發表於2011-10-17

1:設計資料倉儲的一種常用方法叫多維方法。需要星形連線,事實表和維。星型連線的中央的表稱作事實表。其周圍的其它實體稱為維表。

2:資料集市中的資料結構是根據部門的需求而建立的。所以,部門不同,資料集市也不同,但是,它們的所有結構都要依賴於資料倉儲中粒度化的資料。

3:如何確定粒度?

(1) 對資料倉儲中將來的資料行數和所需要的空間進行粗略估算(數量級)。

比如:確定建立所有的表,一兩張大表和多張小表,估計每張表中行的大小,估計一個上界和一個下界。

(2)計算索引資料所佔的空間,確定每張表(對錶中的每個關鍵字或會被直接搜尋的資料元素)的關鍵字或資料元素的長度,並弄清楚原始表中的每條記錄是否都存在關鍵字。

(3)將各表中行數可能的最大值和最小值*資料的最大長度和最小長度。索引項數目*關鍵字長度。

以上兩者的和=最終需要的資料總量

(4)考慮備份和恢復需要的空間。

以上4步,估算量達到數量級即可。

(5)在得出總行數的多少以後,採取不同的設計,開發與儲存方法。

比如,在一年內,總行數超過10億行,肯定會有大量資料要轉移到溢位儲存器上。溢位儲存器有什麼作用?它用於存放不常用資料,而且不會被經常訪問。

(6) 確定粒度級別,高或者低都沒有意義,為了得到這個合適的粒度級別,需要把資料放到終端使用者前。然後進行反覆迴圈迭代設計處理。

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24214296/viewspace-1055742/,如需轉載,請註明出處,否則將追究法律責任。

相關文章