設計資料倉儲和資料倉儲的粒度
1:設計資料倉儲的一種常用方法叫多維方法。需要星形連線,事實表和維。星型連線的中央的表稱作事實表。其周圍的其它實體稱為維表。
2:資料集市中的資料結構是根據部門的需求而建立的。所以,部門不同,資料集市也不同,但是,它們的所有結構都要依賴於資料倉儲中粒度化的資料。
3:如何確定粒度?
(1) 對資料倉儲中將來的資料行數和所需要的空間進行粗略估算(數量級)。
比如:確定建立所有的表,一兩張大表和多張小表,估計每張表中行的大小,估計一個上界和一個下界。
(2)計算索引資料所佔的空間,確定每張表(對錶中的每個關鍵字或會被直接搜尋的資料元素)的關鍵字或資料元素的長度,並弄清楚原始表中的每條記錄是否都存在關鍵字。
(3)將各表中行數可能的最大值和最小值*資料的最大長度和最小長度。索引項數目*關鍵字長度。
以上兩者的和=最終需要的資料總量
(4)考慮備份和恢復需要的空間。
以上4步,估算量達到數量級即可。
(5)在得出總行數的多少以後,採取不同的設計,開發與儲存方法。
比如,在一年內,總行數超過10億行,肯定會有大量資料要轉移到溢位儲存器上。溢位儲存器有什麼作用?它用於存放不常用資料,而且不會被經常訪問。
(6) 確定粒度級別,高或者低都沒有意義,為了得到這個合適的粒度級別,需要把資料放到終端使用者前。然後進行反覆迴圈迭代設計處理。
[@more@]來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24214296/viewspace-1055742/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- [數倉]資料倉儲設計方案
- 資料湖和中央資料倉儲的設計
- 資料倉儲(6)數倉分層設計
- 資料倉儲(7)數倉規範設計
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 淺談資料倉儲和大資料大資料
- 談談資料湖和資料倉儲
- 資料倉儲之拉鍊表設計
- 資料倉儲架構分層設計架構
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 大資料和資料倉儲解決方案大資料
- 資料倉儲 - ER模型模型
- 基於OneData的資料倉儲建設
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- ETL資料倉儲的使用方式
- 什麼是資料倉儲
- 什麼是資料倉儲?
- 資料倉儲經驗概念
- 資料倉儲建模方法論
- 資料倉儲與大資料的區別大資料
- 關於資料湖、資料倉儲的想法
- 資料湖會取代資料倉儲嗎?
- BI、資料倉儲和資料分析之間的區別
- 資料庫和資料倉儲的區別在哪兒?CN資料庫
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 【資料倉儲】|5 維度建模設計和實施過程
- 資料倉儲ODS、DW和DM概念 - 1
- 資料倉儲ODS、DW和DM概念 - 2
- 資料倉儲ODS、DW和DM概念 - 3
- 資料倉儲ODS、DW和DM概念 - 4
- 【資料倉儲】|4 維度建模之事實表設計
- 奈學:資料湖和資料倉儲的區別有哪些?
- 資料倉儲基礎介紹
- ABP 資料訪問 - IRepository 倉儲
- 資料倉儲題庫(附答案)
- 如何構建資料倉儲模型?模型
- 資料倉儲之拉鍊表
- 資料倉儲被淘汰了?都怪資料湖