資料倉儲設計的問題和重要概念
1:設計資料倉儲重要問題:粒度,分割槽。基本問題:資料清理。有多種資料分割槽的標準:(1)時間 (2) 業務範圍 (3) 地理位置 (4)組織單位
2:在操作性環境中的檔案資料的時間範圍稱為資料的操作性視窗,一般不長,一個星期到兩年。
3:從操作型環境提取資料到資料倉儲環境需要整合資料的問題:
(1)編碼不一致 (2)單位不一致 (3)欄位語義不一致
4:後設資料就是關於資料的資料。
5:在資料倉儲中,每一個主題域都是以一組相關的表來具體實現的。且每個主體域的資料可以儲存在不同的介質上。每個表都有一個時間元素作為關鍵字,記錄都是以某型形式的日期連線到關鍵字。
6:資料倉儲中的資料組織形式:
(1) 堆積結構-->輪轉綜合檔案
(2)簡單直接檔案:操作型資料間隔一定時間的一個快照。-->連續檔案
7:資料建模分三個層次:高層建模(實體關係圖ERD),中間層建模(DIS),底層建模(物理模型)
物理設計中需要考慮的核心是物理I/O的使用情況。什麼是物理I/O?物理I/O就是將資料從外部儲存器調入計算機,或者將資料從計算機送到外部儲存器。傳送以塊為單位進行。為什麼是核心問題?計算機運算速度以納秒計,而資料的傳輸速度以毫秒計。所以設計者的工作是組織好物理資料,以保證執行一次物理I/O能返回最大數量的記錄。
資料週期:從操作性環境中的資料發生變化起,到這個變化反映到資料倉儲中所用的時間。
8:關係模型是資料倉儲的最佳設計基礎(資料的間接訪問)
9:資料集市(部門級),適合使用星形連線(資料的直接訪問)
10:高粒度級,代表細節程度低;低粒度級,代表細節程度高.
概括為一句話就是:高細低粒,低細高粒
11:輕度綜合資料級(資料集市級)
12:ETL工具內估計可能主要是用來建立源到目標的對映,轉換規則等。那些複雜的業務邏輯,ETL估計可能是無法實現的。所以,我認為ETL做的工作,側重於技術層面,涉及到各種技術。比如處理非結構化文字技術等(shell,awk等)。對於處理那些複雜的業務邏輯的能力是有限的。
其實可以這麼理解:首先用程式語言編寫好實現邏輯,然後在程式碼外面包一層ETL工具,在ETL工具內配置對映,轉換規則等,然後進行抽取,轉換,載入工作。
[@more@]來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24214296/viewspace-1055729/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 設計資料倉儲和資料倉儲的粒度
- 如何設計資料倉儲?粒度問題是一個最重要方面!
- 資料湖和中央資料倉儲的設計
- 關於資料倉儲和OLAP的問題!
- 資料倉儲中的概念
- ORACLE 資料倉儲概念Oracle
- 資料倉儲ODS、DW和DM概念 - 1
- 資料倉儲ODS、DW和DM概念 - 2
- 資料倉儲ODS、DW和DM概念 - 3
- 資料倉儲ODS、DW和DM概念 - 4
- [數倉]資料倉儲設計方案
- 資料倉儲經驗概念
- 資料倉儲設計(轉)
- 資料倉儲和後設資料
- 關於資料倉儲的設計!
- 關於資料倉儲 — ODS概念
- 資料倉儲設計指南(ZT)
- DW資料倉儲的一些概念
- 資料倉儲專題(4)-分散式資料倉儲事實表設計思考---討論精華分散式
- 資料倉儲(6)數倉分層設計
- 資料倉儲(7)數倉規範設計
- 資料倉儲面試資料(基本概念)(轉)面試
- 資料倉儲資料質量的問題探討(轉)
- 資料倉儲的效能問題及解決之道
- 網站資料分析:資料倉儲相關的問題(三)網站
- 資料倉儲建設-OLAP和資料立方體
- 資料倉儲分層概念之我見
- 資料倉儲入門之基本概念
- 資料庫和資料倉儲資料庫
- NoSQL 和資料倉儲SQL
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 資料倉儲之拉鍊表設計
- 資料倉儲架構分層設計架構
- 資料倉儲中商務智慧的基本概念
- 關於資料倉儲的十個最長問的問題 (轉)
- 論資料倉儲架構前需要考慮的問題架構
- 【資料倉儲】|5 維度建模設計和實施過程
- 如何用資料倉儲管理海量資料?直接訪問資料倉儲資料時的4個限制