資料倉儲設計的問題和重要概念
1:設計資料倉儲重要問題:粒度,分割槽。基本問題:資料清理。有多種資料分割槽的標準:(1)時間 (2) 業務範圍 (3) 地理位置 (4)組織單位
2:在操作性環境中的檔案資料的時間範圍稱為資料的操作性視窗,一般不長,一個星期到兩年。
3:從操作型環境提取資料到資料倉儲環境需要整合資料的問題:
(1)編碼不一致 (2)單位不一致 (3)欄位語義不一致
4:後設資料就是關於資料的資料。
5:在資料倉儲中,每一個主題域都是以一組相關的表來具體實現的。且每個主體域的資料可以儲存在不同的介質上。每個表都有一個時間元素作為關鍵字,記錄都是以某型形式的日期連線到關鍵字。
6:資料倉儲中的資料組織形式:
(1) 堆積結構-->輪轉綜合檔案
(2)簡單直接檔案:操作型資料間隔一定時間的一個快照。-->連續檔案
7:資料建模分三個層次:高層建模(實體關係圖ERD),中間層建模(DIS),底層建模(物理模型)
物理設計中需要考慮的核心是物理I/O的使用情況。什麼是物理I/O?物理I/O就是將資料從外部儲存器調入計算機,或者將資料從計算機送到外部儲存器。傳送以塊為單位進行。為什麼是核心問題?計算機運算速度以納秒計,而資料的傳輸速度以毫秒計。所以設計者的工作是組織好物理資料,以保證執行一次物理I/O能返回最大數量的記錄。
資料週期:從操作性環境中的資料發生變化起,到這個變化反映到資料倉儲中所用的時間。
8:關係模型是資料倉儲的最佳設計基礎(資料的間接訪問)
9:資料集市(部門級),適合使用星形連線(資料的直接訪問)
10:高粒度級,代表細節程度低;低粒度級,代表細節程度高.
概括為一句話就是:高細低粒,低細高粒
11:輕度綜合資料級(資料集市級)
12:ETL工具內估計可能主要是用來建立源到目標的對映,轉換規則等。那些複雜的業務邏輯,ETL估計可能是無法實現的。所以,我認為ETL做的工作,側重於技術層面,涉及到各種技術。比如處理非結構化文字技術等(shell,awk等)。對於處理那些複雜的業務邏輯的能力是有限的。
其實可以這麼理解:首先用程式語言編寫好實現邏輯,然後在程式碼外面包一層ETL工具,在ETL工具內配置對映,轉換規則等,然後進行抽取,轉換,載入工作。
[@more@]來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24214296/viewspace-1055729/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料湖和中央資料倉儲的設計
- 資料倉儲ODS、DW和DM概念 - 1
- 資料倉儲ODS、DW和DM概念 - 2
- 資料倉儲ODS、DW和DM概念 - 3
- 資料倉儲ODS、DW和DM概念 - 4
- [數倉]資料倉儲設計方案
- 資料倉儲經驗概念
- 資料倉儲(6)數倉分層設計
- 資料倉儲(7)數倉規範設計
- 資料倉儲的效能問題及解決之道
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 資料倉儲之拉鍊表設計
- 資料倉儲架構分層設計架構
- 資料倉儲分層概念之我見
- 【資料倉儲】|5 維度建模設計和實施過程
- ABP 資料訪問 - IRepository 倉儲
- 資料倉儲題庫(附答案)
- 淺談資料倉儲和大資料大資料
- 談談資料湖和資料倉儲
- git clone倉儲問題Git
- 基於OneData的資料倉儲建設
- 大資料和資料倉儲解決方案大資料
- socket程式設計中常見的概念問題!程式設計
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 【資料倉儲】|4 維度建模之事實表設計
- BI、資料倉儲和資料分析之間的區別
- 資料庫和資料倉儲的區別在哪兒?CN資料庫
- ETL是什麼?淺談ETL對資料倉儲的重要性
- Salesforce的多型儲存和SAPC4C的後設資料儲存倉庫Salesforce多型
- 【資料倉儲】|3 維度建模之維度表設計
- 資料倉儲主題域如何劃分
- 企業不可忽視的資料儲存和資料安全問題!
- 奈學:資料湖和資料倉儲的區別有哪些?
- Salesforce的多型儲存和SAP C4C的後設資料儲存倉庫Salesforce多型
- 好程式設計師大資料培訓分享關於kafka的幾個重要問題程式設計師大資料Kafka
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 資料倉儲服務可靠性測試用例設計
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- ETL資料倉儲的使用方式