DW2.0下一代資料倉儲架構_第14章 DW2.0與粒度管理器(讀書筆記)
版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
幾乎所有來自外部源的資料都是透過ETL處理傳遞到互動區的,雖然偶爾也直接傳遞到整合區。但是一些少見的情況下,我們也透過另一
種方式傳遞來自外部環境的資料。
粒度管理器
這種處理機制就叫做粒度管理器。粒度管理器所作的工作與ETL處理截然不同。普通的ETL處理中物件域對不同型別的習慣性儲存。ETL讀
入一個源記錄,然後將該記錄分成幾個不同部分,根據他們所以來的物件域的不同,分別將這幾個部分傳送到不同的目的地。粒度管理器與
ETL處理截然不同。與將資料從單一的記錄拆分成多條後送入物件導向的資料單元不同,粒度管理器實際上是一個合併資料的過程。合併或
統一資料的需求並不是經常出現。但是在某些罕見情況下,當外部世界的源資料細節程度太低時,這些資料就必須統一。在使用因特網時
產生的點選流資料就是一個需要使用粒度管理器的絕好例子。當網路處理行為被追蹤時,滑鼠的每次移動、頁面的每次跳轉以及每次進入一
個新的連結都會產生一條點選流記錄。這些發生在網站被追蹤時的活動資料的細節程度被降到最低。這些低階別的點選流資料往往存在很大
的問題,絕大部分資料都沒有任何商業價值。據估計,最終90%的點選流資料都是無用的。點選流資料跟蹤的特點就是產生以及獲得了大量的
無用資料。這些在點選流資料中存在的無用資料是一個極大的沒有任何必要的開銷。另一個常見的由於粒度太低而需要粒度管理器的例子是
模擬計算機手工資料。大部分模擬資料都是可有可無的,但是也有小部分是及其重要的。這些重要資料的粒度非常低,但是又必須在DW2.0環
境下使用,因此它必須在使用粒度管理器處理之後才能被匯入。
過濾資料
大量的資料透過一個類似點選流的處理機制進入工作流,然後被過濾、聚集或者合併。當在DW2.0環境下有多個地方需要使用時,就可以
放置粒度管理器。當資料進入互動區時,資料直接進入整合區的位置可以放置粒度管理器。當資料被傳遞到歸檔環境時偶爾也會使用粒度
管理器。在資料被傳遞到歸檔環境時使用粒度管理器是一種非常少見的情況。只有在整合區發生大規模的交易,並且這些交易的細節永遠不
需要用於分析的情況下,使用粒度管理器才有意義。
粒度管理器的功能
1、消除不必要的資料:那些在未來對公司沒有任何參考價值的輸入記錄將被丟棄,這些資料預計佔了總資料90%
2、合併:那些對公司有參考價值的資料可以經常進行合併,即將多條記錄合併為一條記錄
3、聚集:某些情況下降不同種類的資料聚整合一條單獨的記錄會比資料合併更有意義。
4、改寫資料:當資料被改寫時,它會以一種格式和結構輸入而以另外一種格式和結構輸出。改寫那些原本粒度很低的資料非常常見。
這些動作的直接結果就是極大地壓縮了資料並且剔除了無用資料。
本地與第三方粒度管理器的比較
資料粒度管理器可以由第三方的軟體供應商構造,也可以由本地軟體構造。絕大多數情況下,我們都是用第三方ETL軟體,但是使用第三
方粒度管理軟體的需求卻不是那麼強烈。只有很少的特性是粒度管理器和ETL共有的。面向顧客的處理過程需要經常使用粒度管理器,因此,
很少用本地軟體來構造粒度管理器。
粒度管理器的並行化
有時會有大量的資料需要透過粒度管理器來處理,那麼就有可能需要透過並行地執行粒度管理軟體來減輕處理負擔。透過並行地執行兩
個或者更多的粒度管理軟體例項,處理資料所需的時間將會大幅度減少。
作為副產品的後設資料
除了可以將資料壓縮到一個合適並且有效地大小外,粒度管理還能夠被用來生成後設資料。在粒度管理器中作為副產品生成的後設資料可能
包含以下資訊:
1、那些資料被丟棄了
2、那些資料被合併了,合併後的記錄包含哪些內容
3、那些資料被聚集了,聚合後的記錄包含哪些內容
4、資料是如何被改寫的,改寫後的記錄包含哪些內容
後設資料彙總了粒度管理的處理結果。
總結:
有時外部的資料對於DW2.0環境來說粒度太低,這時就需要在資料被載入資料倉儲之前對它使用粒度管理器,從而提高資料的粒度級。
當資料進入DW2.0環境或者在DW2.0各區傳遞時,粒度管理器就負責對資料進行過濾、合併、聚集或者重構
資料粒度管理器能夠並行的執行。它可以由本地軟體構造,也可以透過第三方軟體供應商構造。
後設資料是粒度管理過程中產生的副產品。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1320923/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- DW2.0下一代資料倉儲架構_第10章 DW2.0與安全(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第2章 DW2.0簡介(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第15章 DW2.0和效能(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第13章 ETL處理與DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第20章 DW2.0與記錄系統(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第12章 DW2.0的資料流(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第8章 資料模型和DW2.0(讀書筆記)架構模型筆記
- DW2.0下一代資料倉儲架構_第23章 管理DW2.0環境(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第9章 監視DW2.0環境(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第17章 成本驗證和DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第19章 DW2.0和非結構化資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第4章 DW2.0中的後設資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第7章 統計處理和DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第16章 遷移(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第22章 DW2.0環境中的處理(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第3章 DW2.0組成部分--關於不同區(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構 前言(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第11章 時間相關資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第5章 DW2.0技術基礎設定的流動性(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第21章 多方面的話題(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第1章 遷資料倉儲簡史及第一代資料倉儲(讀書筆記)架構筆記
- 維度處理-資料倉儲-讀書筆記(四)筆記
- 《微服務架構設計模式》讀書筆記 | 第8章 外部API模式微服務架構設計模式筆記API
- 讀書筆記:深入解析oracle-第4章 資料字典筆記Oracle
- DW2.0-下一代資料倉儲架構架構
- 設計資料倉儲和資料倉儲的粒度
- 《微服務架構設計模式》讀書筆記 | 第2章 服務的拆分策略微服務架構設計模式筆記
- 《大型網站技術架構:核心原理與案例分析》讀書筆記 - 第2篇 架構網站架構筆記
- 《微服務架構設計模式》讀書筆記 | 第7章 在微服務架構中實現查詢微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第9章 微服務架構中的測試策略(上)微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第3章 微服務架構中的程式間通訊微服務架構設計模式筆記
- 讀資料湖倉04資料架構與資料工程架構
- 《微服務架構設計模式》讀書筆記 | 第1章 逃離單體地獄微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第4章 使用Saga管理事務微服務架構設計模式筆記
- 讀書筆記之《現代軟體工程》第5.5章、第6章、第7章筆記軟體工程
- 資料倉儲Build The Data Warehouse(William H.Inmon)學習筆記 --- 第八章、外部資料/非結構化資料與資料倉儲UI筆記
- 讀書筆記——讀《構建之法:現代軟體工程》第13~17章筆記軟體工程
- 《APUE》第7章 程式環境-讀書筆記筆記