DW2.0下一代資料倉儲架構_第11章 時間相關資料(讀書筆記)

thamsyangsw發表於2014-11-04

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
 
    DW2.0環境一個基本要素是資料與時間的關係。不像其他環境中資料與時間是無關的那樣,在DW2.0環境中,所有資料都以這樣或那樣的
方式與時間相關。

DW2.0中的所有資料--與時間相關
    在訪問任何資料單元時,需要知道資料在什麼時間是最精確的。一些資料表示從1995年開始的資訊。另外一些資料表示從1月份開始的
資訊,還有的資料表示從今天早上開始的資訊。在DW2.0中,不論是明確的還是暗含的,所有的資料均有一個描述了它的精確性和相關性的
相關時間。有兩種記錄型別。一種是用來建立資料在某一時刻的快照。這種型別資料的主鍵結構中包含日期和時間資訊。另一型別含有一個
開始日期和結束日期,這表示其代表了一個時間塊而不是時間點。這兩種情況,時間元素都是主鍵結構的一部分。主鍵是複合鍵,而時間
部分是複合鍵中的一個組成部分。

互動區中的時間相關性
    在互動區中,資料的相關性有些不同。在該區中,資料值被假定為當前訪問的時間。互動區資料用來表示訪問時刻的精確值,所以互動
區中不包含日期資訊。

DW2.0其他部分中的資料相關
    在整合區、近線區和歸檔區中的每一條記錄均表示一個時間點或一個時間段。這種資料與時間的相關的概念產生了一些完全不同的處理
方式。在互動環境中,完成資料更新。在這種情況下資料的更新是指資料值的實際改變。

整合區中的事務處理
    讓我們考慮整合區中的一個情況。在上午10點31分時,整合區資料庫中有一個2000美元的記錄。然後執行了一個交易,在上午10點32分
一個新的記錄被放到資料庫中。這樣在資料庫中有兩個不同的記錄,分別顯示了不同時間下的不同資料。因為資料與時間的不同關聯方式,
不同環境下的資料庫中的資料內容完全不同。

離散資料
    離散資料對於大量的快速變化的變數很實用。

連續時間段資料
    連續時間段資料有一個不同的特徵集。典型地,記錄中的連續時間段資料僅有很少的變流量,並且這些變數並不經常改變。造成這種
特性的原因是每次有一個值改變時,會重新寫入一個新的連續時間段記錄。在設計連續時間段記錄時要十分小心,因為如果資料沒有被適當
地組合在一起,就可能導致切實的混亂。
    姓名、出生日期、地址和性別等屬性適合存入連續時間段記錄:1、在內容上更改緩慢;2、全部都與個人的描述資訊相關。

一個記錄序列
    多個記錄形成了一個連續的序列。儘管可以利用多個連續時間段記錄建立一個連續記錄,但是這並不允許重疊。如果存在記錄的重疊,
將導致邏輯上的不一致。例如,在重疊的時間上有兩個不同的居住地址,這在邏輯上說不通。

非重疊記錄集
    雖然多個連續時間段記錄不允許重疊,但是他們的時間可以是不連續的。

開始和結束一個記錄序列
    存在多種選擇來開始和結束連續時間段記錄的序列。一個記錄序列可以在任意時間點開始和結束。序列中第一個記錄的開始時間可以是
一個實際值,也可能是負無窮小,這時表明記錄包含了從一開始的資料。如果是一個時間點,對任意一個比這個開始日期更早的時間點,都
只是不存在資料的定義。記錄序列的結束操作也和上面的一樣。一個連續時間段記錄的序列中的結束記錄的結束時間可以是具體值,也可以
是無窮大。無窮大時表明這個記錄中的值將會一直被應用,知道在寫入新的記錄。

資料的連續性
    離散資料的一個侷限就是在資料的兩個測量值之間沒有連續性。而連續時間段資料沒有上述侷限。藉助連續時間段資料,可以對資料的
時間連續做一個判斷。

時間瓦解資料
    在時間瓦解資料中,存在著多種對資料的變數的形式。當資料寫入系統時,其一小時來度量。然後當一天結束時,會把這一天24小時的
值都加起來形成一個一個一天的值的記錄,並將這24小時的度量值清零;在一週結束時,會建立一個一週的總值並將每天的值清零;在一個
月結束時,會建立一個一月的總值並將每週的值清零;在一年結束時,建立一個一年的總值並將月的值清零。在完成這些後,對於小時
日、周等都僅有一個記錄集合。因此會節省大量的儲存空間。在基於資料越新,需要的資料細節就越多這樣的假設下,時間瓦解資料表現得
很好。如果某人要找今天的某個小時的資料,很容易找到,但是如果要尋找6個月之前某個小時的資料,就無法找到了。

歸檔區中的時間相關變數
    在歸檔區中通常以年為黨文儲存資料。一年的資料被儲存,緊接著又一年的資料被儲存。以這種方式分割資料有很多充分的原因。最具
有說服力的原因是資料的語義每年都會有細微的變化。某年假如一條新的資料元素。第二年會加入一個不同定義的資料元素。第三年會有
一種不同的計算方式。每年總會與之前的年份有細微的變化。

總結:
    DW2.0中的所有資料以這樣或那樣的形式與某個時刻相關。
    互動區資料都是當前資料,其在訪問時刻是準確的。DW2.0其他形式的資料記錄都帶有時間標記。
    時間標記有兩種形式。一種附加了一個日期資訊,另一種附加了一個開始日期和結束日期。第一種資料是離散資料,後一種是連續時間
段資料。
    連續時間段資料可以串成一個更長的時間段。多個連續時間段記錄中定義的時間段可以是不連續的但不能夠重疊。
    DW2.0中還存在其他形式的時間相關。例如時間瓦解資料。僅噹噹前資料需要被訪問且在細節上進行分析的時候,時間瓦解資料是非常
有用的。隨著時間推移,對於細節的需求就會減少。
    在DW2.0中還有一種時間相關刑事就是歸檔資料所用的形式,通常,歸檔資料按照每年不同的資料定義將資料組織起來。這就允許資料
隨著時間推移有語義上的細微的變化。

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1320018/,如需轉載,請註明出處,否則將追究法律責任。

相關文章