DW2.0下一代資料倉儲架構_第12章 DW2.0的資料流(讀書筆記)

thamsyangsw發表於2014-11-04

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
 
    DW2.0架構包含許多組成部分,下一代DW2.0資料倉儲也包含了許多技術。建立一個DW2.0資料倉儲環境不像蓋房子,也不想建立一個小鎮
更像建設一座大都市。由於DW2.0所涉及的範圍的龐大和複雜性,它很容易使人迷失。人們很容易會僅僅關注並仔細瞭解DW2.0的某一方面。
如果這樣做,那麼你就會忽略整個架構的更大“景象”。而有時候,從架構的細節退後一步去觀察更大的“景象”非常有用。

貫穿整個架構的資料流
    在DW2.0架構中貫穿著一個資料流。在許多方面,這個資料流就像人體內的血液一樣重要。資料流滿足了DW2.0所完成的其他一切事情的
需求。資料流從資料進入互動環境開始。資料可以直接進入互動區或者透過ETL處理進入該區。資料如何進入互動區完全取決於外部應用和
DW2.0中的應用。

進入互動區
    資料作為面向應用的資料進入互動區。在進入互動區之後,資料被髮送到整合區。資料流一個令人感興趣的方面是資料流的速度和傳輸
量。資料流入互動區的速度很快,在外部應用環境中僅僅傳輸幾毫秒就會進入互動區。具有這種性質的輸入交易資料可視為實時資料。當然
如果交易是從互動區直接執行,資料就根本沒有延時。在其他情況下,外部應用的交易資料可能需要一個小時或一天才能進入互動環境。進
入互動環境時,資料的時間延遲完全由對資料的業務需求所決定。如果一個合理的業務例項要求資料立即進入互動環境,那麼這些資料就
應該立即進入。如果沒有,那麼資料的傳送就不必很迅速。需要指出的是:資料進入互動區需要的速度越快,為完成這種快速資料轉換的
目標所需要的技術也就越複雜和昂貴。

ETL的角色
    來自外部應用的資料通常由ETL處理進入互動區。資料透過簡單地檔案傳輸進入互動區也是可能的,但這並不是很常見。資料更可能經由
標準的ETL技術進入互動區。傳到整合區的資料來自互動區。資料也可能直接進入整合區而不經過互動區。一般的處理發生在資料從互動區
傳入整合區的時候。通常資料是透過ETL處理傳入整合區的。ETL處理把資料從一個面向應用的結構重組為一個企業資料結構。
 
進入整合區的資料流
    進入整合區的資料流在速度上更為寬鬆。資料流以定期的方式(天、周、月甚至季)進入整合環境。資料流以小的快速的噴射形式進入
互動區,每次就進入一個資料記錄。整個檔案或大量的記錄一次性傳入互動區是不常見的。資料進入互動區如同細雨,而不是洪水。資料進
入整合區是由事務的執行開啟的。一旦一個事務完成,它所包含的資料就準備進入整合區。但在進入互動區之前對事務的收集和排隊不可估
量地減緩了事務處理速度,使得不能達到互動過程的目標。資料傳輸到整合區的觸發過程是比較簡單地:隨著時間的推移,在某些情況下,
資料需要以小時未單位迅速進入整合區。在其他情況下,資料可以以天為單位等待轉移。通常,如果報表所需的資料需要精確到秒,那麼該
報表就應該使用互動區的資料建立。一般來說,從整合區產生獲取直接或實時資料的報告或分析是錯誤的。基於整合資料的報告和分析都具
有戰略性質,不應該依賴於精確到秒的實時資料。因此,從互動區到整合區的資料流的移動可用一個較為寬鬆的安排來完成。

進入近線區的資料流
    正如從外部應用到互動區一樣,從互動區到整合區的資料流同樣重要。在DW2.0資料倉儲中,它們並不是僅有的主要資料流,從整合區到
近線區的資料流是DW2.0中另一個重要的資料流。這種資料流是可選的,並出現在一下集中情況下:1、整合區有很多資料;2、互動區中的
某些部分資料正在休眠;3、對整合區資料有訪問的要求。如果整合區的資料不符合以上的標準,那麼就沒有必要將其移至近線區。在許多方
面,近線區都充當整合區一個快取,當資料不需要很頻繁的訪問時,就放置在近線區。近線區基於非磁碟儲存。因此,近線資料儲存起來不
會很昂貴,而且能夠容納大量資料。來自整合區的資料流一般是比較慢的。通常整合區的資料都會定期地大塊移動。資料訪問的機率降低時
將整合區的資料移動到近線區的條件。近線區減少了整合區的資料量,這就降低了整合區的資料量,這就降低了資料倉儲環境的成本並提高
了效能。減少整合環境中不被經常訪問的資料能夠為被經常訪問的資料釋放整合環境的磁碟儲存。

進入歸檔區的資料流
    資料同樣也可以從整合區傳入歸檔區。從整合區移入歸檔區的資料和移入近線區的資料有著關鍵的區別。當資料進入近線區時,資料結
構和資料格式得以儲存。這意味著資料在必要時可以迅速和順利地從近線區回到整合區。近線區的目的在於支援整合區的資料訪問。當資料
進入歸檔區,並沒有打算讓資料迅速流回整合區。歸檔區的目的是為了長久地儲存資料。在未來的某一時刻,資料可能需要取自歸檔環境並
儲存在某處用於特殊分析,甚至可能被送回整合環境,但歸檔環境並沒有對整合區立即和詳細的支援的打算。對整合區的立即和獨立的支援
是近線區扮演的角色。資料轉移至歸檔區的目的是為了消除低訪問率的資料。從整合環境到歸檔環境的資料流的速度很慢。通常整合資料
移入歸檔區需要一個季度甚至一個年度的週期。

下降的資料訪問機率
    當整合資料的訪問機率出現下降時,會觸發資料從整合區進入歸檔區。有兩種基本方式來確定資料訪問的機率是否下降。一種基於時間
例如超過3年以上的資料都要從整合區中移除。另一種方法是使用資料倉儲監視。資料倉儲監視會檢查對整合區資料的訪問次數。使用資料
倉庫監視是目前最準確的方法。

資料的異常流
    1、資料從歸檔區移回到整合區。這種情況下,無論出於何種原因,資料一直被視為用做標準分析處理。這以為著資料的訪問機率已經
       提升,且因為資料訪問的機率上升和其他原因,資料比較適合在整合區。通常資料以大塊的形式從歸檔區移動到整合區,而不是按
       每次少數記錄的形式。返回整合區的歸檔資料的傳送是按需求來進行的。
    2、資料從近線區返回到整合區。CMSM軟體來實現。從近線區到整合區的全體資料的移動方式還可以按批處理模式來進行。
    3、資料也可能從整合區到互動區移動。這種情況很少發生。通常參與的資料量並不大。這種迴流發生時,必須做到不能影響線上效能。

總結:
    資料流貫穿真個DW2.0環境。
    資料直接或透過ETL從外部的應用進入互動區。來自互動區的資料透過ETL處理流入整合區。
    隨著資料的變舊,資料從互動區移入到近線區或者歸檔區。
    在有限的基礎上,資料可能會從歸檔區流回整合區,並且資料還會偶爾從近線區流入整合區。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1320187/,如需轉載,請註明出處,否則將追究法律責任。

相關文章