DW2.0下一代資料倉儲架構_第20章 DW2.0與記錄系統(讀書筆記)

thamsyangsw發表於2014-10-27

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    DW2.0資料倉儲中的大部分資料集的建立都是以操作型或舊的應用系統為基礎的。寫於很多年前並且很多情況下無文件記錄,最初的資料
就是從這樣的操作應用環境中進入企業環境,並且資料常以事務執行的副產品的形式進入互動區。舊操作環境中的要素有程式、報表、處理
器、檔案和資料庫。由於進入資料倉儲中的大部分資料是在操作環境中產生的,所以要對它格外關注。最終獲取的資料要儘可能地準確、及
時、完整,故需定義“記錄源”資料系統,經確認的記錄源系統是最佳的資料來源。為DW2.0尋找最佳的資料來源與資料質量之間有著非常重要的
聯絡。為了得到好的資料質量,人們所進行的最重要的一步是謹慎地選擇記錄系統。也就是說,如果根本沒有選擇或者選擇不夠正確的話,
就會反映比較差的資料質量。尋找最佳資料來源應從舊操作環境中的應用開始。許多企業的操作型應用系統環境受其內部發生的事務處理的約
束。當企業的操作型事務處理發生時,尤其是有大量事務處理的時候,操作環境不是不能收到干擾的。在這種情況下,操作環境可能被認為
是嬌氣的,在業務週期高峰無法執行大量的批處理。問題是許多環境中,操作處理過程視窗都很大,往往要持續很長時間,遠遠超過上午8點
到下午5點這一時間段。某些時刻,舊環境中的交易處理會導致操作環境無法為其他任何請求提供服務。還有一些其他的與舊操作環境相關的
侷限。在很多情況下,建立起來舊的操作環境後沒有相應的文件,或是沒有最新的文件。再返回去查詢該操作型應用用於幹什麼用的可不是
件容易的事。另外,架構師必須準備好將資料從舊操作環境移入DW2.0的互動區和整合區。資料倉儲架構師的工作是找出舊系統中的什麼資料
是資料倉儲的最佳資料來源。不是所有操作環境中的資料都能進入DW2.0的互動區,操作環境中的不同部分也都可當做資料來源。行操作環境中選
出來的資料是得到的最好的源資料,最好的源資料是:最精確的;最完整的;最新的;最可靠的;最易得到的。這一對互動區中最佳資料的
定義被稱作源資料記錄系統。當資料從整合區進入歸檔區時,記錄系統會有所延伸。有時,兩三個檔案會被用作DW2.0互動區中同一資料單元
的資料來源,在一些其他情況下,操作型應用系統環境中只有一個單獨的資料來源。
    在對來自操作環境的最佳源資料做了明確定義後,就需要在源資料到目標資料之間建立對映,這一過程被稱為資料對映。有些情況下,
對映關係簡單到只說明從一個地方開始到另一個地方結束。但在其他情況下,對映往往是更復雜的,在資料移動的同時可能還需要進行計算
不僅需要計算,還需要知道計算的日期和速率。簡單的計算可能不是唯一必須的計算型別。某種計算中用到了多個不同的記錄,計算往往並
不是複雜的,但其中的資料安排是非常有挑戰性的。當有不止一個資料來源時,會產生另一種形式的對映。這時,還需要用來確定哪種資料來源
在哪種條件下最佳的邏輯。在一些情況下,找不到資料來源時就需要提供一個預設值。資料對映的另一考慮是如何協調不同的編碼值。有時,
源資料採用一種編碼方式,而目標資料需要採用不同的編碼方式。
    建立好對映後,互動區的資料增長就開始了。資料對映是ETL過程的必要輸入。

其他記錄系統
    另外一個記錄系統有用的地方是資料集市的建立。資料集市能夠從企業資料倉儲環境中眾多不同的源抽取得到,例如DW2.0資料倉儲的交
互區、整合區、近線區以及歸檔區等。所有這些資料集市抽取其資料的地方稱作對資料集市的記錄系統。

總結:
    資料倉儲包含資料來源和資料目標。資料來源——來自互動區或來自外部舊的應用--被稱作記錄系統,記錄系統是對最佳資料來源的定義。最
佳資料來源時那些完整、準確、實時的資料。高質量的資料能夠使記錄系統更好。記錄系統的重要性有多方面原因,它對於想要將記錄系統產
生的對映用於提高目標資料的開發人員而言很重要,更重要的是,終端使用者分析師需要將記錄系統作為分析過程的一部分加以理解。記錄系
統是環境中資料整合的一個主要貢獻者。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1310742/,如需轉載,請註明出處,否則將追究法律責任。

相關文章