DW2.0下一代資料倉儲架構_第16章 遷移(讀書筆記)

thamsyangsw發表於2014-10-24

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    DW2.0是一個巨大且複雜的環境,需要利用大量的資源並經過很長的時間建立它。DW2.0環境更像一座城市而不是一座房子。建一座房子
需要相對較短的時間,在建立過程中有一個明確的起點和重點。房子一般在某一個時間點打到了可用性,即在一個點上它還是不可用的,而
到另一個點它就可用了。而一座城市的建造過程是非常難的,並且需要很長一段時間。從城市裡的第一座建築物建立起來開始,城市就可用
了,城市可能有規劃也可能沒有規劃,即使各個城市都有一些相同的特徵,但各個城市還是擁有各自的特徵。上述觀點同樣適合於DW2.0資料
倉庫,雖然使用了相同的結構,但是各個企業的DW2.0的實施是非常不同的。如果企業幾乎從來沒有打算建立一個DW2.0環境,那又怎麼最終
實現DW2.0環境呢?答案是逐漸發展。隨著時間的推移,企業逐漸向DW2.0架構遷移。

    完美的情況下DW2.0可以從互動區到整合區到近線區在到歸檔區,一步一步建立,但是這種情況幾乎不會發生。原因就在於幾乎所有建立
DW2.0資料倉儲的人都在適當的位置已經擁有了一個已經存在的資料倉儲。
 
增量式地新增元件
    關於DW2.0架構的一個好訊息是,它的大部分元件都可以根據需要,獨立地,增量地新增進來。這種獨立的,不斷新增的能力意味著公司
可以以一種有序的方式向DW2.0環境遷移和進化。遷移並不是根除並丟棄已有系統,相反,在構建DW2.0時,DW2.0的基礎結構元件可以建立在
已有的資料倉儲上。
    1、可以給現有的資料倉儲基礎結構增加一個近線儲存。雖然近線區是可選的並且並非所有公司都會採用,但一旦需要,它就是不可替代的
。向第一代資料倉儲環境新增近線儲存在架構上是件簡單的事情,並不需要什麼特別的工作和準備。
    2、歸檔區也可以在沒有預先準備的情況下建立。
    3、可以為現有的資料倉儲建立一個企業級的後設資料。通常,本地後設資料已經存放在某個適當的位置,提供技術的經銷商通常都會提供元數
據(例如ETL後設資料,商業智慧後設資料和DBMS後設資料)的本地儲存和管理的裝置,所以本地後設資料通常已經存在,需要新增的是企業後設資料。
建立企業後設資料通常由以下三個步驟組成
        1、建立企業後設資料儲存庫
        2、將本地後設資料移入企業後設資料儲存庫中
        3、調整本地後設資料以適應企業後設資料的格式
    最後一步通常是最難的,調整本地後設資料使其遵循全域性的,企業的格式和結構式一項非常困難的任務。

建立後設資料基礎結構
    建立一個企業級的後設資料儲存庫絕不需要破壞或者丟棄原有的環境。相反,DW2.0的後設資料基礎結構是建立在已存在的資料倉儲的基礎結
構之上的。從各種來源收集起來的後設資料構成企業的後設資料儲存庫。

“吞沒”源系統
    在已有的操作應用環境中,如果任意一個位置可能已經停止執行,那麼它就是一個遺留應用程式,需要被DW2.0環境的互動區來消化吸收
大多數情況下,互動區會“吞沒”舊的源系統。而在其他情況下,源應用程式應該繼續保持原樣,並繼續向互動區提供資料。

作為緩衝器的ETL
    ETL扮演著整個資料倉儲演進和遷移過程的緩衝器的角色。透過ETL轉換後,在操作源應用程式世界產生的大的變化對互動區的影響會降
到最小。同樣,互動區也可能出現一個大的變化,透過ETL後,它不會對整合區產生影響或者降到最小。

4、遷移到非結構化的環境
    非結構化的資料領域是DW2.0資料倉儲的一個最新的、最重要的特徵。在許多DW2.0環境中,非結構化的資料作為一個新增元件開啟了通
向更多種類的分析和決策支援處理的大門。DW2.0環境的非結構化資料遷移與結構化資料的遷移有著很大的區別,雖然結構化環境幾乎總是以
第一代資料倉儲的形式出現,但非結構化資料卻不是。幾乎不存在已有的非結構化資料可以新增到DW2.0資料倉儲環境中。非結構化資料幾乎
總是從它的文字源獲取,透過一個新的非結構化資料的ETL處理進入到DW2.0資料倉儲的非結構化領域。在非機構化資料進入到DW2.0資料倉儲
中後,結構化資料和非結構化資料間的連結也就建立起來了。隨著時間的推移,非結構化資料也將會停止使用,被移動到DW2.0資料倉儲的歸
檔區的非結構化資料域中。

總結:

    DW2.0資料倉儲的架構有一個自然的遷移順序。自然遷移的順序是根據資料流動方向而定的:進入互動區,然後是整合區,然後是近線區
最後是歸檔區。雖然自然順序已經定義好了,但是它只是理論上的。
    在實際中,DW2.0環境是從第一代資料倉儲發展形成的。歸檔環境可以獨立加入,近線環境也可以獨立加入,同樣,企業的後設資料結構和
非結構化資料域也可以獨立加入。
    針對不同的業務需求,可以將不同的元件加入到DW2.0環境中。
    遺留應用系統是僅有的,預先存在的可能在移入DW2.0的過程中遭到破壞或者被替代的系統,有時候,舊的系統環境因為太過時,太脆弱
以至於相比整合資料進入舊系統,還不如重寫系統。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1309227/,如需轉載,請註明出處,否則將追究法律責任。

相關文章