DW2.0下一代資料倉儲架構_第3章 DW2.0組成部分--關於不同區(讀書筆記)

thamsyangsw發表於2014-11-03

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    DW2.0由四個不同的區組成:互動區、整合區、近線區和歸檔區。一般會根據資料倉儲的大小和使用階段來確定使用哪個區或者不使用
哪個區。例如,在資料倉儲的早期不可能存在歸檔資料,小型資料倉儲也許根本沒有任何近線儲存器。並且,不同企業中DW2.0資料倉儲的
具體時間也不大相同。每一個不同的區有自己的一些考慮因素和特徵。實際上,即使是在同一個區內,對結構化和非結構化資料的考慮相差
也很大。從企業的角度看,不同型別的使用者會從各自的區中訪問和分析資料。在很大範圍內,辦公室人員會使用互動區來完成日常工作;
整合區可以間接地支援不同的管理層,從公司的初級管理者到公司董事長;分析團隊經常使用近線區;而歸檔區則使用相對較少,或被那些
保險統計員和工程人員使用。此外,還存在著不同的使用者群和使用DW2.0環境的不同區。

互動區
    互動區是資料進入DW2.0環境的入口。資料要麼透過處於DW2.0外部的ETL應用進入DW2.0,要麼是作為互動區內部應用事物的一部分來處理
互動區可能包含多種應用,這些應用可能包含也可能不包含整合資料。互動區中的應用可以更新並且能夠具有高效能的事務處理,通常以亞
秒來計算。
    互動區存在著許多小型的事物流,這等同於某公路上僅允許保時捷和法拉利行駛,由於公路上沒有行駛緩慢的車輛,交通工具的平均速

度非常快,所以這個系統中執行的任何車輛的響應時間也都相當快。
    互動區另一個特徵是由該區採用的技術所管理的資料量。互動區中僅有適量的資料。互動區中執行的資料從幾GB到幾TB不等。相對DW2.0
環境的其他部分,互動區的資料量是比較小的,另外,互動區中的資料幾乎總是儲存在磁碟中。資料儲存在硬碟加上互動區工作任務通常情
況下是有較小且快速的事物處理組成,因此所有響應時間非常快。
    除了能獲得好的效能外,互動區執行的事物處理還能更新資料,互動區的資料可以被新增、刪除和修改。
    互動區的一個特性是,由於資料可以更新,所以任何查詢只是查詢時刻有效。
    如果資料是透過外部應用程式進入互動區,那麼資料需流經ETL層。未單獨使用ETL工具進行整合處理的資料是可以進入互動區的。在這
種情況下,資料在進入整合區的時候被整合處理。
    互動區中的資料可能參照也可能不參照對其設定的約束。是否使用參照完整性完全取決於執行中的程式。
    互動區中資料訪問特性是訪問速度非常快--以亞秒為單位。當互動區的資料被訪問時,有時希望每次只訪問其中的一部分記錄。而且
訪問模式應該是隨機的。這種資料訪問模式決定了磁碟儲存是理想的。
    互動區內部僅有少量的歷史資料。在互動區中,典型的歷史資料都是一天甚至僅僅是幾個小時以前的收。一般情況下是找不到幾個月以
前的資料的,資料在變舊之前就已經進入整合區了。
    互動區中的資料粒度是非常不均勻的。一些應用程式是用的資料粒度比較小,而另外一些應用程式則會整合資料,使其粒度非常大。
    資料從互動區進入整合區。如果資料來自互動區外部,則直接進入整合區。如果資料是由互動區內應用程式執行時產生的,那麼資料將
作為程式執行的副產品被收集並傳給整合區。

整合區
    整合區是應用程式資料和交易資料最後彙總為企業資料的場所。把應用程式資料和交易手轉換為企業資料需要做很多轉換。例如,將不
同的結算日轉化通用的結算日;對資料關鍵字的調和;整合應用資料的日期格式等
    整合區包含多種不同的結構,以下是集中型別的資料結構都可以在整合區中找到:
    1、物件導向的資料--這種資料型別下,資料被組織成較大的物件域並且儲存了詳細細節。例如:假定一個銷售交易的細節資料要進入
整合區,在銷售資料中,銷售條目進入銷售產品物件域,購買產品的購買者可能有一些購買洗好資訊需要進入顧客物件域,而銷售額資訊
將進入銷售額物件域。
    2、少量概要資料--在整合區中的概要資料一般都要在很多場合使用,而且不能改變。例如:對一個公共貿易公司而言,其季度性稅收
狀況、開支、利潤以及其他資訊都會進入一個公共領域,這樣任何需要這些資訊的人都可以訪問它。
    3、持續時間跨度的資料--對於一些變化較慢的資料,將它們以連續時間跨度的結構來存放時很有用的。例如:除非顧客的婚姻狀況改變
否則他的地址和姓名是不會經常改變。因此,在整合區中以連續的記錄儲存關於顧客的資訊是可能而且是合理的。
    4、概要資料--概要資料是這對於一個物件從各種渠道收集到的資料。一個顧客記錄就是一個概要記錄的簡單例子。概要記錄用來記錄
顧客的資訊。例如,顧客人數統計,顧客最後一次的購買目錄,顧客活動的時間,顧客消費的地方等等。從概要記錄跟蹤顧客的資訊不費
吹灰之力。
    整合區中的資料是在對互動區中的資料透過ETL層處理後收集得到的。在進行ETL處理時,同時進行資料的質量處理。簡單地資料質量處
理就是域檢查和範圍檢查。域檢查的一個例子是確保性別符號 。而範圍檢查會讀取資料,例如如果年齡大於150,範圍檢查可能會標記錯誤
資料經由資料質量編輯器收集、整合、傳遞後,就進入整合區。
    整合區的工作流是非常複雜的。就像跑著保時捷、法拉利和許多拖車的高速公路。高速公路上車輛速度取決於它前面的車輛。很明顯,
這種工作流於互動區的工作流相比,完全是兩個級別。整合區的複雜工作流有其核實的理由。有些人需要訪問大量資料,其他人只訪問很少
的資料,他們都想從整合區得資料,所以導致非常複雜的工作流。
    整合區通常包括大量的資料,因為:
    1、資料是粒狀的:很多原子單元的資料被收集和管理。
    2、歷史資料:經常儲存3-5年的有價值的資料
    3、資料來源於多種渠道
    整合區中複雜工作流的不同帶來所希望的響應時間的不同,整合區中的響應時間從10秒到更長時間不等。不一致的原因就是混合的工作
流 。當整合區中進行大規模資料獲取工作時,對少量資料的查詢可能被暫停或者延遲。另一方面,當沒有其他人使用時,訪問整合區的
使用者能獲得很好的響應時間。
    可以將大的查詢任務限制在空餘時間段,那些需要在高峰期使用整合區資料的較小任務的響應時間久能夠得到提高。響應地,大型查詢
使用者將獲得較差的響應。
    訪問整合區中資料的事物處理僅限於讀取資料。這不像互動區中,資料可以新增、刪除和修改,整合區中的資料只能訪問,不能更新。
這並不以為這整合區中不允許資料更改,而是可以以一種不同的方式完成對資料的更改。任何時候對整合區中資料的更改都是透過新建一條
記錄來完成。每次改變都透過建立一條新紀錄來完成,這樣資料變化的歷史跟蹤記錄也被儲存下來。另外資料被正確地放置在整合區中就永
遠不能修改。記錄可能被髮送到近線儲存和歸檔處理中,但已經正確建立後就不能更改。這意味著改變的處理方式和互動區終端處理方式有
很大不同,在互動區中,對一條記錄更改始終在進行。
    整合區中的資料有一定的穩定性,一旦提出問題時,將總是會得到同樣的答案,即使過段時間再提出相同的問題。
    當資料進入整合區時沒有例外,都是以單向進入且有較嚴格的控制路線。
    整合區中有兩種相關的參照完整性,區內參照完整性和區間參照完整性。區內參照完整性是資料透過各區時的完整性,就是說當資料從
互動區進入整合區時,資料必須有可辨別的源和目標以確保資料不會丟失。互動區中如果沒有相應的資料輸入則整合區中也沒有資料輸入,
反過來也一樣,整合區中沒有響應地資料輸入,則互動區中也沒有資料輸入。然而並不會僅因每個區有相應的資料入口,就意味著所有的
輸入值都應該是一致的。一個輸入的值可能用歐元表示,另一個用美元,兩個資料元素沒有相一致的值就意味著他們就不是整合區相應輸入
整合區另一種參照完整性是相同區內的參照完整性,這種參照完整性意味著同一區內部資料元素之間可能存在某種關係。
    與互動區相比,整合區中資料訪問模式有所不同,對資料的呼叫較少,但每次呼叫常需要更多的資料。這種訪問模式常常伴隨著從小到
大的各種資料提取請求組成的複雜工作流。
    整合區和互動區的另一個區別在於不同環境中歷史資料的容量有關。整合區中有大量的歷史資料,在其中找到3-5年的有價值的歷史資料
是很正常的事情,相反,在互動區中,找到多於30天的有價值的收都非常苦難。
    整合區和互動區的資料粒度不同,互動區中有著不同的資料粒度,整合區中資料非常小並且是原子的。整合區支援各種形式的DSS處理,
每個DSS處理對資料都有自己的要求,因此,整合層次上粒度級越小,所支援的DSS處理的形式就越多,反之支援的DSS處理的形式越少。
    資料一旦離開整合區可能進入近線區和歸檔區。當資料很多且有快取需求時,資料便進入近線區。當資料的訪問機率顯著降低時,資料
進入歸檔區,通常,隨著資料變陳舊它將進入歸檔區,但並不是總這樣。

近線區
    近線區是整合區的一種快取形式。當資料倉儲的整合區很大時,透過近線區快取資料來降低整合區的工作量就很有意義。整合區中的數
據不是很多時,使用近線區可能就不是很必要。
    近線區的使用出於兩個原因--成本和效能。近線儲存成本大大小於磁碟儲存。因此,如果不能負擔得起用於整合區的磁碟儲存硬體的昂
貴成本,那麼整合區中的大量資料就可以被下載到近線區中以削減大量的成本。
    透過將訪問率較低的資料下載到近線區可以大大提升效能。因為只有將那些很少訪問的資料送入近線區,整合區儲存器中保留的資料才
能避免由“意外”的大量不準備使用的資料所帶來的開銷。
    近線儲存是將資料連續地儲存在自動管理的磁碟上。近線儲存用於大量資料的廉價儲存。資料在存入近線儲存器後仍然可以透過電子方
式獲取,但儲存代價相較於將整合區的全部資料存入磁碟明顯減少。
    資料被置於近線儲存後,它將像任何其他環境的一樣服從於工作流。近線儲存的典型工作流不需要較多的資料訪問活動,原因是僅當
資料的訪問機率很小的時候才被放入近線儲存中。實際上,如果對近線區資料的某種特定型別進行頻繁訪問,這部分資料需要移回整合區。
    那麼資料怎樣從整合區進入近線區?手動方式和自動方式。採用手動方式,有一個管理員,他監督整合區中資料的使用或接收資料移動
的請求,然後把資料從整合區移動到近線區或者從近線區移動到整合區。另一種自動管理是透過CMSM--一個跨媒體儲存管理器來實現。CMSM
位於整合區和近線區之間,並自動管理從一個環境到下一個環境的資料移動。CMSM可以一種透明性模式執行。在透明模式下的CMSM檢查進入
系統的請求,檢視是否有查詢近線儲存管理資料的請求。當一個需要查詢近線儲存管理資料的請求到達,CMSM將請求事物佇列,並區查詢所
請求的資料,再把資料下載到磁碟儲存上,然後將事物出隊並執行事務。開始執行後,事物就能夠找到所有它需要的資料,這些資料由
CMSM存放在磁碟上。通常,近線區中的資料是整合區中資料結構和格式的映象。近線區中資料的設計、DBMS以及DBMS的釋出於整合區中響應
的模組式一致的。這樣做一個非常重要的原因是資料在兩個環境中需要有效地交換。顯而易見,資料需要從整合環境移動到近線環境,但再
從近線環境移回到整合環境不是很常見了,只有對資料的訪問機率上升時才能把資料從近線區移回到整合環境。因此當資料的格式、結構、
技術一致的時候,從近線區移動到整合環境很容易,但是若缺少其中任何一項時,這種移動都會變得非常困難。
    近線環境的一個主要優勢是它能管理超大容量的資料,遠遠超過互動環境和整合環境,在近線環境中,管理幾百TB的資料都是可能的。
    離開近線區後,資料一般進入歸檔區。值得注意的是,歸檔區中的資料可能直接從整合區中得到而不是經過近線區。資料如果已經進入
近線區,一般就會從近線區進入歸檔區。
    當資料的訪問機率急劇下降時就將其移動到歸檔區中。

歸檔區
    歸檔區是用來存放訪問機率變得非常小的資料的區域。有時候,資料被存放在歸檔區並非因為其訪問機率,而是由一些法律的原因,因
為有時資料的儲存是由政府長期授權的。
    過去,將資料進行歸檔常常是一條單行道,進入檔案的資料變得不可訪問。如今當資料被存放在歸檔環境,這些資料必須在未來的某個
時間點是可讀取的,否則歸檔環境就是一種對時間和金錢的浪費。
    與歸檔環境相關的工作流是很不同尋常的。很長一段時間常常對於歸檔資料沒有任何訪問,然後有一天對於資料有了需求,或者是幾條
記錄或者是一個很長的完整的連續的資料串。
    對於歸檔資料來說最大的問題通常是如何找到需要的資料。通常有大量的歸檔資料,並且搜尋資料的基本準則是模糊不清的,於是在
歸檔環境中查詢資料就像在乾草堆中尋找一根針一樣困難。
    歸檔區的資料量是巨大的。隨著時間的流逝,人們希望在歸檔區中儲存比其他任何地方都多的資料。在資料倉儲生命週期的初期,檔案
中存放的資料量通常是很小的。但是隨時間的推移,當資料倉儲變得成熟時,他的歸檔資料會累積、發展,進而包含海量資料。
    訪問歸檔環境的響應時間是由若干單位時間來衡量的,這些單位時間是指截至到在DW2.0結構中的其他位置再也沒有發現所需資料所花費
的時間。在歸檔環境中預期花費幾天甚至幾周的時間才能找到資料是很常見的,響應時間當然取決於歸檔環境中的資料量大小、索引是否
合理、搜尋的準則以及儲存歸檔資料的技術。有時一次搜尋也許非常快,但是我們隊搜尋資料的普遍期望最好不要設定得太高。
    有時,當完成一次搜尋時,資料可能會從歸檔環境移動到整合環境。這種歸檔資料的復原表明我們有理由懷疑這時大量分析和訪問需要
資料。在大多數情況下,進入歸檔環境實在是一段痛苦的經歷。透過把使用頻繁的歸檔資料移回到整合區可以緩解不得不再次進入歸檔環境
進行搜尋所帶來的經常性痛苦。
    使用歸檔資料所能做的最有用事情之一就是建立被動索引。當歸檔區的資料只是呆在那裡的時候,基於可能的訪問路徑來建立索引才是
很好的利用時間。
    當資料被送往歸檔區時,資料在整合環境或近線環境所具有的結構是否能夠適當地保持下來是不確定的。保持與否都有各自的優缺點。
保持進過歸檔區的資料的結構的一個優點是實現起來很容易。資料簡單地以一種格式讀入,然後以同樣的格式寫出。這大概像獲取資料一樣
容易。但是有一些原因使得這種方法也許不是最佳的,原因之一就是一旦資料被歸檔,那麼他們也許就不會像整合環境 那樣訪問資料。對於
歸檔區的資料,整合環境的格式也許根本不合適。另外,整合區中的資料通常與使用它的某一特定軟體版本相容。等資料在歸檔區中被檢索
時,這個版本的軟體可能已經不存在了。當然也可以以兩種格式存放歸檔環境中的資料,一種是整合環境中的格式,另一種是更加簡單通用
的格式。
    歸檔區的資料很少被訪問,而且訪問的時候,通常情況下整合歸檔資料組都會被訪問到,檢索歸檔環境中的單條記錄的情況極為少見。
    訪問歸檔環境中的資料很有趣的一方面是,通常,資料需要基於模糊的欄位或者資料值來定位。偶爾會出現以標準碼和標示符訪問資料
的需求,但經常有基於非常不正規的資料型別的訪問。
    歸檔資料資料量非常大且需要保留很長時間,所以歸檔區並不具備引用完整性約束。
    人們常常以查詢任意相關資料並將其 移動到整合區或者探索程式中為目的來搜尋歸檔區。但是有時歸檔區進行自檢索也是很有意義。換
句話說,歸檔區可以被當做決策的依據來使用。然而,這種方法的缺點包括但是不侷限於以下幾點:
    1、在歸檔區中確實有大量的資料
    2、歸檔區中的資料需要被順序搜尋
    3、沒有為待完成的搜尋提供有用的索引
    進一步說,與其他區域相比,可供歸檔區使用的資料查詢和分析技術很有限。

非結構化處理
    DW2.0環境另一半是非結構化資料的領域。雖然DW2.0的四個分割槽都適用於DW2.0環境的非結構化資料,但是與DW2.0的結構化方面相比,
每一個區在非結構化領域都呈現出不同的特徵。對於非結構化的DW2.0資料領域來說,甚至不確定所有這四個區是否都有用。
    DW2.0的非結構化整合區的輸入來源於文件和其他格式的文字。非結構化資料輸入可能來自幾乎任何地方,文字可以是任何語言,可能相
關也可能不相關。
    為了把非結構化資料裝入DW2.0資料倉儲,非結構化文字首先以電子格式聚集在一起,然後經過專為非結構化資料設計的ETL處理,文字
被分割成適用於分析處理的文字塊。為了使用文字分析,非結構化文字必須經歷的過程包括:
    無用詞消除;
    分詞
    特殊/通用分析
    可替換拼寫分析
    分組資料的分類
    透過這些嚴格的過程後,文字被分析處理做好了準備,在非結構化整合環境中有幾類資料:
    1、內部分類和外部分類:一個分類就是一組具有相互聯絡的詞彙。非結構化文字環境既包括內部建立的分類,也包括來自幾乎任何地方
       的外部分類
    2、被捕獲、編輯的文字:被捕獲、被編輯的文字時指那些透過ETL處理並且被放入資料庫--標準關聯式資料庫的文字
    3、連結:那些連寫非結構化資料和結構化資料的資料
    4、簡單指標:非結構化的資料文字偶爾會駐留在其他環境中,只有引用它的索引才能進入非結構化的互動資料倉儲中。
    非結構化整合環境的工作流較為複雜,響應時間的希望值也很複雜。
    在非結構化整合環境中基本有兩種活動--資料的載入和資料的訪問。非結構化資料幾乎是不可能更新。當一個文字描述或者工作被寫入
後,如果需要修改,那兒只能重新寫入。因此,逐漸地或者部分地更新文字資料顯然不現實。
    在DW2.0中非結構化環境和結構化環境很不相同。通常只有一個非結構化的整合區,而是否需要一個非結構化的近線區還是個疑問。然而
有時還是會為了非結構化資料而是用歸檔環境。當資料的訪問機率降低時,就會被存放入非結構化環境的歸檔區中。

總結:
    一般情況下,資料從互動區進入DW2.0環境。資料可以透過ETL或者直接進入DW2.0環境。互動區是一個面向應用的領域,這個區域可以、
進行資料更新,並且支援2-3秒的響應時間。互動區中的工作流小而快,不允許大的事物透過。資料在互動區中以一種隨機、快速而且少量的
訪問模式被訪問。在互動區中只有有限的歷史資料。
    整合區資料在進入該環境之前就已經經過整合了,通常,資料整合的工作是由ETL工具完成。整合代表了資料狀態的一種變化。互動區中
的資料是面向應用的,而整合區的則是企業資料。進入和離開整合環境的資料工作流是混合的,包括了大大小小的事物。整合區的響應時間
也是混合的,從幾秒到幾小時都有可能。在整合區中通常會有大量的資料存在,資料一般為3-5年。整合區中沒有資料的更新。當資料需要
修改時,會對資料進行快照然後插入資料庫,同時,也會建立一條歷史資料的記錄。資料訪問時不經常發生的,而且大量的資料訪問通常是
集中進行的。當資料離開整合區,它們不是進入近線區就是進入歸檔區。
    近線區是整合區的一個快取。近線區基於非磁碟儲存技術執行,其中也包含了整合區中資料的映象。近線區透過人工或者一種跨媒介
儲存管理方法與整合連線。近線區的工作流主要是不頻繁的資料讀取。但是資料的讀取都是集中進行的。當資料的訪問機率下降時就被放入
近線區。
    當資料的訪問機率顯著下降,資料被放入歸檔區。歸檔區包含了自主式的資料包。這些資料包像時代文物迷藏器一樣,在未來的某個
特定時間被開啟,為歸檔區建立被動索引時一個不錯的想法。通常歸檔區有大量的資料,通常資料的時間會很久。為了實用,歸檔資料必須
和軟體版本嗯哼產品約束無關,這是因為當需要資料的時候,相同版本的產品不太可能繼續實用。
    非結構化資料只有先被整合後才能對文字進行分析。在進入非機構化DW2.0環境前非結構化資料必須透過ETL層。非結構化資料通常有大

量資料。對於非結構化資料來說可能沒有歸檔區和近線區。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1318511/,如需轉載,請註明出處,否則將追究法律責任。

相關文章