DW2.0下一代資料倉儲架構_第21章 多方面的話題(讀書筆記)

thamsyangsw發表於2014-10-27

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    資料集市;
    監視DW2.0環境;
    將資料從一個資料集市移動到另一個資料集市;
    如何處理不合格的資料;
    在DW2.0中移動資料的速率;
    資料倉儲基礎設施建設;

資料集市
    資料集市的建立是為了方便那些以相同的方式檢視資料的人。典型的資料集市是為不同部門建立的,自身擁有資料集市的典型部門有財

務部、銷售、市場、以及會計等部門。DW2.0環境中任何一部分都可以用來產生一個資料集市,正常情況下是由DW2.0的整合區來為資料集市
提供資料,但DW2.0中的其他區也有可能向資料集市中新增資料。
    資料集市帶來的便利是,DW2.0中的資料是過於詳細的資料,而資料集市中的資料通常不是那麼過於詳細。當人們以共同的方式檢視資料
時,更有效也更方便的做法是,獲取詳細資料並按照使用者組想要檢視它的方式將其結構化。這樣當某些人想要檢視資料時總能以個人想要的
結構化、格式化的方差檢視資料。而不必擔心還需提取詳細資料並將其重構的工作。
    資料集市如此盛行還有其他一些重要的原因。它之所以吸引人是因為當將資料置於企業資料倉儲外部時,資料的處理成本通常會降低,
在DW2.0的宿主機上的處理成本常常與計算週期能達到的最高值一樣,而在離線狀態下提取資料在將其放入另一個更下、更部門級的機器上時
處理成本就會減小。
    另外透過將資料集市提取到另一機器上,DW2.0企業資料倉儲環境的機器週期得得以保留,而將機器週期從DW2.0環境移動到另一個環境
極大地提升了主DW2.0的效能。
    將資料集市提取到另一機器上是個不錯的主意的因為,不同部門喜歡這種對自己的資料和處理持有所有權的方法。
    轉換資料集市資料發生在資料從DW2.0環境移至資料集市時,包括資料彙總、資料聚集、資料選擇及過濾、欄位及其他屬性的充足。
    那麼什麼時候將分析過程從企業資料倉儲移入到資料集市中?答案是,當許多人以相同的方式檢視資料並且做大量查詢時,建立資料集
市就有意義了。

監視DW2.0
    資料倉儲監視器是獲知何時應新增一個或多個資料集市的最佳方法之一。資料倉儲監視器監測資料倉儲中正在進行的活動。當檢測到連
續的使用形式時,可能就改建立資料集市了。資料集市在建立後通常都是自治的,終端使用者幾乎能用他們的資料集市做任何想做的事情。

在資料集市間移動資料
    將資料直接從一個資料集市移動到另一個資料集市在架構上還不健全,幾乎所有情況下,都無法將資料從一個資料集市移動到另一個。
如果有必要在兩個或者多個資料集市間共享資料,那麼應將該資料放置在DW2.0企業資料倉儲環境中。

不合格的資料
    期望所有資料都能完全輸入到大型、複雜的企業資料倉儲環境中是不合理的。首先要試圖確認不合格資料的來源。如果能找到來源,下
一步就是修正這一資料來源。
    用以平衡的條目。修正一個將不合格資料傳送到資料倉儲的過程並不是解決如何處理已經進入資料倉儲不合格資料的問題。修正DW2.0
中不合格資料的一種方法是找到不合格資料並且構造一個“平衡”條目。如果發現系統中有一筆錯誤的資料條目¥23.61,那麼在構造另一個
等於-¥23.61的條目即可修正該資料。這種方法保持了賬目平衡,並且留下檢查跟蹤。但是這種方法僅限於調整有限資料並且能夠確認錯誤
資料的情況。
    重新設定值。不幸的是,很多情況下,並不能找到資料確定的錯誤資料併為之建立平衡條目。這種情況下要強制建立一個條目來“重新
設定”某個記錄中的值。透過建立新的條目來完成對值得強制性重置時,跟蹤記錄應詳細說明重置過程是如何完成的。
    資料修正。找到不合格資料然後在他們的記錄中修改該值。這樣做有很多缺陷,一、沒有清晰的、明顯的跟蹤記錄;二、資料的完整性
遭到破壞。
 
資料移動的速度
    資料進入和透過DW2.0資料倉儲的移動速度引出了一個有趣而具有哲學意味的問題。一些人認為資料應該因可能快的在整個DW2.0資料倉
庫中移動。另外的人推崇以一種較慢的、更慎重的方式在整個DW2.0環境中移動資料。後者資料在等待移入DW2.0環境的過程中允許進行整理
當給予足夠的時間來對錯誤設定的資料進行調整時,資料會進行整理。這種不急於將交易資料傳入DW2.0的方式就給將交易資料整治直至最終
狀態提供了可能,帶來的結果是更精確的資料以及對DW2.0而言更簡單的處理。

資料倉儲工具
    資料倉儲工具是採用一些或者所有資料倉儲處理,並且透明地替換現有的一些或者所有資料倉儲基礎設施的裝置。對於運用資料倉儲工
具有很多充分的理由,包括效能,成本以及延長DBMS的許可期限等。“Dataupia”是資料倉儲工具的一個不錯的例子。一個終端使用者與SAP
之類的技術環節相互互動,而SAP又與ORACLE之類的DBMS直接互動,ORACLE與傳統的EMC、IBM或Hitachi之類的SAN技術直接互動。隨著時間
的增長,傳統環境中的大量資料量開始增長並且可能變得非常巨大。在這種環境中資料如此固定的增長有三點原因:資料均以低粒度級收集
得到;資料是過去收集的;資料是從多種多樣的資料來源收集並整合的。資料增長有很多後果,一個最大的後果是資料以及支援它的基礎設施
的成本會大幅度增長,作為資料量管理功能,基礎設施的成本會升高。成本不僅僅是增長,並且是大幅增長。在資料倉儲處理中,儲存成本

是個有趣的因素。在建造和發展資料倉儲的頭兩三年,儲存成本幾乎不重要,但是當資料倉儲成熟後,資料倉儲其他方面的成本減少了,而
儲存成本卻增長了。而且,不僅儲存成本增長,用於儲存基礎設施成本也相應的增長,有處理成本、軟體許可成本以及銷售渠道成本。另外
在獲得並實現儲存後會不斷地產生操作成本。當針對這些因素而考慮實際的儲存成本時,它僅僅是總的儲存成本中的一部分。然而儲存和
基礎設施的成本是不可避免的,一旦某機構受困於某已處理,那麼它就必須繼續下去,並且很長時間。但是,組織機構需要管理預算,每年
支出的主要增長不能總是不明確,而組織機構想要找到管理預算的方法也是很自然的。因此,他們求助於資料倉儲工具來幫助他們管理預算
以及他們的資料倉儲環境就很正常了。
    資料倉儲工具是一種為傳統的SAN儲存的一小部分成本儲存和管理資料的方法。有這種方式,一部分資料受傳統儲存方式管理,另一部分
則受資料倉儲工具管理,這樣分開管理的效果顯著地表現在大大降低了資料倉儲日常的基礎操作成本。從細節上看,增加資料倉儲工具後操
作資料倉儲的成本可能有極大減少。將資料移入資料倉儲工具大大削減了傳統儲存技術連續不斷地操作成本。執行資料倉儲工具並不像把電
源插頭插入插座那麼簡單,資料倉儲工具技術的配置有多種策略,每種配置各有其優劣。
    運用DWU的一種方法是完全替代傳統技術--DWU轉入而傳統技術轉出。這種替代策略的優點是可以立即削減儲存成本,同樣,它也有一些
缺點:許可破壞--不能不考慮原有的合同及許可,而輕易丟棄已有的舊環境;軟體破壞--有些情況下,一些DWU對用於管理儲存操作的控制
不透明,這種情況下DWU無法徹底取代傳統儲存技術;儲存最最佳化--DWU儲存對於OLTP操作並不是最優的。一些情況下,DWU只對資料倉儲操作
最優。
    另一種方法是漸進地對一些傳統資料倉儲中的儲存技術進行替換。這種方法的缺點是必須對資料透明,DWU必須與控制傳統儲存的操作系
統及DBMS相容。如果DWU對他們不透明,那麼它必須訪問並且管理那些較易從傳統環境中分離出來的片段程式。不幸的是,這種漸進地、分離
的方法在應用中多少有些侷限。
    運用DWU技術的第三種方法是透明地配置DWU。透明意味著DBMS使用者不知道資料的位置,資料可能儲存在DWU或者傳統的儲存中,系統根本
不在乎。資料實際的物理位置以及對資料的管理對於使用者以及DBMS是透明地,採用這種方法時,用於控制DWU的軟體必須與作業系統以及管理
傳統儲存的DBMS相容。

總結:
    資料集市包含了用於決策的部門資料。支援資料集市理由如下:機器週期成本地;終端使用者擁有控制權;DW2.0的效能得以提升。
    當不合格的資料進入DW2.0環境中,可以:不合格資料來源應該明確並得以修正;建立平衡條目;重置值可以對資料進行實際修正。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1310928/,如需轉載,請註明出處,否則將追究法律責任。

相關文章