ORACLE 資料倉儲概念

csbwolf10發表於2010-03-26

目前來說,資料倉儲架構比較成熟並已經形成理論的主要有兩個,一個是Corporate Information Factory,簡稱CIF,中文一般翻譯為企業資訊工廠,代表人物是Bill Inmon。另一個是Mutildimensional Architecture,簡稱MD,中文一般翻譯為多維體系結構,代表人物是Ralph Kimball

企業資訊工廠主要包括整合轉換層(Integrated and Transformation Layer)、運算元據儲存(Operational Data Store)、資料倉儲(Enterprise Data Warehouse)、資料集市(Data Mart)、探索倉庫(Exploration Warehouse)等部件。

多維體系結構分為後臺(Back Room)和前臺(Front Room)兩部分。後臺主要負責資料準備工作,稱為資料準備區(Staging Area),前臺主要負責資料展示工作,稱為資料集市(Data Mart)。而資料倉儲是一個虛擬的部件,它指的是全部資料集市的集合。

兩個資料倉儲架構各有優缺點,一種比較流行的做法是合用兩種架構,即建立CIF的資料倉儲和MD的資料集市。

淺析企業資訊工廠

資料倉儲領域裡,有一種構建資料倉儲的架構,叫
Corporate Information Factory,中文一般翻譯為“企業資訊工廠”。企業資訊工廠的創始人是資料倉儲之父Inmon

企業資訊工廠主要包括整合轉換層(I&T)、運算元據儲存(ODS)、資料倉儲(EDW)、資料集市(DM)、探索倉庫(EW)等部件。這些部件有機的結合在一起,為企業提供資訊服務。

整合轉換層的目的是將來自操作型源系統的資料整合轉換到資料倉儲中,它通常由一組程式組成,而其它部件如資料倉儲和資料集市等則主要由資料組成。 當業務資料來源多,業務複雜時,整合轉換層會建立一些臨時表,為資料處理提供方便。這時,整合轉換層包括程式和資料,也稱資料準備區(Data Staging Area)。通常中等規模及以上的資料倉儲系統都會建立資料準備區。

運算元據儲存(ODS)是建立在資料準備區和資料倉儲之間的一個部件。用來滿足企業整合的、綜合的操作型處理需要。例如,出盡可能實時的整合的操作報表等需求。一般,也稱運算元據儲存是用來滿足企業戰術決策的需要。運算元據儲存是個可選的部件。

資料倉儲是企業資訊工廠的核心部件,用來儲存整個企業的資料。一般,也稱資料倉儲是用來滿足企業戰略決策的需要。資料倉儲的資料來自資料準備區和運算元據儲存。

資料集市是為了滿足企業特定部門的分析需求而專門建立的資料的集合。資料集市的資料來源是資料倉儲。企業資訊工廠中的資料集市一般來說是非規範化的、定製的和彙總的。而多維體系架構中的資料集市分為兩種,分別是原子資料集市和聚集資料集市。一般來說,企業資訊工廠中的資料集市相當於多維體系架構中的聚集資料集市。

探索倉庫或資料探勘倉庫的建立主要是為了解決大型查詢,提高資料倉儲的效率。當有探索或挖掘需求時,會從資料倉儲匯出一部分資料提供給他們操作。

企業資訊工廠中的資料流向一般是從源系統到資料準備區到運算元據儲存到資料倉儲到資料集市。當分析人員在資料倉儲或資料集市中得出分析結論後,會有資訊的迴流。這種資訊迴流有可能是物理資料的迴流,也可能是直接改變業務部門的策略,總之,要將分析的結果應用起來。通過這種資訊的迴流,企業資訊工廠的不同部件可以不斷的相互調整,最終找到一種平衡。這也是稱為企業資訊工廠的原因。

淺析多維體系結構

資料倉儲領域裡,有一種構建資料倉儲的架構,叫Multidimensional ArchitectureMD),中文一般翻譯為“多維體系結構”,也稱為“匯流排架構”(Bus Architecture)。多維體系結構的創始人是資料倉儲領域中最有實踐經驗的Kimball博士。

多維體系結構主要包括後臺(Back Room)和前臺(Front Room)兩部分。後臺也稱為資料準備區(Staging Area),是MD架構的最為核心的部件。在後臺,是一致性維度的產生、儲存和分發的場所。同時,代理鍵也在後臺產生。

前臺是MD架構對外的介面,包括兩種主要的資料集市,一種是原子資料集市,另一種是聚集資料集市。原子資料集市儲存著最低粒度的細節資料,資料以星型結構來進行資料儲存。聚集資料集市的粒度通常比原子資料集市要高,和原子資料集市一樣,聚集資料集市也是以星型結構來進行資料儲存。前臺還包括像查詢管理、活動監控等為了提供資料倉儲的效能和質量的服務。

在多維體系結構中,所有的這些基於星型機構來建立的資料集市可以在物理上存在於一個資料庫例項中,也可以分散在不同的機器上,而所有這些資料集市的集合組成的分散式的資料倉儲。

 

 

資料倉儲架構,是IT架構的一個分支,隨著資料在企業的核心作用的增強,資料倉儲的架構日益重要。資料倉儲架構由於其技術選擇非常廣泛,看上去複雜,不過背後有一套比較穩定的思路,這也是資料倉儲架構設計的一個要點,穩定中蘊含變化,變化中蘊含穩定。

總體來說,資料倉儲架構分成兩大塊,一是硬體架構,二是軟體架構。硬軟架構又可以分成封閉式和開放式。封閉式硬體架構代表廠商有teradata,其硬體是專屬的,必須使用特殊的硬體才能執行。開放式硬體架構的代表有oracle,可以執行在各種硬體上,不過開放和封閉之間的界限也逐步的融合,oracle也開始打包hp的專屬硬體來推廣其dw的方案,而teradata也開始用基於suse的os可執行的硬體上提供其dw產品。封閉式硬體好處是開箱即用,經過廠商的嚴格測試,保障性比較高,開放式硬體則需要企業具備很強大的技術實力,能夠有一支具備硬體,儲存,作業系統綜合知識和能力的團隊,在組合成一套可以執行dw軟體的基礎平臺,並且在發現問題的時候要能很快速的定位問題的原因並解決。

資料倉儲的軟體架構選擇更加豐富。從資料庫軟體,etl軟體,展現軟體,資料探勘軟體,每一種型別裡面都具備非常多的選擇。

這些軟體的選擇是架構設計的一部分,架構設計的重要核心一部分是綜合這些軟體的一套思路,在一套dw架構設計的思路下,軟體可以很靈活的進行選擇。

資料倉儲架構設計的出發點是什麼?需要解決哪些問題?

所謂架構,好比大廈,好的設計大廈具備很好的抗震,抗自然災害能力,框架式建築能夠重新打造內部結構。而資料倉儲架構也是解決類似的問題,其實很多資料倉儲在開始起步的時候是不談架構的,本來就是小作坊,無須談到架構這個高度。但是如果要考慮建設一個能支撐容納5-10年業務的時候,架構的好壞就體現出來了。

一個好的架構其實就是經驗的沉澱物,架構是在理清楚資料倉儲的基本的任務,並能讓這些任務高效低成本的實現。舉個簡單的例子來理解一下,資料倉儲中同步資料和彙總資料的依賴模組非常之多,如果其中若干模組出錯,該如何處理?如果架構設計不好,就會陷入維護人員不斷的尋找問題,清理現場,手工排程等問題出現,場面應該十分混亂。好的架構首先是模組化,模組內部具備自動清理現場功能,而模組間則具備自動斷點重新啟動功能,在模組常規出錯的時候,能依靠系統自助解決問題,同時能把處理問題的過程記錄下來供後續分析。這樣的架構能夠極大的提升維護的效率,減輕維護人員的維護量。整個dw系統也具備了抗異常能力。

資料倉儲的架構設計,有時候一個好的架構設計的出發點往往來源於當前系統的缺陷。如何面對當前系統的缺陷是架構能否持續發展的一個關鍵點之一。業界存在很多對商業,開源etl工具的評測,那麼這些評測要點應該從哪些方面進行才能甄別出適合企業的工具呢?

1.成本。成本永遠是企業關心的一個核心問題,特別在如今經濟寒冬,更是如此。

2.效率。能否高效的處理海量的資料是一個基礎要素,搞資料倉儲的都知道,資料量永遠是一個經常被拿出來討論的話題。

3.線性擴充套件。能支援線性擴充套件的系統在計劃支撐多年的系統中特別重要,可以非常方便的做出年度預算。

4.協同工作。解決多人協同開發問題。

5.排程。能否很方便的一目瞭然的看到整體排程,站在一個非常高的高度來管理各種資料流。

6.相容性。能否相容各種異構資料。

7.準確的監控系統。

8.高效的開發框架。

資料倉儲的物理架構,包含硬體物理架構和軟體物理架構。硬體物理架構包含集中式和分散式2中,在企業裡面都有運用。

集中式硬體物理架構偏向於使用非常power的小型機或者大型機,非常高階的海量儲存,管理簡單,在不計投入的情況下效能也能滿足企業需求。

分散式硬體物理架構目前非常流行,特徵是採用價格低廉的中低端機器組成計算叢集,不同的技術驅動下,在share nothing的架構下可以採用本機的硬碟, 在share everything的架構下偏向使用集中儲存,分散式叢集在網路上的要求比較高,擴充套件性比較好,配合好的軟體可以達到線性擴充套件的要求。

軟體物理架構主要特徵區別就是行儲存和列儲存。這個也是曾經很多廠商津津樂道的地方,根據需求的不同,2種方式可以靈活採用。

大部分db軟體都是採用行儲存,而列儲存的特徵在於高效的單列值壓縮,在選擇列比較少的時候需要io要求很低,速度很快,不過行儲存的db目前在壓縮效率上也在迅速提升,大部分需求還是選擇行資料進行觀察,行儲存也更加便於表的按記錄拆分進行並行化。

 

本文來自CSDN部落格,轉載請標明出處:http://blog.csdn.net/phphot/archive/2009/01/23/3851372.aspx

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/10113559/viewspace-630494/,如需轉載,請註明出處,否則將追究法律責任。

相關文章