DW2.0下一代資料倉儲架構_第8章 資料模型和DW2.0(讀書筆記)

thamsyangsw發表於2014-11-03

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

智慧線路圖
    資料模型是DW2.0必備組成部分。資料模型在很多方面都扮演著通往DW2.0其他部分的只能線路圖的角色。在DW2.0中建立線路圖有很多種
原因,但最重要的原因是建立DW2.0並不是一蹴而就的,相反,每次建立一步,透過很長的時間完成,另外,它的建立是由很多人而不是單個
人完成的。為了協調不同人員的工作以及適應不同型別的使用者,非常有必要建立一個線路圖--資料模型,資料模型描述了DW2.0各部分如何
結合在一起。如果沒有資料模型,DW2.0各部分的工作邊被割裂開來,從而導致系統的混亂。

資料模型和企業
    資料模型是依據企業本身而建立的,它模擬了企業的各個部分。
    建立資料模型的第一步是定義整合範圍。整合範圍描述資料模型中包含什麼和不包含什麼。整合範圍是十分重要的,沒有它資料模型就
會無休止地建立下去,甚至可能包含宇宙級的資料。資料模型是建立在企業資料的基礎之上。大多數機構都有大量的資料。即使定義了整合
範圍,如果分析員不夠謹慎,資料模型的建立還是會無休止地進行,除非對粒狀資料模型和概括性或者聚合性資料模型有明確的區別。粒狀
型資料是指體現最低層意義的資料,概括性資料則是諸如一天的交易量、一個月的收入、一年裡企業的員工數,一個季度內的國民生產總值

區別粒狀型資料和概括性資料
    關於為什麼要區分粒狀型資料和概括性資料主要有一下幾個原因:
    1、概括型資料遠遠多於粒狀型資料
    2、概括性資料變化速度比其建模過程要快
    3、概括性資料自身攜帶描述其是如何形成的演算法
    如果資料模型中包括概括性資料,那麼該模型肯定不能完成。

資料模型的層次
    1、ERD層,實體關係層,是資料模型中的最高層
    2、中間層模型,即dis,或資料項集
    3、底層模型,物理層,是資料建模的最底層
    ERD層是模型中較高的層,可以很快被構建好。ERD層描述了公司業務中的主要領域和他們之間的關係。中間層模型描述了資料模型中的
關鍵字、屬性以及細節資料之間的關係。底層模型描述了資料模型的物理特性,例如資料的物理屬性、索引、外來鍵等等。模型的層次越低,
細節層次就越高。而模型的層次越高,模型就越完善。
    事實上,像DW2.0那樣擁有不同層次模型的複雜結構在現實中也很常見,並不是一項新的陌生的技術。不同層次的對映結合在一起組成了
一個有層次的整體。如果資料模型結合在一起,組成DW2.0環境的各種系統便有了新的意義和秩序。DW2.0環境中有很多不同的模型。

資料模型與互動區
    第一批模型位於互動區的應用中。通常,每一項應用對應一個單獨的資料模型。應用資料模型是由應用需求決定的。對效能的需求時建
立應用資料模型需要考慮的一個主要的方面。貫穿整個應用環境,特別是那些存在OLTP事物的地方,資料模型都是根據效能需求建立的。
當資料模型考慮了效能時才會變得合理化,貫穿系統的合理資料流會產生高的效能表現。而這種合理資料流正式由合理化的資料模型將資料
放在一起形成的。

企業資料模型
    企業資料模型展示了從應用環境中得到的資料如何形成企業資料。如果企業資料模型位於互動層和整合曾之間,那麼它 就是DW2.0環境
的資料模型。企業資料模型以一種整合的方式描述企業所有的資料。企業模型真實反映了企業看待資訊的視角,是一種整體資訊的視角。

模型轉換
    資料從應用區或者互動區流入整合區資料轉變成企業狀態。值得注意的是,當資料進入整合區時,通常會按照物件域儲存。
    當資料流進入近線區時,資料模型通常不會發生改變。因為僅限環境需要儘可能模仿整合環境,近線區和整合區資料模型完全一樣。
    歸檔區的資料模型可能改變也可能不改變。在一些情況下,資料進入歸檔區後狀態和在整合區時相同,此時資料模型沒有改變,另外一
種情況下,資料流入歸檔區時會發生根本的轉變。資料流入了一個可稱為反轉列表格式的地方。資料被重新安排為一系列簡單地列表。歸檔
環境或許需要這樣一個轉換,因為他可以使歸檔環境下的資料更易於查詢和分析。歸檔環境資料可以放在企業資料模型格式中或者反轉列表
格式中。

資料模型與非結構化資料
    資料模型對非結構化部分的重要性並沒有其對結構化部分的重要性大。
    在DW2.0的非結構化部分,使用資料模型的第一個地方是外部分類過程。外部分類通常用於對資料進行分組和分類,使這些資料規範化或
合理化。非結構化環境中使用資料模型的第二個地方是建立內部資料模型。每部資料模型通常被用來描述文字實體的內容和結構,這些文字
實體往往非常大。
    首先非結構化資料被收集起來。接著這些資料會按照不同的物件加以阻止。透過這些物件可以建立相應的SOM(自組織對映),一旦SOM
建立起來,非結構化文字的核心主題及不同主題間的關係也隨之形成,透過這些基本資訊,內部資料模型便建立起來。

總結:
    資料模型形成了DW2.0環境的只能線路圖。DW2.0規模龐大,結構複雜,需要大量的開發者經過長期的努力才能建立起來,正式資料模型
的出現,才使得不同的開發工作能夠結合在一起。
    資料模型的形成取決於企業的業務需求,它建立在大量的粒狀型資料基礎上,而非概括性或聚合性資料。
    資料模型包括三個層次--ERD層、中間層和物理層。
    互動區的形成由應用模型決定,整合區的形成由企業資料模型決定。
    一些資料模型可以被用於非結構化資料中。特別是外部分類可以有為它們建立的資料模型。另外,內部資料模型可以根據主題建立,這
些主題是根據文字產生的。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1319107/,如需轉載,請註明出處,否則將追究法律責任。

相關文章