DW2.0下一代資料倉儲架構_第2章 DW2.0簡介(讀書筆記)

thamsyangsw發表於2014-10-31

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    為了理解DW2.0是怎麼形成的,考慮一下幾個形成因素:
    1、在第一代資料倉儲中,強調了資料倉儲本身的建立和增加商業價值。在第一代資料倉儲的時代,獲取價值是指主要獲取以數字為主
       的事務資料,並整合他們。而今天,從企業資料中獲得最大價值意味著利用所有的企業資料並從中獲取價值,這意味著既包含文字的
       非結構化的資料,也包括數字化的交易資料。
    2、在第一代資料倉儲中,沒有對資料的儲存介質和資料量給予太多關注。但時間已經證明資料的儲存介質和資料量確實非常重要。
    3、在第一代資料倉儲中,人們已經認識到整合資料是一個問題,現在人們發現整合舊的資料是一個超乎想象的更大的問題。
    4、在第一代資料倉儲中,成本幾乎不用考慮。現在資料倉儲的成本則是人們一個主要關注點。
    5、在第一代資料倉儲中,人們忽視了後設資料。現在,後設資料和主資料的管理成為人們熱議的話題。
    6、在第一代資料倉儲的早期,資料倉儲被認為是一個新鮮事物。如今資料倉儲被認為是有競爭力地利用資訊的基礎。資料倉儲必不可少
    7、在資料倉儲發展的早期,重點是構建資料倉儲。現在人們認識到,資料倉儲需要隨著時間的推移保持可擴充套件性,便於業務不斷變化。
    8、在資料倉儲發展的早期,人們認為資料倉儲對統計分析可能有用。今天人們認識到,利用資料倉儲進行統計分析的最有效的方法是在
       一個稱為探索倉庫的相關資料倉儲結構中進行。
    經過幾十年建立和使用這些結構的實踐,我們確實已經對資料倉儲更加了解。

DW2.0--一種新的正規化
    DW2.0是由當前的一些開明且有遠見的決策支援企事業界所要求的一種新的資料倉儲正規化。這種新的正規化關注資料的不同型別、基本結構
以及他們怎麼關聯起來形成一個強大的資料儲存器以滿足公司對資訊的需求。

DW2.0--從企業的角度
    DW2.0之所以能吸引企業人士有一些重要的原因。
    1、資料倉儲基礎設施的成本不再持續增長。在第一代資料倉儲中,技術基礎設施的成本是不斷增長的。隨著資料量的增長,基礎設施的
       成本會以指數級增長。但是使用DW2.0,資料倉儲的這一成本會趨於平穩。
    2、使用後設資料將基礎設施結合在一起,這意味著資料不會輕易丟失。在第一代資料倉儲中,一個資料單元或一個資料型別是很容易“
       丟失”的。作為DW2.0骨幹的後設資料則不會令資料輕易丟失。
    3、資料訪問速度快。在第一代資料倉儲中,資料是堆疊在其他資料上的。堆疊的資料很快就成為訪問障礙,因為需要的資料很可能隱藏
       在大量不需要的資料下,結果造成較低的訪問效能。在DW2.0環境下,資料是根據其訪問機率放置,比第一代資料倉儲更高效。
    4、歸檔需求的關注。第一代資料倉儲很少甚至沒有存檔資料,因此資料只能儲存相對較短的一段時間。DW2.0有歸檔區,這意味著資料
       可以永久儲存下去,或者是需要而定。
    5、資料倉儲吸引大量的資料。在第一代,終端使用者不得不忍受管理和訪問大量資料帶來的痛苦。而在DW2.0中,資料是分段的,終端用
       戶需要處理的資料量會少很多。
    所有這些因素都對終端使用者有一定的影響。資料倉儲的成本顯著降低,有效訪問和查詢資料的能力提高,資料訪問速度加快,資料可保

存的時間增長。這些因素提高企業人士使用手的能力,使得他們能夠以一種比第一代資料倉儲更有效的方式使用資料。

資料的生命週期
    在第一代資料倉儲中,只是在資料倉儲建立時把資料存放在某種形式的磁碟儲存器即可。事實並非如此,資料進入到資料倉儲就開啟了
資料的生命週期。DW2.0資料倉儲包括了四個資料生命週期“分割槽”。互動區、整合區、近線區和歸檔區。資料進入資料倉儲迅速進入互動區
隨著資料的調整,資料被整合後傳遞到整合區。整合的資料是在整合區發現的,並且一直位於整合區,直至訪問機率下降。資料的訪問機率
往往會伴隨著儲存時間的增加而下降。通常情況下,3-4年之後,整合區的資料訪問機率會明顯下降。資料經過整合區之後可能進入近線區和
歸檔區。近線區就像是整合區的延伸。近線區是可選擇的,資料不一定需要經過這一區。但是當資料量非常大並且資料間的訪問機率差別很
大時時,就可以利用近線區處理。歸檔區的資料訪問率很低,資料可以從整合區或者近線區進入到整合區。歸檔區的資料通常是5-10年,
甚至更長。

    資料要麼透過ETL從另一個應用程式匯入DW2.0環境,要麼透過嵌入在互動區中的應用程式直接匯入DW2.0環境。互動區是資料聯機更新的
場所,並且在相應方面有很高的效能。進入互動區的資料都是剛進入資料倉儲的資料,也許只生成了幾秒鐘。互動區的另一類資料被用作
共享應用程式的一部分來處理,在這種情況下,資料生成時間僅有幾毫秒。資料可以利用兩種方式之一進入互動區。一種在DW2.0資料倉儲
外部可能存在這樣的應用,可以捕獲被當成交易的副產品。在這種情況下,應用程式執行交易,之後將資料透過ETL傳送到互動區。另一種
應用程式是DW2.0資料倉儲的一部分,交易執行後,資料立即被送入到互動區。區別兩種方式的關鍵是互動區的應用程式位於互動區的外部還
是實際位於互動區內。無論怎樣,交易資料必定要面向應用的,在互動區的資料最終會達到應用狀態。
    某一時間點,交易資料需要跟應用資料整合在一起。這些時間點可能在資料達到互動區之後的幾秒,也可能是幾天或者幾周之後。總之
在一些時間點需要整合應用資料,這些時間點是在資料激怒肉整合區之後的時間。資料透過ETL進入到整合區。在ETL時,資料從應用狀態到
企業狀態。這個任務是由ETL的轉換程式碼完成的。在整合區,資料與其他相似的資料聚集在一起,。大量資料聚集在整合區,而且只要其一直
保持較高的訪問機率,就一直處於整合狀態。對於很多組織而言,這以為這資料在整合區要保留3-5年時間,這取決於組織的業務及其所作的
決策支援處理。
    有時,整合區將有非常大的資料量和非常頻繁的資料訪問。這是,最好使用近線儲存器作為整合區的一個快取。企業可以利用近線區以
電子方式提供大量資料。帶有近線儲存器的整合資料儲存器使得整個環境的成本更易接受。當資料的訪問機率劇烈下降,資料被放入近線
儲存器,而訪問機率大的資料不應放入近線儲存器。我們認為所有存入近線儲存器的資料的訪問機率都已經由控制企業資料儲存的分析員
核實過。
    DW2.0的歸檔區儲存那些以電子方式手機回來的、將來可能被使用的資料。歸檔區所儲存的資料都是由近線區或者整合區傳送來的,他們
的訪問機率很低。有時,資料儲存在歸檔區是處於預防的目的,即使人們認為它的訪問機率是零。

設定不同區的原因
    不同區之間的區別的核心問題是,資料從一個區傳遞到另一個區時,資料的基本操作引數隨之改變。各區之間訪問機率和訪問模式差別
很大。互動區被頻繁訪問,且訪問模式是隨機訪問。整合區資料訪問率也很高,通常是順序、成串的訪問。近線區訪問率相對較低,隨機
訪問,歸檔區很少被訪問,它能夠被順序地、不定期地、隨機的訪問。
    各區之間的資料量有很明顯的差別。互動區資料量較小。整合區資料較多。近線區通常有相對大數量的資料。歸檔區的資料可能明顯增
長,即使最初幾年收集的歸檔資料相對較小,但是隨著時間的推移,大量資料完全有可能被聚集到歸檔區。
    效能不佳和成本高並不是第一代資料倉儲達不到最佳的唯一原因,將資料劃分為不同的生命週期還有一個其他原因,不同的區可以採用
不同適合的技術。比如:
    1、後設資料在互動區中是和資料分開儲存,但是在歸檔區卻和資料直接儲存在一起。原因在於歸檔資料可能20年或者30年沒有使用過,
不知道將來什麼時候出於什麼目的訪問。後設資料需要與實際資料一起儲存,以便在審查歸檔資料時清除地知道它是什麼。
    2、資料訪問。互動區和歸檔區在資料訪問的方式和機率上差別很大。互動區的資料被隨機地頻繁訪問。要求的響應速度很快,歸檔區
資料很少被訪問,訪問時會順序的訪問整段的記錄。除此之外,歸檔資料訪問的響應時間相對寬鬆。
    所以,在DW2.0架構下的各資料區之間,資料訪問方式有很大不同,各區 應用的技術也不同。因此,沒有任何一種單一的技術是現代
資料倉儲中發現資料的最佳資料。

結構化資料/非機構化資料
    一般存在兩種基本型別的資料--結構化資料和非結構化資料。
    雖然目前的技術還不能非常精妙的處理非文字資料,但是對文字的非結構化資料來說卻不同。可以對文字的非結構化資料進行捕獲和
操作。標準資料庫技術很難處理文字資料,因為文字資料不像結構化資料那樣結構統一。但是文字資料價值非常大,蘊含很多有價值的資訊
只是文字資料不容易被標準資料庫技術處理和操作。
    DW2.0要求將非結構化文字資料存放在資料倉儲中,並且與結構化資料整合在一起。這為我們創新地利用資訊帶來了很好的機會。將結構
化和非結構化資料整合在一起面臨很多挑戰。其中之一是結構化資料和非結構化資料的整合。有些非結構化資料無法與結構化資料整合,有
些可以。非結構化資料分為:半結構化資料和非結構化資料。文字資料整合進DW2.0環境需要以非結構化資料和半結構化資料作為輸入。

文字分析
    DW2.0資料倉儲結構化和非結構化資料的整合,使得對文字資料的分析處理有了用武之地,它既可以對非結構化資料可以對結構化和非
結構化相結合的資料進行分析處理。
    “廢話”。將非結構化資料與結構化資料合併面臨許多挑戰,其中之一是篩選非結構化資料。由於多種原因,非結構化資料中包含了
一些“廢話”,這些“廢話”對公司業務沒有任何意義。如果公司不遮蔽“廢話”,那麼載入到DW2.0環境的非結構化資料可鞥都是不相關
的臃腫的資料,不利於分析。因此,篩選時收集和管理非結構化資料的一個重要過程。
    “術語問題”,文字是由許多不同的人寫的,必須考慮不同的人使用不同的術語的問題。如果要將文字資料用於文字分析,必須首先經
過規範化過程。文字規範化要求將文字對映成兩種格式--特定格式和一般核實。特定格式通常是人所說的或所寫下的。一般格式是對文字
規範化所達到的資料值。因此,為DW2.0環境準備飛格式化資料的第二個步驟是讀取特定資料,並對特定資料新增一般資料,使得資料適合
分析。

後設資料-一個主要組成部分
    DW2.0認為後設資料是資料倉儲基本結構的一個主要的並且是極為重要的部分。處於多種原因,後設資料在第一代資料倉儲中一直沒有被認為
或者作為一個重要組成部分,隨著新一代資料倉儲的出現,後設資料不會再被忽視。原因:
    1、規模和多樣化:今天的資料倉儲比以往的資料倉儲更大,也更多樣化。現在的資料倉儲中資料的資料量和多樣性,他不可能掌握其中
       所有內容。
    2、更多樣化的使用者:現在資料倉儲的使用者越來越多樣化。過去只是有少量的一些使用者,他們形成了一個非常緊密的社群。現在則有很多
       不同背景的使用者。使這些使用者瞭解資料倉儲中有什麼完全是資料倉儲應該完成的工作。
    3、廣泛的後設資料範圍:後設資料位於成功的DSS處理的核心,終端使用者分析師必須知道很多關於可用於分析的資料的事情,需要知道資料
       來自哪裡,是什麼意思,進行什麼計算,包含哪些資料,不包含哪些資料,資料何時可用等等。
    4、管理需要:隨著資料倉儲的成長,資料倉儲環境的管理變得更加複雜。後設資料越好,管理起來越容易。
    DW2.0後設資料需要描述結構化和非結構化資料。誠然,後設資料的典型使用時用來描述結構化資料,但非結構化資料的引入,使得後設資料在
描述非結構化資料方面非常有用。事實上,結構化與非結構化資料整合過程的一部分就是整合DW2.0環境中這兩種資料型別的後設資料。
本地後設資料
    今天我們周圍有大量的後設資料。ETL工具中、資料庫目錄中、BI工具中。。。後設資料無處不在。這些後設資料都是正在被使用的工具所專有
的,可以稱之為本地後設資料,我們缺少的是企業範文的後設資料。DW2.0需要兩層後設資料:本地後設資料和企業後設資料。在本地後設資料中分為技術
後設資料和業務後設資料。現在大多數企業後設資料都與技術相關,而不是業務後設資料。

基礎技術
    技術基礎是任何資料倉儲的一個重要組成部分。簡單地說,沒有一個潛在的技術基礎,資料倉儲不可能存在。但資料倉儲的技術是根植
於一種靜止狀態。一旦資料倉儲深植於其技術,就很難改變。當業務需要更新時,改變技術基礎將相當困難。新一代DW2.0方法要求資料倉儲
不能一建到底。資料倉儲的開發應該圍繞業務需求的逐步改造完成的。
不斷變化的業務需求
    業務變化時一種可預測的持續不斷的現實,但改變業務所依據的技術基礎設施並不容易。不斷變化的業務與不變的基礎基礎設施是不一
致的。
    DW2.0解決了這一難題,它使用了以動態機制為基礎的技術,可以很容易地隨著時間的改變而改變。

DW2.0中的資料流
    對於結構化處理,資料或者直接透過一個互動環境下得應用程式進入系統,或者來自於DW2.0環境外部的一個應用程式。後者的資料是
透過ETL介面加工,然後進入互動區。結構化資料進入互動區後不久就會流入整合區,在這裡資料轉化為企業狀態。從整合區流出的收隨後
進入近線區和歸檔區。近線區的資料也最終會流入歸檔區。非機構化資料採取近似的過程。非結構化資料是以檔案或者某些格式的文字資料
開始的,文字資料經歷一個非結構化資料的ETL處理。然後進入DW2.0環境下的整合區。近線區是否適用於非結構化資料仍是未知,但是如果
需要非結構化環境下的近線資料,那麼非結構化資料是可以流入近線區的。任何情況下,來自整合區或者近線區的資料流都進入非結構化數
據的歸檔區。

資料量
    另一個看待DW2.0環境中結構化和非結構化資料的有趣方式是從資料量的角度來看。DW2.0環境的結構化部分的互動資料通常相對較少,
而結構化整合資料量則有相當大的增長。當使用近線區時,它必須支援結構化資料量資料量會進一步增加。然後,當歸檔區比較成熟後,
歸檔的結構化資料還會有明顯的增加。相比之下,非結構化環境中的整個生命週期區的資料量總是比結構化環境下得資料量更大,增長率也
更高。據統計,一些典型的企業中,非結構化資料是結構化資料的4-5倍。就算把無用的資料排除在外,非結構化資料仍然是結構化資料的
2-3倍。

實用應用程式
    有些新的應用過去無法實現,而DW2.0提供了這種可能。DW2.0對資料倉儲的結構化和非結構化資料的支援引發了一些將這兩種資料混合
起來的有趣應用。

DW2.0和參照完整性
    參照完整性在資料倉儲領域起重要作用已經有很長一段時間了。參照完整性要求居於一個資料庫的資料也必須由一套符合邏輯的規則所
控制。例如:如果醫療程式是分娩,那麼病人的性別必須是女性。又如,如果有購買發生,那麼必定有一個產品和服務被購買。DW2.0方法
延伸了參照完整性的概念。在DW2.0中,有外部參照完整性和內部參照完整性。外部參照完整性是指資料從一個區進入另一個區時的完整性
的保持,內部參照完整性是指資料在一個區內的完整性的保持。
 
DW2.0的報告
    在DW2.0環境中的任何地方都可能出現報告,並非所有報告都是在某一處執行,而是各種不同的報告在不同的地方執行。有的報告在互動
區執行,其他的報告子啊整合區執行,有些報告利用來自DW2.0環境互動區和整合區的結構化和非結構化資料的組合來執行,其他報告則
透過DW2.0環境中的非結構化部分執行。

總結:
    DW2.0是新一代資料倉儲環境的架構。DW2.0和第一代資料倉儲有很大的區別。
    1、隨著資料進入並儲存於資料倉儲,產生了對資料生命週期的認識
    2、資料倉儲中包含非結構化資料
    3、DW2.0環境包含後設資料
    4、DW2.0的技術基礎能夠隨著時間而變化
    DW2.0有四個主要的生命週期
    1、互動區,資料倉儲以更新模式在交易響應時間水平下完成構建。
    2、整合區,資料在這裡經過整合並完成分析
    3、近線區,作為整合區資料的一個快取區域
    4、歸檔區,存放訪問機率顯著下降但仍有可能被訪問的資料
    DW2.0既包含結構化資料也包含非結構化資料。非結構化資料進入資料倉儲之前必須經過一個整合過程。整合過程對於文字分析提供非
結構化文字非常必要。如果非結構化文字未經整合,就無法有效地進行文字分析。非結構化資料進入DW2.0環境做準備的主要任務之一就是
清除廢話,另一項必要的工作是術語規範化。文字必須同時擁有特殊和一般兩種參考,以便成功地進行文字分析。
    後設資料是DW2.0的一個重要組成部分,企業級,本地級,業務級,技術級。
    要想獲得成功,DW2.0環境必須建立在可隨時間變化的技術基礎上。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1316079/,如需轉載,請註明出處,否則將追究法律責任。

相關文章