DW2.0下一代資料倉儲架構_第1章 遷資料倉儲簡史及第一代資料倉儲(讀書筆記)

thamsyangsw發表於2014-10-29

 

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。

    最早儲存資料的機制很簡單。串列埠卡片、紙帶、容量很小的磁芯儲存器,那時儲存器非常昂貴且容量有限。
    磁帶的發明和使用開啟了嶄新的時代。磁帶能儲存海量資料,對資料的記錄格式沒有太大的限制,可以寫入還可以重新寫入。磁帶的缺
點是必須順序地訪問資料,另外磁帶不穩定,磁帶上的氧化物脫落或者被劃掉,都將導致不可用。
    磁碟儲存是另一個飛躍。磁碟可以直接訪問資料,也可以重寫,還可以訪問多個資料。
   
資料庫管理系統
    磁碟儲存產生不久,DBMS產生。是為了管理磁碟儲存:
    1、確定資料的合適位置
    2、解決當兩個或多個資料單元被對映同一位置時產生的衝突
    3、允許資料被刪除
    4、當無法將一條資料記錄儲存到一個容量有限的物理空間時,負責尋找合適的物理位置
    5、其他
    6、資料的快速定位能力是磁碟儲存最重要的一個優點,這項任務正式DBMS完成的。
 
線上應用
    線上應用使用計算機來實現對資料的快速一致的訪問。使得各機構能滿足顧客日常需求的,線上應用後來開始變得強大而且普及起來,
並很快為交叉應用。線上應用非常受歡迎,增長得很迅速,短期內迅速出現了大量的應用。但是新的問題出現,公司擁有一大堆資料,但是
查詢資料卻很難,並且就算能找出來,也不能保證你所找到的資料是完全正確的。公司資料的激增使得在任何一個時間點使用者都無法保證
他們所獲得的資料的正確性和完整性。

個人電腦和4GL技術
    隨著個人電腦的普及以及個人電腦軟體的產生,可以將資料儲存在自己的計算機上,這樣就不再需要集中式的IT部門,如果因為IT不讓
得到自己想要的資料,就給個人擁有。
    4Gl的思想是使得變成和系統開發簡單到任何人都可以做,這樣,終端使用者就可以擺脫必須從IT部門來獲取企業資料的束縛。可以透過
給終端使用者訪問其所需資料的自由,來滿足他們對資料的渴望。
    終端使用者可以自由第訪問資料,除此之外,想要做出好的決策還有更得事情要做。問題如下:
    1、資料不準確,不準確的資料會有很大的誤導性
    2、不完整的資料用處不大
    3、不及時的資料不太符合人們的需要
    4、當同一資料出現多個版本時,依賴於其錯誤的值會導致糟糕的決定
    5、沒有文件的資料價值值得懷疑

蜘蛛網環境
    在蜘蛛網環境中有如此多的線路通向如此多的地方。在許多企業環境中,蜘蛛網環境一經發展到了不可想象的複雜程度。任何人都可以
把任何事做完,不過很少人能做出好的、及時的決定。事實上,當前系統架構備受關注,蜘蛛網環境對企業來說是一個死衚衕,想要使蜘蛛
網環境工作是沒有希望的事情。最終只能求助於以資料倉儲為中心的架構。

企業角度的演化
    從企業人員角度出發,計算機開始於複雜性工作的簡單自動化。不久,人們發現計算機還可以用於記錄大量的資料,產生“主檔案”,
不久產生了聯機資料庫,利用聯機資料庫計算機開始進入商業活動的核心。聯機處理使得計算機進入企業網路。另外,還存在另一個由於
計算機進入商業網路環境而產生的影響,這種影響關係著商業管理,戰略以及決策等方面,即當前企業決策的形成是基於在企業的動靜脈等
等各種網路系統上的資料的,因此,正在描述的發展過程很難說是一個以技術為中心的過程,它還伴隨著一些來自企業的影響和牽連等。

資料倉儲環境
    資料倉儲代表了IT專業人員思維的重大變化。在資料倉儲出現之前,人們認為資料庫應該是一種能夠滿足所有資料需求的東西。但是
隨著資料倉儲的出現,對多種不同類資料庫的需求變得明朗起來。

什麼是資料倉儲
    資料倉儲是資訊處理的一個基礎,其定義如下:物件導向的、整合的、永久的、隨時間變化的,一個支援管理決策的資料的集合。
    資料倉儲包含了整合後的粒狀歷史資料。資料倉儲的奧妙是它包含的資料既是整合的有時粒狀的。資料的整合使得企業對資料有一個
真正的企業範圍級別的觀察。這樣,如果資料是從一個單一的定義良好的資料來源得到的,就可以從整體上而不是區域性地觀察資料來進行資料
分析,顯然絕大多數資料倉儲不滿足這一點。因此使用資料倉儲資料來觀察整個企業的能力是資料倉儲的首要優勢。另外,資料的粒度使得
使得資料非常靈活。由於資料是粒度的,它可以被一組人員以一種方式考察,其他人以另一種方式觀察。粒度資料意味著這仍舊是一組資料
--關於真是狀況的單一版本。如果不通的觀察方式得出不通的結論,還可以返回哪個關於真是狀況的單一版本來解決這些不一致。
    資料倉儲的另一個優點是它是一個歷史資料的集合,資料倉儲是存放有價值的數年前歷史資料的好地方。

整合資料--一個痛苦的經歷
    企業所感受到的第一個痛苦就是整合資料的需要。如果要建立一個資料倉儲,就必須整合資料。問題是許多公司都有許多遺留系統,
各種各樣的目的和意圖使得處理他們很難,人們實在不情願對他們的舊遺留系統做任何改變,但是建立一個資料倉儲又要求他們必須這樣做
    因此,建立資料倉儲第一個障礙就是返回那些遺留系統,看看都有那些資料,然後弄明白如何將這些面向應用的收轉換成企業資料。
    這種轉化絕非易事,並且在某種情況下幾乎不可能,但是整合資料的額價值值得去承受轉化未整合、面向應用的資料帶來的痛苦。

資料量
    大多數IT專業人員以前從來沒有處理過伴隨資料倉儲的產生的如此大量的資料。在應用系統中,儘早的丟棄較老的資料是個好的實踐,
因為他們會使系統慢下來。然而,在舊的資料中仍然存在巨大的價值。對於許多分析來說,舊資料是及極其用的,有時甚至是不可或缺的
因此,在資料倉儲中儲存舊資料對於資料分析而言太有用了。

一種不同的開發方法
    全世界的開發者習慣於先收集需求然後構建一個系統,這種方法已經在開發者構建執行系統的時候被反覆灌輸到他們的頭腦當中。
但是資料倉儲的構建非常不同,它是迭代地被構建的,每次前進一步,先構建一部分然後在構建另一部分。幾乎在每次開發例項中,這種
方法都作為一種策略來應對那些試圖使用“激進”的方法一次構建好整個資料倉儲所帶來的災難。
    構建資料倉儲不應該使用基金方法的原因有許多。1、資料倉儲專案一般都比較大。需要逐步建立。2、資料倉儲建立之處,對於它的需
求並不總是明確的。終端使用者並不確切地知道他們想要什麼,他們以一種摸索的模式進行操作,只有看見可能發生的事情時,才能得到真正
想要的是什麼。而正是構建資料倉儲的第一次迭代活動開闊了終端使用者的思路,引導使用者區思考可能發生的事情會是什麼,也只有在看見
資料倉儲後,使用者對它的需求才能變得明確。所以當開發者僅僅把它當做是一個操作型應用系統來開發時,會帶來資料倉儲構建過程中最大
的失敗。

演變到DW2.0環境
    事實上,很多因素推動資訊架構演變的形成,並達到其最高點--DW2.0.
    1、對於更多不同技術的使用需求:當比較一個最初的系統和DW2.0的系統時,可以發現DW2.0在系統及其與終端使用者的互動方面已經有了
顯著提升。而在不久前計算機系統以穿孔卡片輸出的時候,這幾乎是不可想象的。終端使用者的輸出作為一個微小的資訊點被掩埋在十六進位制
中。事實上,只要輸出還是以這種非常原始的形式出現,計算機就不算是高效的。
    2、聯機處理:只要對資料的訪問被限制在一段非常短的時間,商業人士就可以利用電腦來做事情。但是聯機處理一旦成為可能,商業
活動就會互動使用日常商業活動的資訊成為可能。有了聯機處理,預訂系統,銀行出納系統,ATM處理,聯機目錄管理以及其他一大堆的關於
計算機的重要應用就會變成現實。
    3、對於整合的企業資料的渴望:企業資料無法透過將若干微小的應用加在一起而獲得,相反資料必須被改造為整合的能為企業所理解的

資訊。但是一旦企業資料成為現實,對於處理的所有新的看法將被開啟。
    4、對於混合包含非結構化資料的文字資料的需求:多年來,決策都是僅僅在結構化的記錄資料基礎上做出的。但是有大量的資訊以文字
的、非結構化的形式存在。不幸的是,抽取出這些文字的資訊並不是容易的。文字ETL為各種組織提供了獲取作為制定決策基礎的文字資訊的
關鍵方法。
    5、容量:如果技術世界停止了創新,一個像DW2.0這樣複雜的世界完全不可能出現。但是技術的容量、技術工作的速度,以及使用不同
形式的技術可以相互聯絡起來的能力合起來創造了一個這樣的技術氛圍,其中容量時一個常見的制約。可以想象這樣的一個世界:所有的
儲存全部儲存在磁帶上,那麼,絕大多數現在被認為理所應當的處理型別完全是不可能的事情。
    6、經濟效應:根據摩爾定律,很多年技術的單位成本已經縮減,最終達到客戶層的可支付能力。
    資料倉儲對於商業的影響是非常巨大的,一些直接受到資料倉儲影響的領域包括:
    航空業的常旅客計劃:常旅客計劃擁有的最優價值的一項技術就是他們的中心資料倉儲。
    信用卡欺詐分析:每一個客戶都在其過去的消費行為的基礎上產生一些消費記錄。這些記錄是從資料倉儲中形成的。當一個客戶檢視
進行一個超過其記錄範圍的購買時,信用卡公司就會檢查是否將要發生信用卡的欺詐性使用。
    詳細目錄管理:資料倉儲儲存了詳盡的存貨記錄,注意趨勢及機會機遇。透過了解一個組織多管理的貨物的消費模式,公司可以同時
瞭解供給過剩還是供給不足。
    客戶記錄:那些想要“更好地瞭解他們的客戶”的組織跟蹤保留了他們的客戶所展示的購買模式和注意力模式。這些詳細的資訊都被
儲存在資料倉儲中。
    資料倉儲還透過許多其他的途徑影響商業活動。簡而言之,資料倉儲成為了企業的儲存器。沒有資料倉儲時,最多也就是有一個短期的
企業儲存器。有了資料倉儲就等於有了一個長期的、詳盡的企業儲存器,並且可對該儲存器以不同的方式加以利用。

資料倉儲的各種元件
    元件包括:遺留原系統、ETL、ODS、企業資料倉儲、資料集市、探索倉庫等。

    ETL:ETL技術使得資料可以從遺留系統環境中獲得並被轉換成企業資料。ETL元件執行許多功能:
    1、資料的邏輯轉換
    2、域的驗證
    3、從一個DBMS到另一個的轉換
    4、當需要時,預設值的生成
    5、資料的總結
    6、對資料鍵新增時間值
    7、重構資料鍵
    8、記錄合併
    9、額外或冗餘資料的刪除
    ETL的本質是把應用資料轉換成企業資料。

    資料集市:資料集市是終端使用者可以直接訪問和控制所分析資料的地方。資料集市是根據一組部門使用者對資料應該以何種方式被看到的
一種期望形成的,不同部門都有自己的資料集市。每一個資料集市的資料來源都是資料倉儲。資料集市通常是用不同的技術而不是不同的
資料倉儲來實現的。每一個資料集市包含的資料通常比資料倉儲少很多,它通常也包含大量的彙總資料以及聚合資料。
   
    探索倉庫:探索倉庫向想要對資料進行發掘處理的終端使用者提供了相應的功能裝置。許多統計分析就是在探索倉庫庫中完成的。許多在
探索倉庫中進行的處理都屬於不同型別的啟發探索。大多數探索倉庫都是基於一個專案儲存資料,一旦專案完成了,探索倉庫也就可以不用
了。探索倉庫承擔了重要的統計分析的處理要求,這樣就使得傳統的資料倉儲避開了由於使用探索倉庫做非常繁重的統計而引起的效能確缺
失。
   
    簡單的資料倉儲的概念已經從一個用於存放整合、粒狀、歷史資料的地方演變成一個完整成熟的框架。

資料倉儲的演變--從企業的角度
    在計算的最初期,終端使用者以一種非常原始的方式從計算機得到輸出。不久後報表變得規範。隨著終端使用者複雜起來,終端使用者得到的
能力越大,他們能夠想象到的能力也就越大。在報表出現後,聯機資訊幾乎同時出現。在聯機交易處理後,終端使用者又想要整合的企業資料
透過它可以得到大量的資料整合成一個聚合的整體,之後終端使用者又想要歷史資料。在此過程中也同時貫穿著架構和技術的演變。而正是
透過第一代資料倉儲,終端使用者才到達了分析能力的終極。如果沒有第一代資料倉儲,終端使用者對資訊僅是區域性的、不完整的需求。終端
使用者對企業資訊的渴望是第一代資料倉儲的發展背後的最大推動力。

建立一個“真正的”的資料倉儲
    開發者可以構建某一資料倉儲的各種變形中的一個,但更有意義的選擇是構建一個真正意義上的資料倉儲。如果開發者選擇了前者,那
麼後來某時刻肯定得重複做很多費力的工作,沒有人喜歡浪費大量的資源,而且也很少有人能負擔得起。做選擇時面臨的問題之一是正在
兜售資料倉儲的廠商都非常善於遊說,他們的第一目標是說服客戶區構建需要他們產品和服務的資料倉儲,而不是滿足商業需求的那種必須
的資料倉儲。不行的是,落入這種銷售圈套可能會浪費大量的資金和實踐。
 
總結:
    從使用者資料僅限於透過IT部門中介訪問到的可操作應用資料的那些令人沮喪的日子開始,資料倉儲已經經過很長一段時間發展。現在,
資料倉儲已經進化到可以滿足終端使用者對整合的、歷史的、粒度的、靈活的以及準確地資訊的需求了。第一代資料倉儲已經變得包含從粒狀

的、歷史的、整合的資料倉儲的原始應用中得到訓練有數的收ETL。隨著資料倉儲的流行,也出現了許多挑戰:資料量、空間開發方法、啟發
性等,還有更多。隨著資料倉儲演變的繼續,也出現了一些變體:主動資料倉儲;聯合資料倉儲;星狀資料倉儲;資料集市資料倉儲。這些
資料倉儲各有各的優點,但是他們同樣也帶了許多新的、明顯的缺點。
    下一代資料倉儲的時代來臨了--DW2.0。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1313326/,如需轉載,請註明出處,否則將追究法律責任。

相關文章