DW2.0下一代資料倉儲架構_第7章 統計處理和DW2.0(讀書筆記)

thamsyangsw發表於2014-11-03

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。


    資料倉儲最重要的功能之一是對統計分析的支援。所有行業都使用了統計分析,只是程度不同而已。從終端使用者的角度來看,透過統計
分析得到的資料從根本上不同於以其他方式得到的資訊。例如,統計產生的資料往往用來做戰略性決策分析,很少用來做區域性性分析。統計
分析必須設計大量的資料,其他形式的分析往往只能看到很少一部分資料。統計分析所涉及的資訊往往具有更長時間的跨度,對於統計分析
而言,翻看到5年、10年甚至更久的資料是很正常的。

兩種型別的處理
    基本查詢和統計分析。基本查詢僅使用很少的一些資源,僅需很少的資料;相反,典型的統計分析需要很多的資源來滿足統計查詢,需
要大量的資料記錄。查詢僅查詢並給出少量資料;統計分析中,需要大量的資料記錄;

使用統計分析
    最簡單的統計分析可以是建立一個資料分析檔案。資料的分析是指資料實體內容的統計總結。資料統計分析可以回答一下典型的問題:
有多少條資料記錄?最大值和最小值是多少?平均數、中間值、最頻值是多少?有沒有超出指定範圍的值?是否存在指定範圍內的邊緣值?
這些資料非分佈有什麼規律?所有諸如這些問題都可以新增到實體的分析中。
    資料的統計分析出了以上的用途之外,還有許多其他方面的應用。例如對企業資料和外部資料的比較。其中,企業資料的生成和發展是
比較的第一步,然後在捕捉外部資料並將它們置於相同的環境條件中,然後就可以進行比較了。比較的完整性是比較統計分析的一個關鍵
問題。嚴謹的統計學工作者一般會確定它們比較的物件是否為同一事物--是蘋果核蘋果比較還是蘋果核橘子比較。
    統計分析還可以確定資料發展趨勢和資料的模型。
    啟發式分析屬於發現過程中的一部分,在發現過程中,分析員並不知道資料中隱含的資訊。他們要在不知道資料包含什麼也不知道自己
期待什麼的情況下開始去挖掘或者學習資料的內容。在啟發式分析中,下一次分析迭代是由當前分析結構決定的。計劃好分析的迭代次數或
分析得到什麼結果,對於真正的啟發式分析來說是不可能的。在商業領域中,抱有啟發式分析態度的人隨處可見。
    統計處理和啟發式分析存在著一定的關聯性。在啟發式分析中會偶爾地凍結資料,凍結後系統不能吸收新的資料。這麼做是因為我們
需要檢查分析的結果是由演算法還是資料的改變產生的。

探索性處理
    探索處理的本質之一是它經常進行反覆的探索過程。在許多型別的資訊處理中,分析過程往往建立在內容、形式和結構都已知的資料上
另外一種型別的資訊處理則恰恰相反,他們對資料的內容、形式和結構一無所知。這就是探索分析。

分析頻率
    統計分析的頻率和DW2.0對統計處理的支援有著密切的關係。隨著統計分析頻率的改變,支援DW2.0的基礎設施也會相應變化。隨著統計
分析頻率的增長,對單獨的探索工具的需求也越來越大。如果統計分析一年只做一次,那麼基本的DW2.0的基礎設施就可以單獨勝任這個水平
的處理。如果一個季度一次,也可以勉強處理。如果一個月一次,那麼或許也可以處理。但如果頻率更高而DW2.0架構又沒有額外的效能增加
那麼就無法處理了。在很多機構中統計分析常常是一小時一次,那麼需要將單獨的探索工具新增到到資料倉儲中,以保證分析處理正常使用

探索工具
    可以在探索工具上面進行統計處理並對核心DW2.0基礎設施不會產生影響。探索工具和DW2.0環境在物理空間上相互分離,他們位於不同
的物理平臺上。如果需要的話探索工具可以被凍結一段時間。如有必要還可以引入外部資料。典型的探索工具常常包含DW2.0環境下資料的
子集。它很少從DW2.0環境中直接複製,甚至連一部分也很少複製。探索工具中資料具有最低粒度。另外還常常引入大量的歷史資料。這樣
做是為了滿足探索分析的需求常常需要資料的細節和歷史跨度。探索工具中的資料結構往往是混合型的。一些資料在磁碟上以表格的形式
儲存,還有一些資料分佈在檔案中,這些平鋪的檔案往往是適合做統計分析。探索工具往往包含大量同一型別的資料。探索工具中資料的
種類較少,而資料記錄卻很多。

探索性處理資料的來源
    探索工作可以從很多地方得到所需的資料資源,整合區、近線區和歸檔區等。其中整合區是探索工具獲取資料的主要來源。有時也可以
從互動區獲取資料,需注意以下事項:先要保證互動區的服務不被干擾,要特別小心維護互動區的效能;從互動區中取得的資料不能是可
審查的。

更新探索資料
    進入探索工具的資料的更新週期必須仔細考慮。在DW2.0的其他部分,資料的流動會很快,只要出現資料就開始流動。而探索工具的收只
在探索分析師需要時才會流進來。這種需求頻率可能是天、周或者是月,這取決於探索分析師的需求。

基於專案的資料
    通常探索工具是基於專案的,管理層需要對一個具體問題進行研究。收集相關的資料,對資料進行分析,然後把分析結果送至管理層。
一檔資料被送至管理層並研究完,資料要麼被丟棄,要麼儲存起來,所有基於專案的探索工具並不是一個永久性結構。然而一些機構卻像
擁有永久性的探索工具。在這種情況下,當需要進行分析時,探索工具需要隨時可用,而其中的細節資料則要經常更新。

資料集市和探索工具
    資料集市和探索工具有很大不同:
    1、探索工具擁有細節資料,資料集市多為概要資料或整合資料
    2、探索工具是用來發現知識的,資料集市僅僅是傳播資訊
    3、探索工具服務於資料工作者,資料集市為商業分析員提供幫助
    4、探索工具基於平鋪檔案,資料集市基於OLAP
    5、探索工具經常是臨時性的,而資料集市則是永久性的
    6、探索工具依賴於統計軟體,資料集市依賴於商業智慧軟體

資料迴流
    讓探索工具流回到DW2.0環境是允許的,但是有一些前提條件必須滿足
    1、探索工具輸出的資料必須能夠在整個企業環境的不同地方使用。如果輸出資料僅僅被用在一兩個地方,那麼將它置於DW2.0意義不大
    2、DW2.0環境中需要有和探索工具資料相關的資料稽核跟蹤和計算
    3、如果探索工具中的資料要放入DW2.0環境中,並且該探索工具是基於專案的,那麼這些資料往往是受限制的一次性提供的資料。
       如果要放入DW2.0環境的資料來自於臨時性資源,就不要指望這些資源成為進入DW2.0資料倉儲的資料的永久提供者

在內部使用探索資料
    探索工具在使用時一定要謹慎。在大多數情況下,探索工具提供的分析僅僅是內部使用。這是因為探索工具用到的資料並沒有像流入
DW2.0環境的資料那樣經過嚴格的ETL處理。因此,當審計師和審查員提供報告和資料時,如果使用從探索工具得到的資料,便沒有意義。相
反,只有“正式的”資料才可以被用在正式的報告中。我們需要記住。報告用到的資訊最終往往會出現金融評論甚至新聞中,因此將基於
探索工具資料的報告用在公共場合中是很不明智的,原因在於這些報告可能並不是透過事宜的計算得到的,甚至還可能包含錯誤的資料。

總結:
    查詢分兩種型別:分析查詢和探索查詢。探索查詢涉及了大量的資料並且需要很長的時間。探索查詢需要粒度的和歷史的資料。典型的
探索處理利用了統計技術。
    有時,探索資料需要被凍結,凍結一般發生在啟發式處理過程中。在啟發式處理過程中,分析的下一步完全取決於當前分析的結果。
    探索工具建立的目的僅僅是為了支援探索處理。是否需要建立探索工具完全取決於統計分析發生的頻率。如果統計分析發生的頻率較低
那麼便沒有必要建立專門的探索工具,反之,可能需要建立專門的探索工具。
    統計工具建立在專案基礎上。如果專案完成,那便沒有必要保留相關的探索工具。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1319009/,如需轉載,請註明出處,否則將追究法律責任。

相關文章