DW2.0下一代資料倉儲架構_第9章 監視DW2.0環境(讀書筆記)

thamsyangsw發表於2014-11-04

版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
 
    DW2.0環境是複雜和動態的,它的各部分之間存在著複雜的聯絡。資料要從一個元件流向另一個元件,還要執行事務,並且還進行資料
轉換等。在很多方面DW2.0環境是一個黑匣子。資料從一個地方進去,從另一個地方取出來,而在這之間發生了神秘的事情。不幸的是,如果
DW2.0環境被看做一個不透明的黑匣子,隨著時間的進行,黑匣子中發生的事情會慢慢變得不順利;資料會收集一些本不該收集的資料,事務
響應變得緩慢,資料會放錯位置,甚至還有更壞的情況。因此DW2.0不應該像一個黑匣子,這樣就需要週期性的檢視以便確保DW2.0環境以
預先期望的方式執行。

監視DW2.0環境
    強烈推薦要對DW2.0環境進行定期的監視。至少,應該在黑匣子中插入一個聽診器以便發現什麼正在執行。當DW2.0環境或它的某一部件
需要調整時,這些調整能提前而不是被動地去做。

事務監視
    事務監視發生在DW2.0的互動區。事物監視用來確保一個良好一致的響應時間。

資料質量監視
    DW2.0環境中需要的第二種監視是對資料質量的ETL監視。這種監視專用於核查透過DW2.0轉換元件的資料的質量。如果低質量的資料被送
入DW2.0,那麼至少需要通知分析師,使其也意識到這一點。

資料倉儲監視
    資料倉儲監視監控資料倉儲中的資料,被用來多個不同的目的。但它主要的目的是測量資料的使用頻率。從資料的使用頻率可以確定任
一資料是否進入休眠期。對休眠資料的管理是DW2.0環境管理的一個最為重要的方面。

事務監視--響應時間
    事務監視的主要目的是確保良好一致的反映時間。不幸的是,系統執行的許多方面都會對系統效能產生影響。監視系統效能經常要將
響應時間作為一個參考,在2-3秒範圍內的響應時間通常認為可以接受。也可能在一天當中存在一些時間段,在該時間段的響應時間有所延長
但是隻要這些時間段比較短且並不頻繁,響應時間增加得不是太長,那麼這個系統就可以被認為是以一種令人滿意的方式執行。通常可接受
的響應時間引數定義在服務水平協議中。
    事物監視的一些特性和特徵包括:
    1、事物佇列監視:事物佇列監視在執行之前儲存的地方。當系統繁忙時,事物會被掛起在事務佇列中等待執行。如果系統繁忙,這種
       等待就會成為效能的一個最大障礙。
    2、應用監視:在電腦中處理事物的應用需要被監視。當一個事物被執行時,它要佔用系統資源。這些系統資源用於正在執行的事物的代

       碼,而這些資源所被使用的時間長度是系統吞吐量和效能的最重要的度量之一。
    3、事務記錄監視:完成一個交易所需的記錄數也會影響系統效能。一個單獨的事務經常耗費許多資源。但是最能表現事務處理效能指標
       是事務執行所需的記錄數。簡單地說,需要較少記錄的事務執行起來會比必須執行許多記錄的事務快很多。

高峰期處理
    來自事務監視的一個重要的度量標準是系統在高峰期處理中對其所有資源的使用程度。在每個事務處理環境中,都有不活躍階段和活躍
階段。活躍階段就是所謂的“高峰期”。只要有能力滿足所有的處理,系統就會平穩執行。但是在高峰期,如果系統對資源的需求超出可用
資源,系統就會變慢,並且在絕大多數情況下會非常明顯。因此,每一個組織都應該去監視需要耗費的所有可用資源的高峰期處理時的資源
使用程度。如果在高峰期的資源使用時穩定的,那麼就沒有必要去增加系統容量。如果當高峰期處理對資源需求持續增長,就需要增加更多
的系統容量。另一個典型的用於事務監視記錄的重要引數是系統的增長率。可以隨著時間被記錄的系統增長的典型指標是系統中的事務數和
資料量。事物的數目是系統增長和容量消耗速率的一個良好指標。透過推測和設計一個系統處理的事務的資料,系統分析員就能確定什麼
時候需要進行硬體升級。其目的是預測什麼時候需要進行升級和確保在效能問題開始之前組織可以以主動的方式進行響應。一成不變的以被
動方式意味著組織將承受週期性的“癱瘓”。

ETL資料質量監視
    當資料從DW2.0的一個區流入另一個區,或資料最初進入系統時,ETL資料質量監視就會檢查資料。ETL資料質量監視的目的是為了評價數
據被轉化時資料的質量。ETL資料監視檢視資料的很多方面,它將檢查如下內容:
    1、數域:假設性別定義為:“M/F”,如果性別的資料以“MALE”的格式錄入,那麼ETL資料質量監視會將其記錄為錯誤
    2、不匹配的外來鍵:如果資料中存在對“John Hones”的引用,但顧客資料庫中沒有John Jones,那麼便被認為是外來鍵缺損或未匹配
    3、邊界範圍:顧客的正常年齡在15-80歲之間,如果進入系統的一個顧客年齡為234歲,這顯然是一個年齡範圍資料質量問題。
    4、空值:指定的每一個資料鍵都應該出現。如果資料輸入時主鍵為空,那麼需要被檢測並報告。
    5、被損壞的特性:輸入資料的值有明顯的錯誤
    那麼一旦檢測到錯誤,該如何處理?
    1、丟棄這個資料,這通常是一糟糕的選擇,因為:被丟棄的這條記錄的其他部分可能非常好;需要一些更正方法。人工更正應該是最後
       的選擇,耗費大量時間,嚴重拖延專案進度
    2、生成預設值。這樣做不正確的資料在系統中將不復存在。
    3、讓壞的資料也進入系統,但將其標記為錯誤的。標記錯誤資料就是在警告終端使用者這個資料存在問題。

資料倉儲監視工具
    資料倉儲監視是監視資料倉儲中什麼資料正在被使用和什麼資料沒有被使用的一個軟體工具。如果一組資料相當長的時間沒有被使用,
那麼他們就可以被認定是“休眠的”。好的資料倉儲監視應該設計為能夠檢測和報告休眠資料。
    資料倉儲中資料監視的一般方式是透過擷取提交給資料倉儲系統的SQL程式碼。透過收集輸入系統的SQL,分析人員就能確定在資料倉儲中
什麼資料正在被訪問,什麼資料沒有被訪問。通常,SQL是由“嗅探”通訊線路來擷取的。安排嗅探器的一個方法是把它安置在資料倉儲計算
機外部或者資料倉儲計算機的內部。通常在外部嗅探SQL更為有效。內部嗅探會產生巨大的開銷,影響資料倉儲效能。

休眠資料
    當資料進入休眠期時,它需要被植入備用儲存器中。備用儲存器比起高效能的硬碟儲存來說要便宜的多。初次之外,休眠資料會阻塞高
效能硬碟儲存的動脈。
    休眠資料是悄悄進入系統的。新建立的資料倉儲中一般不包含大量的資料,因此也不會包含很多休眠資料。醉著資料倉儲中資料量的增
長,休眠資料所佔的比例上升。當資料倉儲中存在非常多的資料時,相應也會有非常多的資料進入休眠狀態。
    一個簡單的選擇是把休眠資料保留在資料倉儲中。但是這樣做成本較高,而且會大幅度降低系統效能。另一個選擇是把休眠資料移入
近線區或者歸檔區。資料倉儲監視用於報告什麼時候資料進入休眠狀態。

總結:
    在DW2.0中所需的三種監視:事務監視;資料質量監視;資料倉儲監視。事物監視放置在互動區,並著重於事務響應時間和效能計劃。
事物監視尤其關注在高峰處理期發生的資料倉儲活動。事務監視需要檢測工作量、佇列長度和資源的利用情況。資料質量監視注重於監視當
資料從DW2.0一個區進入另外區時數域和資料範圍。資料倉儲監視主要關注DW2.0資料倉儲的整合區並解決休眠資料。它觀察資料並確定哪些
資料被使用,那些資料沒有被使用。最好的資料倉儲監視是那些在資料倉儲DBMS外部執行的資料倉儲監視。對於監視在資料倉儲內部進行的
活動,SQL嗅探的使用是最不冒失且最不耗時的技術。

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1319660/,如需轉載,請註明出處,否則將追究法律責任。

相關文章