DW2.0下一代資料倉儲架構_第23章 管理DW2.0環境(讀書筆記)
版權宣告:
該系列文章(DW2.0下一代資料倉儲架構)內容系作者學習用筆記,
歡迎共同學習,所載內容版權歸原書作(譯)者所有,請勿轉載商用。
DW2.0環境是一個非常複雜的環境,需要很長的時間來構建。DW2.0環境涉及及企業的很多部分:日常操作,管理,戰術戰略決策甚至是
董事會。DW2.0環境也包含很多方面,如技術、商務、法律、工程以及人力資源等。因此,DW2.0環境是一個長期管理問題,需要小心去經營
管理。
資料模型
DW2.0環境中的知識核心是資料模型。資料模型用來描繪如何用技術來滿足業務需要。在很長一段時間裡,資料模型都是用來指導不同
開發者的開發工作。如果能合理地運用資料模型,一部分開發接著另一部分開發的過程就像拼接一幅巨型拼圖。換種說法,如果沒有資料
模型,在DW2.0環境下要協調多個長期的多人開發專案是一項幾乎不可能完成的任務。
資料模型包含了多種不同的層次,有高層、中層、低層。第一步(也是最難的一步)是定義資料模型的整合範圍。整合範圍之所以很難
定義是因為它絕不是靜止的,而是持續變化的,並且每一次改變都影響著資料模型。
當這個範圍變化太頻繁,企業將遭受“範圍蠕動”。
高層資料模型很少需要隨著時間的推移而維護,而中層資料模型和低層資料模型則會受到企業中的長期變化而明顯影響。隨著時間變化
中層模型中的主鍵,資料關係,資料域,資料定義,屬性甚至是組屬性都會發生改變。而每次改變的發生,相關的物理關聯式資料庫也隨之
改變。
資料模型管理的部分工作是為了確保資料模型每次改變都有相應的對資料倉儲的新開發和新修改。其中,要確保的最大問題是:
1、不能引入資料模型中沒有的新的基本屬性,或者當要引用新的基本資料元素時,他們可以加入資料模型;
2、新開發者能夠將資料模型看做是前進的促進劑,而不是前進的壁壘。
3、對DW2.0做的新修改要遵從資料模型。
需要特別注意的是,資料的屬性組和主鍵/外來鍵對資料間的一致性非常重要,而資料模型的其他方面就沒有那麼重要了。
另外,主資料派生出來的資料不需要遵從資料模型。
架構管理
除了為遵循資料模型而需要的一個趨向資料模型的管理機構外,還必須有一個一般的架構機構來管理DW2.0架構。架構管理趨向於對架構
進行長期的監控。接下來給出架構管理需要注意的地方。
確定什麼時候需要歸檔區。大多數環境都不需要立即建立歸檔環境,而常常是過了一段時間後才建立它。架構管理為何時及如何建立歸
檔環境提供了指導。架構管理決定了歸檔環境的許多方面。例如:
1、資料進入歸檔環境的時間
2、資料在歸檔環境中停留多長時間
3、將資料移出歸檔環境的準則
4、歸檔平臺
5、歸檔環境的資料庫設計
6、被動索引是否將被建立
7、是否建立被動索引
8、歸檔資料的粒度級別
9、其他內容
確定是否需要近線區。如果需要近線區,那麼架構管理就會確定一些重要的引數。例如:何時將資料移入近線區、整合區和歸檔區;要
儲存那些後設資料;近線區使用什麼平臺等等。隨著時間的推移,對近線區的需求也會發生變化。在最初設計時,可能很明顯就可以看到根本
不需要近線區。但經過一段時間後,決定需要的因素可能發生變化。因此,我們總有一天可能要用到近線區,而決定是否需要近線區只是
架構管理的工作。架構管理員能夠做的決定包括以下幾種:
1、是否需要近線儲存器
2、資料進入近線儲存器中的標準
3、近線儲存器所需的平臺
4、資料移出近線儲存器的標準
互動區是DW2.0環境中另一個架構管理員所關注的區。有些企業中有互動環境,而有些卻沒有。架構管理員主要解決如下的問題:
1、是否需要互動環境?
2、如果存在一個互動環境,那麼它的相應時間是否合適,是否合乎所有服務標準協議的要求,可用性是否適當。是否合乎所有SLA要求
互動環境是否可用於任何需要完成的報表,是否滿足容量要求
3、當資料移出互動環境時,其是否被適當地整合?
4、假如要將遺留資料讀入互動區,那麼是否已將其適當地整合到應用當中?
5、互動區工作在什麼平臺?
架構管理員的另一項任務是確保不存在從一個資料集市到另一個資料集市的資料流。當管理員發現這種情況時,應當重定向一個資料集
市的資料流,使其流向DW2.0環境,然後再從DW2.0返回到另一個接受資料的資料集市。
架構管理員還有一項任務是確保能夠進行適當的監視對監視結果進行適當的解釋。DW2.0有很多需要監控的活動。例如,需要監視互動區
中的交易和響應時間,還需要監視DW2.0環境其他部分的收及其使用情況。對DW2.0環境下的監視,還需要考慮一下幾個問題:
1、互動區中的交易是否正在被監視?
2、互動區的可用性是否正在被監視?
3、整合區中的資料使用是否正在被監視?
4、休眠資料確定了嗎?
5、監視器會浪費大量系統資源嗎?
6、何時對監視結果進行檢查?
監視整合區資料使用的最重要的結果是決定什麼時候建立一個新的資料集市。管理員查詢整合區中重複的資料使用模式,當相同結構的
資料請求出現的次數足夠多是,就表明需要資料集市。
以上是DW2.0環境中的一些架構管理活動。但是DW2.0環境其他一些方面同樣需要架構管理。
毫無疑問,架構管理員需要掌握的一項能力是理解架構。如果讓一個不知道架構的含義且不知道架構都該考慮哪些的人當架構管理員,
那肯定是白費功夫。
架構管理的另一個重要部分是管理DW2.0中的ETL處理。DW2.0中的第一種ETL程式是傳統的對從應用源中的資料的整合。此時需要檢測的
問題包括:經過ETL處理的資料流動,資料轉換的準確度,這些轉換對分析機構的可用性,以及轉換的速度、容易堵等。另外一類ETL工具是
文字轉換,透過文字轉換可以將非結構化資料轉入DW2.0中的資料倉儲中。此時的管理問題包括:進入DW2.0的資料量,使用的整合演算法,DW
2.0中的資料型別等內容。要注意的是,兩種型別的ETL轉換是完全不同的。
後設資料管理
後設資料是DW2.0環境中最重要的一個方面。由於種種原因,後設資料管理是一項單獨的任務。其中一些原因如下:
1、後設資料的捕獲和管理工具的發展大大滯後於其他技術
2、之前的後設資料管理並不成功,失敗次數由於成功次數
3、相比DW2.0環境其他方面的業務案例,有關後設資料的業務案例需要更多的關注
當然,還可能存在更多的原因,使得後設資料管理成為一個敏感問題。
問題是需要使用後設資料來將DW2.0環境的不同部分有意義地結合在一起。也就是說,如果沒有一個有內聚性的後設資料基礎結構,DW2.0的
很多不同部分將無法協調他們之間的工作。
後設資料管理需要包含很多方面,其中包括:
1、後設資料的原始捕獲
2、後設資料的編輯
3、在DW2.0環境中的適當時間和地點是後設資料可用
4、後設資料的持續維護
5、DW2.0環境中不同地方的後設資料分佈
6、後設資料的進一步擴充套件
7、後設資料的歸檔
除了以上這些考慮,後設資料管理員還要確定一下重要內容
1、後設資料的執行平臺
2、捕獲和儲存後設資料所採用的技術
3、展示後設資料或使後設資料可用所採用的技術
後設資料的一個問題是它的短暫性。跟結構化資料不同,後設資料存在於多種形式和結構中,因此很明顯它不像其他資料形式一樣具有穩定
性和適應性。
後設資料還有一個主要問題是它有多種資料形式。其中後設資料的兩種基本型別是:
1、業務後設資料
2、技術後設資料
通常,技術後設資料比業務後設資料更容易識別和捕獲,這其中的原因大家早就知道了。實際上業務後設資料早就被看做是資訊領域的一部分
但從廠商、產品、技術等方面都沒有正式地定義業務後設資料。所以相比較業務後設資料,技術後設資料更容易被找到並確定。
資料庫管理
DW2.0中另一個至關重要的方面是資料庫管理,它要完成資料庫的日常關注和管理。這一項技術工作,需要了解如何儲存資料庫,如何恢
復丟失的事務,如何判斷何時丟失事務,當資料庫關閉時如何備份資料庫等問題。
簡而言之,當資料庫出現問題時,資料庫管理員負責完成對資料庫的本分並使其運轉。
資料庫管理的挑戰之一是DW2.0環境所需的資料庫管理活動的絕對數量。資料庫及表是如此之多,以至於資料庫管理員在任何一個資料庫
上投入大量的時間是不可能的。因為他們的資料量太多,而且每個資料庫都非常重要,因此,管理員需要用工具來檢視這些組成DW2.0環境的
資料庫和表的多方面。
DW2.0中對資料庫進行管理需要考慮一下問題:
1、為DW2.0環境中的資料庫管理的監視而選擇工具。
2、為DW2.0環境中的資料曲線及對其所帶來的痛苦的預防而選擇工具。
3、確保在需要時能使用這些工具。
通常,資料庫管理是一個7天、每天24小時的工作。負責資料庫管理的人應該在所有時間都隨叫隨到,並當出現問題時能夠給出怎麼去做
的建議。尤其在互動環境中,當資料庫出現問題時,資料庫管理員要儘可能地主動,因為故障和停機都會讓人對環境不滿意。但主動處理時
很困難的,因為資料庫管理員所要應對的絕大多數任務都是有反作用的。
資料管理
近些年,管理和遵循原則已經成為一個大的問題,因此資料管理的角色也就成為一個重要話題。過去資料管理的工作緊緊是系統的輸入
和輸出,而現在,資料的質量和準確性已經變得非常重要。
在此架構中,資料管理已被提升到被公認需要承擔責任的位置上。
資料管理工作需要承擔以下工作:
1、確定哪些資料元素構成了記錄系統
2、對這些資料元素的資料質量標準的規範說明
3、這些資料元素的相關演算法和公式的規範說明
為了區分資料庫管理員和資料管理員的只能,需要考慮一下問題。當資料庫出現故障並對系統不可用時,或是當效能下降並且出現一個
整體的系統停機時,需要資料庫管理員來處理;而當終端使用者發現記錄中存在錯誤值時,或當需要設計新的資料庫以及考慮資料來源和資料
轉換時,就需要資料管理員了。
因此,資料庫管理員和資料管理員負責不同的事情。通常,資料庫管理員是技術人員,而資料管理員是業務人員。試圖將資料管理員的
工作看成是技術性的工作是不對的。
資料管理員的一些工作包括:
1、可以承擔資料庫的設計工作,尤其是設計中包含轉換和對映的設計。
2、能夠回答指定資料元素內容的相關問題。
3、講解給業務分析人員都有那些資料以及如何最好地解釋這些資料
4、確保能夠準確地設計對映和轉換
5、描述如何完成演算法和程式邏輯以能 反映資料真正的業務含義。
一些大型企業通常又多個資料管理員。如果一個資料元素在任何時候沒有或有多個資料管理員,都將出現問題。
系統和技術管理
系統和技術管理是DW2.0環境的一個整體部分。DW2.0環境最終執行於多個平臺之上。由於資料、處理以及對DW2.0不同部分的要求都是多
樣的,所以只有一個平臺服務於整個DW2.0環境的情況是不常見的。相反,需要結合使用多種不同技術和平臺以滿足DW2.0處理的需要。
DW2.0中有的地方要求很高的效能;有的地方關注與資料整合;有的地方要求能對資料進行長時間的儲存;還有的地方則需要滿足終端
使用者的分析需求。總而言之,就是存在著許多不同的標準來確定在不同地方DW2.0環境是否是成功的。
由於存在許多不同的需求,所以沒有一種單一的技術或平臺能同時滿足所有的需求也就不足為怪了。
因此,DW2.0中技術和系統的管理員需要充當多種角色,屬於技術管理員的任務有:
1、保證技術相容性,例如,確保資料能在不同的環境下傳送,系統的效能不受其他系統影響,資料能在所有的系統間整合,以及確保在
整個環境中的可用性等。
2、確保多DW2.0中所有元件有一個長期的發展計劃。
3、保證後設資料在DW2.0環境的各元件間有意義地變換
4、確保終端使用者清楚地瞭解對於不同的處理,應用DW2.0中的那些元件是合適的
5、網路管理,確保整個DW2.0環境中能夠且高效地進行通訊
6、定時,確保資料間能夠以一種流暢無阻的方法相連線
7、效能,確保整個DW2.0環境的效能是可接受的
8、可用性,確保DW2.0中的各個元件在需要時能正常執行
9、確保在終端使用者需要時所需的後設資料是可用的。
技術管理員工作的一項重要內容是容量規劃。技術管理員的工作在很多方面都類似於資料庫管理員的工作。操作技術在很多時候是以交
互模式進行的,且沒有人喜歡一直被昨天已經完成的工作所煩惱。而這也正是技術員及資料庫管理員都可能遇到的情況。
技術員想要擺脫互動模式工作的一個重要方法是進行適當的容量規劃。並不是所有的差錯和問題都和容量相關,但在大多數情況下是這
樣的。當有足夠的容量時,系統會正常工作,當容量不足時,系統會發生崩潰,出現很多不同的表現。
在DW2.0環境中技術員需要注意集中容量及相關的指標:
1、所有型別的處理,尤其在互動環境下的線上事務處理
2、佇列長度和容量,佇列長度在系統中通常是一個瓶頸值
3、快取容量和命中率
4、硬碟空間
5、近線空間
6、歸檔空間
7、歸檔處理
8、網路容量
9、等等
透過觀察以上各種指標,技術員能夠在許多問題發生之前就先行處理它。
還有其他一些重要指標,包括整合區中休眠資料的增加,近線儲存的增長,歸檔儲存的增長,整個環境中資料訪問機率的測量,網路瓶
頸等。技術員在任何地方提前避免重要的短缺問題都會更好。
管理終端使用者的關係和期望是DW2.0環境下的一項非常重要的管理工作,如果管理員忽視了這一點,管理就會存在很大風險。終端使用者
期望的管理方式包括:
1、設立服務檯
2、定期釋出針對如何使用DW2.0的包含成功案例和幫助提示的實時簡訊
3、偶爾在內部開設一些講述DW2.0環境的各個方面的內容和使用的教程
4、實行指導委員會,這樣終端使用者就可以決定優先權和進度,至少給出一些意見。
5、讓終端使用者參與DW2.0環境完整的設計和開發週期
6、實行一體的“展示和講述”會議,並由此實行內部會議
7、偶爾讓外部專業人員參加短期研討會,以補充DW2.0的經驗和資訊
服務標準協議的建立,也是管理終端使用者關係的重要部分,服務標準協議是在DW2.0中日常的處理中測量的。它提供了一個可度量的開放
的系統效能記錄。建立它對終端使用者和技術員都有幫助,通常,服務標準協議同時解決了線上效能和可用性的問題。另外,分析環境中使用
的服務標準協議和在事務環境中使用的有很大的不同。
有時候在DW2.0中需要進行統計處理,此時技術員必須仔細監視統計處理對資源利用的影響。到了一定程度時,需要建立單獨的裝置來
研究統計分析。
DW2.0環境管理人員的管理
管理人員設計所有的管理活動,其任務就是保證滿足管理DW2.0環境的各個目標和目的。如下是其中一些重要的方面。
最佳化與優先衝突,當面臨最佳化問題時,人們就會出現在經理辦公室中。幾乎總是會出現這樣的情況,即一些部門要對DW2.0進行修改和
新增操作,與此同時另一個部門也要對其進行修改和新增操作。此時經理的工作就是解決至少是改善這些衝突。一些典型的考慮包括:
1、在DW2.0中新增哪些元件可以得到最大的財政回報
2、在DW2.0中新增哪些元件最容易、最快
3、在DW2.0中新增哪些元件可以在組織機構可接受的時間框架內完成
4、在DW2.0中新增哪些元件可以得到最大的戰略回報
對於企業,當需要決定新增或修改的順序時,管理人員必須仔細考慮這些問題。此外,在管理DW2.0環境時還有其他要考慮的問題。
預算
預算是管理人員影響組織機構的主要方式。得到了資金的專案可以繼續進行,沒有得到的專案無法繼續進行。預算分為長期預算和短期
預算。在DW2.0環境中,幾乎所有的事情都是以迭代的方式完成的。這意味著管理人員有機會做一些長期和短期的糾正,這也是預算過程中
很正常的一部分。
進度表和里程碑的確定
里程碑和進度表的設定是管理人員工作的一個重要的部分。通常,管理人員並不建立最初的進度表和里程碑,而是讓專案組提出進度表
和里程碑。然而,管理人員批准這些可接受的進度表和里程碑。由於DW2.0的各方面幾乎都是以迭代方式來構建的,管理人員也就有足夠多的
機會來影響整體的進度表
資源分配
經理選擇誰來領導專案是一門藝術。一種學派的觀點是,當專案出現問題時,就投入更多資源。不幸的是,這會向組織機構傳遞一種錯
誤的資訊:一種能夠得到更多資源的可靠方法就是讓專案陷入麻煩中。還有一種方法是任何專案陷入麻煩時就解僱專案負責人。不幸的是
有很多合理地情況會使一個專案陷入麻煩。管理的藝術在於確定即將面臨的情況,並作出合適的決定。即管理人員要能夠分辨出快速碾過減
速帶和掉下懸崖的區別。
管理諮詢人員
由於缺少關於DW2.0中的開發技能,企業向外面的諮詢人員尋求幫助是非常正常的。管理人員需要能夠客觀地挑選諮詢公司,而不一定
挑選那些首選的公司,原因是首選的公司可能沒有任何經驗。另外,管理人員需要警惕那些諮詢公司,他們以能力為賣點,卻為專案配備了
一些新僱用的正在摸索經驗的職員,這是以犧牲客戶利益為代價的。有多種辦法可確保諮詢公司不向不知情的企業”出售貨物”:
1、不要簽署超過12個月的合同。假如這個諮詢公司是值得僱傭的,那麼12個月後,如果工作圓滿完成了就繼續簽署合同,相反,如果
沒有按照合同的規定很好的完成工作,那麼就再僱用新的諮詢公司。
2、確保有切實可行的短期交付物。這是判斷是否真正取得進展的一個好辦法。
3、確保諮詢公司具體說明都有誰參與專案,關鍵職位是關於設計和管理工作的
4、安置兩三名企業職員負責專案的關鍵職位,與顧問一起手把手工作。這樣一旦出現問題,企業職員自己能夠判斷是否需要通知管理人員
5、將各種關鍵的設計都寫成文件,並保證任何時候這些文件對管理人員都是可用的
6、檢查諮詢公司的各種資質證明。不要僅僅因為諮詢公司是一家大型的知名公司,就輕易地認為它一定能建立DW2.0環境
7、警惕諮詢公司禁止外來專家偶爾對工作進行審查。一家有信心、有實力的諮詢公司會很樂意讓其他專家進行審查,尤其是設計,開發
實施出現問題的時候
8、警惕與硬體/軟體供應商繫結在一起的諮詢公司。諮詢公司提出的建議常常是一種可察覺的供應商的產品。
9、公開與其他企業共享管理經驗。如果其他管理人員公開討論他們的經驗,那麼你可以從中學到很多東西
10、警惕展示一個別的公司的經理的供應商。在大多數情況下,這些經歷都有一些你並不知道的安排。在某些情況下,諮詢公司的經理
事實上就是供應商的僱員或者至少是供應商的代理
11、警惕供應商實現安排好諮詢公司以達到他們自己的目的。很多軟體供應商與諮詢公司秘密地勾結,你獲得的評測結果很可能是不正確的
12、警惕那些聲稱做產品套件的市場評估的公共顧問。這些顧問與供應商經常做一些秘密地安排,目的就是誘使你購買他們的產品,而不是給你一些誠實的產品市場評估
13、警惕那些聲稱做市場研究和產品評估的公司。你應該清楚,很多調查公司會向供應商出售一些服務,這會對供應商的產品評估產生
影響。如果市場評估公司宣告瞭他們花在市場調查以及產品評估上的費用,那些供應商的評估是有效的。但如果市場調查公司隱瞞了對供應商
進行評估的費用,那麼市場調查公司所做的各項建議及評定就一定是不可信的。
總結
總之,DW2.0環境的管理工作體現在很多方面,包括:
資料模型
ETL環境
資料庫
管家
技術及系統
網路管理
歸檔處理
近線儲存
互動處理
後設資料管理
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26613085/viewspace-1312148/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- DW2.0下一代資料倉儲架構_第9章 監視DW2.0環境(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第22章 DW2.0環境中的處理(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第10章 DW2.0與安全(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第2章 DW2.0簡介(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第15章 DW2.0和效能(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第12章 DW2.0的資料流(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第8章 資料模型和DW2.0(讀書筆記)架構模型筆記
- DW2.0下一代資料倉儲架構_第14章 DW2.0與粒度管理器(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第20章 DW2.0與記錄系統(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第13章 ETL處理與DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第17章 成本驗證和DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第19章 DW2.0和非結構化資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第4章 DW2.0中的後設資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第7章 統計處理和DW2.0(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第16章 遷移(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第3章 DW2.0組成部分--關於不同區(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構 前言(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第11章 時間相關資料(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第5章 DW2.0技術基礎設定的流動性(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第21章 多方面的話題(讀書筆記)架構筆記
- DW2.0下一代資料倉儲架構_第1章 遷資料倉儲簡史及第一代資料倉儲(讀書筆記)架構筆記
- 《APUE》第7章 程式環境-讀書筆記筆記
- 《Effective C++》第3章 資源管理(2)-讀書筆記C++筆記
- 《Effective C++》第3章 資源管理(1)-讀書筆記C++筆記
- 維度處理-資料倉儲-讀書筆記(四)筆記
- 《微服務架構設計模式》讀書筆記 | 第4章 使用Saga管理事務微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第8章 外部API模式微服務架構設計模式筆記API
- 讀書筆記:深入解析oracle-第4章 資料字典筆記Oracle
- DW2.0-下一代資料倉儲架構架構
- 讀書筆記:深入解析oracle-第5章 記憶體管理筆記Oracle記憶體
- 程式程式設計3 - UNIX高階環境程式設計第9章讀書筆記程式設計筆記
- 《微服務架構設計模式》讀書筆記 | 第2章 服務的拆分策略微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第7章 在微服務架構中實現查詢微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第9章 微服務架構中的測試策略(上)微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第3章 微服務架構中的程式間通訊微服務架構設計模式筆記
- 《微服務架構設計模式》讀書筆記 | 第1章 逃離單體地獄微服務架構設計模式筆記
- 讀書筆記之《現代軟體工程》第5.5章、第6章、第7章筆記軟體工程
- 讀書筆記——讀《構建之法:現代軟體工程》第13~17章筆記軟體工程