【原】影響資料倉儲成功的十個關鍵因素(翻譯)

bq_wang發表於2008-04-20

 

 

1.      build the data warehouse iteratively, not in a "big bang" approach

迭代構建資料倉儲,而不是採用“大棒”方法

資料倉儲實施過程中最簡單最重要的方法就是迭代構建一個資料倉儲。而不是採用“大棒”方法構建資料倉儲。快速建立資料倉儲的一個迭代,然後不斷調整,並快速進入下一個迭代,以此類推。不要一下子收集所有需求,也不要採用瀑布開發生命週期的方式開發資料倉儲。

2.      be prepared for massive volumes of data

做好大資料量的準備

開始啟動資料倉儲專案時,一定要清醒地認識到你正在處理你以前從未看到過的大量資料。資料倉儲以TB甚至PB來度量資料量。而舊有的業務系統則以MB或者GB來度量。資料量的增加將代表很多含義——比如採用什麼樣的硬體,效能如何,多少使用者數,查詢規模等等。不要想當然的認為之前的設計和管理技術經驗也能適用於資料倉儲環境。

3.      make sure the end user is involved up front

確保終端使用者的介入

要確保終端使用者在資料倉儲初期的設計和開發階段就介入進來。如果你不能夠保證終端使用者的介入,這將會導致一場災難——很可能資料倉儲從技術上是成功的,但是卻是組織上的夢魘,因為沒有人會使用這個資料倉儲。

4.      be alert to the fact that the data warehouse is built under a very non classical development approach

需要提防的事實:資料倉儲是基於非傳統的開發方式的

一個建議是:資料倉儲開發環境與早期的開發環境是非常不同的。資料倉儲的開發是基於螺旋形的開發方法理論。螺旋形開發理論也可以成為啟發式的迭代的開發方法學,即首先從一個很小的部分開始開發,然後逐漸開發其它部分等等。

螺旋式開發方法論的反面這是瀑布式方法論。瀑布方法論源自於結構化的分析和設計,需要在下一步動作開始前,必須完成之前所有的設計工作。瀑布方法論對於開發業務系統而言確實是很好的方法。

5.      the role of metadata is very important

後設資料的角色非常重要。

後設資料是資料倉儲環境中的一個非常重要的組成部分。後設資料能夠告訴使用者資料來源自哪裡存放在哪裡。後設資料在資料倉儲環境中扮演著一個卡片目錄或者路標的角色。

6.      the transformation process will consume huge amounts of resources

轉換處理會消耗大量資源

在資料倉儲開發處理過程中,整合和轉換消耗了60%80%的開發資源。實際上最初大多數設計人員和開發人員並未意識到所需要的巨大資源。

資源所需的原因在於大量資料需要被整合。整合行為是非常複雜的。典型的整合活動例如轉換、重新格式化、重構、再計算、定義預設值、排序、改變DBMS環境、變更作業系統等等是必須的。

7.      data marts are built with the data warehouse as the sole source

從資料倉儲中建設資料集市作為一個單獨的資料來源。

一個重要的架構考慮是從資料倉儲中構建資料集市。直接從業務系統中建設一個資料集市確實是一種誘惑,但是設計者必須自覺抵制這種誘惑。

Building data marts directly from operational applications is a very short sighted approach.

直接從業務系統中構建資料集市是一種非常短視的方法。我們建議把從資料倉儲中構建資料集市作為一種長期的方法。

8.      dormant data will creep into your warehouse and must be managed

靜態資料的蔓延和管理。

在某種程度上終端使用者必須清醒地意識到構建資料倉儲的成本是必須考慮的,在資料倉儲建設早期,費用問題不是很大的問題。但是隨著資料倉儲的增長和使用者數的增長,成本的增加要求我們必須採取不同的行動。

9.      the costs of warehousing must be post allocated back to the actual user

資料倉儲的成本要及時反饋給實際客戶。

10.  while a data model is essential to the warehouse development, the creation of the model had better not hamstring the development process

構建一個資料模型對資料倉儲來說是必須的,但是決不要破壞資料倉儲開發的進度。

一方面資料模型對於資料倉儲的開發來說是絕對必要的,另一方面為了構建一個資料模型而停止整個資料倉儲開發絕非好主意。

一個開發資料模型的可行方法是:

   - 從類似的非競爭業務中獲取一個資料模型

   - 注意相關行業聯絡

   - 尋找一個通用行業模型等等

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/6517/viewspace-246126/,如需轉載,請註明出處,否則將追究法律責任。

相關文章