【原】影響資料倉儲成功的十個關鍵因素(翻譯)
1. build the data warehouse iteratively, not in a "big bang" approach
迭代構建資料倉儲,而不是採用“大棒”方法
資料倉儲實施過程中最簡單最重要的方法就是迭代構建一個資料倉儲。而不是採用“大棒”方法構建資料倉儲。快速建立資料倉儲的一個迭代,然後不斷調整,並快速進入下一個迭代,以此類推。不要一下子收集所有需求,也不要採用瀑布開發生命週期的方式開發資料倉儲。
2. be prepared for massive volumes of data
做好大資料量的準備
開始啟動資料倉儲專案時,一定要清醒地認識到你正在處理你以前從未看到過的大量資料。資料倉儲以TB甚至PB來度量資料量。而舊有的業務系統則以MB或者GB來度量。資料量的增加將代表很多含義——比如採用什麼樣的硬體,效能如何,多少使用者數,查詢規模等等。不要想當然的認為之前的設計和管理技術經驗也能適用於資料倉儲環境。
3. make sure the end user is involved up front
確保終端使用者的介入
要確保終端使用者在資料倉儲初期的設計和開發階段就介入進來。如果你不能夠保證終端使用者的介入,這將會導致一場災難——很可能資料倉儲從技術上是成功的,但是卻是組織上的夢魘,因為沒有人會使用這個資料倉儲。
4. be alert to the fact that the data warehouse is built under a very non classical development approach
需要提防的事實:資料倉儲是基於非傳統的開發方式的
一個建議是:資料倉儲開發環境與早期的開發環境是非常不同的。資料倉儲的開發是基於螺旋形的開發方法理論。螺旋形開發理論也可以成為啟發式的迭代的開發方法學,即首先從一個很小的部分開始開發,然後逐漸開發其它部分等等。
螺旋式開發方法論的反面這是瀑布式方法論。瀑布方法論源自於結構化的分析和設計,需要在下一步動作開始前,必須完成之前所有的設計工作。瀑布方法論對於開發業務系統而言確實是很好的方法。
5. the role of metadata is very important
後設資料的角色非常重要。
後設資料是資料倉儲環境中的一個非常重要的組成部分。後設資料能夠告訴使用者資料來源自哪裡存放在哪裡。後設資料在資料倉儲環境中扮演著一個卡片目錄或者路標的角色。
6. the transformation process will consume huge amounts of resources
轉換處理會消耗大量資源
在資料倉儲開發處理過程中,整合和轉換消耗了60%到80%的開發資源。實際上最初大多數設計人員和開發人員並未意識到所需要的巨大資源。
資源所需的原因在於大量資料需要被整合。整合行為是非常複雜的。典型的整合活動例如轉換、重新格式化、重構、再計算、定義預設值、排序、改變DBMS環境、變更作業系統等等是必須的。
7. data marts are built with the data warehouse as the sole source
從資料倉儲中建設資料集市作為一個單獨的資料來源。
一個重要的架構考慮是從資料倉儲中構建資料集市。直接從業務系統中建設一個資料集市確實是一種誘惑,但是設計者必須自覺抵制這種誘惑。
Building data marts directly from operational applications is a very short sighted approach.
直接從業務系統中構建資料集市是一種非常短視的方法。我們建議把從資料倉儲中構建資料集市作為一種長期的方法。
8. dormant data will creep into your warehouse and must be managed
靜態資料的蔓延和管理。
在某種程度上終端使用者必須清醒地意識到構建資料倉儲的成本是必須考慮的,在資料倉儲建設早期,費用問題不是很大的問題。但是隨著資料倉儲的增長和使用者數的增長,成本的增加要求我們必須採取不同的行動。
9. the costs of warehousing must be post allocated back to the actual user
資料倉儲的成本要及時反饋給實際客戶。
10. while a data model is essential to the warehouse development, the creation of the model had better not hamstring the development process
構建一個資料模型對資料倉儲來說是必須的,但是決不要破壞資料倉儲開發的進度。
一方面資料模型對於資料倉儲的開發來說是絕對必要的,另一方面為了構建一個資料模型而停止整個資料倉儲開發絕非好主意。
一個開發資料模型的可行方法是:
- 從類似的非競爭業務中獲取一個資料模型
- 注意相關行業聯絡
- 尋找一個通用行業模型等等
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/6517/viewspace-246126/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 影響資料檢索效率的幾個因素
- 專案成功的關鍵因素(轉)
- 關於資料倉儲成功的評價標準
- 敏捷測試關鍵成功因素敏捷測試
- 關鍵成功因素CSF與KPIKPI
- 影響MongoDB資料庫效能的幾個重要因素MongoDB資料庫
- 關於資料倉儲的十個最長問的問題 (轉)
- 提高軟體開發專案成功率的十大影響因素(轉)
- 影響儲存網路效能的因素有哪些?
- 影響OLTP 系統效能的儲存因素解析
- 淺談影響ERP實施成功的因素(轉載)
- 資料倉儲商業智慧的關鍵--資料質量管理
- 影響ORACLE優化器的相關因素Oracle優化
- 從桌游到網遊,淺談影響卡牌遊戲趣味的關鍵因素遊戲
- 專案團隊成功的關鍵因素(轉)
- 大資料影響廣告營銷的技術因素大資料
- 資料倉儲成功的評價標準
- 影響資料分析師薪資水平的因素有哪些?
- 影響轉化率的真正因素–資料資訊圖
- BOT專案成功運作的關鍵因素(轉)
- 專案成功的12個關鍵原則 (轉)
- 專案成功的12個關鍵原則(轉)
- 大資料環境下精益六西格瑪實施的關鍵成功因素大資料
- 三個影響SQL Server效能關鍵點SQLServer
- eMarketer:影響品牌營銷網路化成功的重要因素
- 影響代理IP訪問速度的兩個關鍵
- 影響網頁渲染的關鍵!網頁
- 軟體專案項管理成功的關鍵因素
- 【轉載】把握資料倉儲中的"鍵"
- 關於資料湖、資料倉儲的想法
- 專案管理成功的12個關鍵原則專案管理
- 表資料的儲存對索引的影響索引
- 影響Oracle標量子查詢效能的三個因素Oracle
- 關於資料倉儲的書籍
- 關於資料倉儲的設計!
- 影響mysql效能的因素都有哪些MySql
- 影響HTTP效能的常見因素HTTP
- 影響MySQL效能的硬體因素MySql