構建資料倉儲

junnyblog發表於2009-10-08

總結:個人資料倉儲建設經驗 2009-10-12 至2009-10-28 整理中....

以資料質量為保證,後設資料為導向,資料建模為基礎講訴資料倉儲的構建....

[@more@]

1、資料質量。資料分析與預測的前提是較高的資料質量。此專案也得到較多建設資料倉儲人士的認可與重視。但是一般專案都沒有做好此內容。個人認為還沒有建立完善的資料質量模型上面。下面會針對後設資料,資料建模一起講訴如何來構建完善資料質量系統。

2、後設資料。後設資料是體現資料倉儲資料的資料。後設資料管理系統是管理資料倉儲資料的系統。包括資料倉儲資料演算法,資料邏輯等,同時後設資料系統也為資料質量提供很好資料基礎。

3、資料建模。所以應用都是在資料模型的基礎上。一個模型的好壞,不僅對應用起很大影響作用,同時對資料質量構建也起很大的作用。

如何構建快捷,高效的資料質量系統。

a)統一業務應用。資料建模主要體現在:同一應用,在模型上一致。如:指標A1,物理模型為CA1,那麼只要與指標A1相關的指標都包含A1資訊,如:最大的指標A1,物理模型設定為:MAX_CA1;指標A1平均,物理模型設定為:AVG_CA1。而不同的粒度,出現相同的A1,都統一定義為CA1。只統一定義之後,我們才能迅速地地位指標內容,從而提高資料質量。如:資料一致校驗。i)快速檢查出與CA1相關的模型。SELECT TABLE_NAME FROM ALL_TAB_COLUMNS WHERE COLUMN_NAME LIKE '%CA1%';ii)快速地完成各個模型之間資料對比,從而較快地提高資料質量。這一項,對資料質量十分有用。同時對後設資料的管理,也起很大作用,即業務一致與模型的一致性。

b)資料質量優於業務應用。很多資料倉儲的應用都是先完成業務應用開發,再進行資料質量建設。這有點本末倒置。就象先有開發後有測試的模式。本人建議,採用資料質量驅動業務應用開發的模式,即現在所謂的測試驅動開發的模式。現在資料倉儲系統都建立在運營系統之上。有運營系統一定就會業務統計資料,資料質量模型可以依賴於這些原先業務統計資料,建立資料質量測試模型。資料倉儲資料質量要以透過此測試模型為前提。但是很多資料倉儲都沒有建立這樣資料質量測試模型。以至浪費很多時間,發現極差的資料質量,最後還得都進行資料質量建設。說到底,資料質量測試模型的建議是不可避免的。只是我把向前建設。但是這一向前建設,對提高資料質量,專案進度開發是起了很大的作用。不可小看它的作用。

。。。。。。。。。。。。。待續

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/22630256/viewspace-1027635/,如需轉載,請註明出處,否則將追究法律責任。

相關文章