DW中的資料校驗

bidwhome發表於2008-05-15
DW中的資料校驗[@more@]資料,資料,資料!
資料很重要,離開了資料就什麼都玩不轉,這就是BI!
中國有一個現象就是居住證或者暫住證的制度,去了別的城市,有了時候你有戶口還是非法的。
資料就是你,系統就是城市。DW,ODS,ERP,MIS等等都是城市,所以你原來資料ERP的,現在到了DW,你就要去公安局或者其他的部門登記,驗
證身份,(戶口,住址,身高體重,工作單位,有無不良記錄),然後才合法。(上海就是這樣的,所以上海的治安,相對來說比較好)。所以登記和驗證的工作
是必不可少的,DW的流程中,資料校驗(data validation)就顯得很重要了!
資料校驗需要規則,校驗的規則就有很多種,就像身份驗證中的不同的工序一下。主要有元規則和業務規則。
元規則:就是資料本身的問題,比如資料型別,格式,是否為空,是否和主鍵衝突。這些是很簡單的一些規則。
業務規則:就是資料的外觀和價值了。比如身高,如果別人都是177,178,當然是cm,如果,你是3,300,400,1,8,9等等這些數字,那就
令人費解了,別人很難知道了,再比如性別:F&M,如果你是別的字母,那就不太好說了。
當然現在很多哦資料探勘的觀點就是保持資料的原貌,原來是多少就是多少,不改變,性別就是的,F,M,U,O,這裡就是男女,U就是unknow,O就
是其他的字元,但是很多資料是可以避免的,我們還是需要校驗的。比如我們有很多工序都是又先後的,比如有銷售訂單就一點有產品型別,但是如果只是有銷售
訂單,沒有對應的產品型別,我們就應該對這條記錄進行處理,要麼表上標籤,讓資料先存進去,要麼拒絕,要麼先放到別的表中等待人員進行人工校驗。

再談談我們如何在設計中去設計吧
以前我在satyam遇到一個專案,個人覺得還是很有用的:
資料校驗有一個引擎,對不同表的資料都設定一些規則,然後寫一個儲存過程作為引擎,不同的資料經過,引擎就用不同的規則去校驗,遇到不合法的,生成一條
帶有主鍵的記錄,存到一種表中。然後把這些記錄反映到前臺的UI上,由使用者看到了UI,就對資料進行人工的修改或者檢查。有的需要改,有的不需要,有的
需要刪除等等。這樣就可以保留很多的有用資料,也使資料的校驗工作比較靈活,也可以增加校驗規則。

這些其實說起來還是很簡單的,但是在物理實現上還是需要考慮一下校驗規則如何判斷校驗條件等等。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-1004097/,如需轉載,請註明出處,否則將追究法律責任。

相關文章