資料質量的四大特性

bidwhome發表於2009-10-29
--[@more@]關於資料質量的問題我最近也研究了幾個月,我來談談我自己的體會吧 首先出現報表資料在不同版本出現較大的問題這是很多原因,不管誰先誰後我們假設有兩張報表,A和B,A和B報表上出現的總銷售額不一樣,由一下幾種情況 1: 銷售額的統計範圍不一,如時間,區域或者產品 2: 定義不一致,比如是否扣稅,匯率,結算方式(如應付款和收貨款),或者財務的款項統計,常見的有自然年月日的統計和財務計算年月的統計 3:資料的維度統計不一致,如訂單的狀態,是否有取消的,是否計算衝賬的 4:資料來源不一致,如從市場部門獲得的資料來源和交易系統獲得的資料來源。 5:各地區對於統計資料本身的定義就不明確,比如銷售額的銷售調整部分,是否也應計入銷售額,或者將此類劃入日常開銷成本中。 以上我要說的就是

資料的業務定義是資料質量評估的第一步

關於資料的質量部分,不同的標準,評估的結果也不一樣,資料有四大特性,準確性,一致性,完整性和及時性 至於很多朋友說還有可靠性,有效性,等等,我想都可以算作是準確性的一部分 準確性表現為能正確的反應事實 不言而喻,四大特性的優先順序是準確性,一致性,完整性以及及時性 準確性首先需要標準,就想法律和打官司一樣,標準的界定是一個主要的環節,我們可以用When,Where,Who,which來清楚的界定,這樣我們統計的時候就有依據,如果都安裝這樣的範圍來統計,就是做100張報表,對於總數的統計也不會有問題 一致性的表現其實就是對資料在不同階段,不同時間,不同部門和區域的定義是否一致,舉一個簡單的例子,對於客戶的性別,有的用男&女,有的用1&0,又有的F&M,但是突然出現空,2,D,P等等,這能說資料不準確嗎,這隻能算作是資料不夠一致,我們整合起來也不是太複雜,對映清楚就可以了,而沒有約束,出現額外值的情況,能改我們就改,不能改的,我們可以講資料的意外值分為意外值和空值兩種,意外值表示填錯了,空值表示沒有填 完整性是對企業資料實體的完整說明,比如客戶的附帶屬性是性別,姓名,年齡,地址,規模,平均年消費次數等等等,這同樣可以用資料統計的方法說明資料是否完整。 及時性及不言而喻了 對此我的意思是做資料評估,如果資料的準確性不能i達到要求,資料質量就直接不合格,資料的準確性的判斷和修正時最不需要技術含量的,相對而言。 對於完整性和一致性,可以講實體的不同附屬資訊設定為不同的指標,並且按照應用頻率設定權重 最常用和權威的方式可以使用6Sigma的方法做評估 Regards Solo Zhu Blog:http://bidwhome.itpub.net

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-1028271/,如需轉載,請註明出處,否則將追究法律責任。

相關文章