資料質量的四大特性
--[@more@]關於資料質量的問題我最近也研究了幾個月,我來談談我自己的體會吧
首先出現報表資料在不同版本出現較大的問題這是很多原因,不管誰先誰後我們假設有兩張報表,A和B,A和B報表上出現的總銷售額不一樣,由一下幾種情況
1: 銷售額的統計範圍不一,如時間,區域或者產品
2: 定義不一致,比如是否扣稅,匯率,結算方式(如應付款和收貨款),或者財務的款項統計,常見的有自然年月日的統計和財務計算年月的統計
3:資料的維度統計不一致,如訂單的狀態,是否有取消的,是否計算衝賬的
4:資料來源不一致,如從市場部門獲得的資料來源和交易系統獲得的資料來源。
5:各地區對於統計資料本身的定義就不明確,比如銷售額的銷售調整部分,是否也應計入銷售額,或者將此類劃入日常開銷成本中。
以上我要說的就是
資料的業務定義是資料質量評估的第一步
關於資料的質量部分,不同的標準,評估的結果也不一樣,資料有四大特性,準確性,一致性,完整性和及時性 至於很多朋友說還有可靠性,有效性,等等,我想都可以算作是準確性的一部分 準確性表現為能正確的反應事實 不言而喻,四大特性的優先順序是準確性,一致性,完整性以及及時性 準確性首先需要標準,就想法律和打官司一樣,標準的界定是一個主要的環節,我們可以用When,Where,Who,which來清楚的界定,這樣我們統計的時候就有依據,如果都安裝這樣的範圍來統計,就是做100張報表,對於總數的統計也不會有問題 一致性的表現其實就是對資料在不同階段,不同時間,不同部門和區域的定義是否一致,舉一個簡單的例子,對於客戶的性別,有的用男&女,有的用1&0,又有的F&M,但是突然出現空,2,D,P等等,這能說資料不準確嗎,這隻能算作是資料不夠一致,我們整合起來也不是太複雜,對映清楚就可以了,而沒有約束,出現額外值的情況,能改我們就改,不能改的,我們可以講資料的意外值分為意外值和空值兩種,意外值表示填錯了,空值表示沒有填 完整性是對企業資料實體的完整說明,比如客戶的附帶屬性是性別,姓名,年齡,地址,規模,平均年消費次數等等等,這同樣可以用資料統計的方法說明資料是否完整。 及時性及不言而喻了 對此我的意思是做資料評估,如果資料的準確性不能i達到要求,資料質量就直接不合格,資料的準確性的判斷和修正時最不需要技術含量的,相對而言。 對於完整性和一致性,可以講實體的不同附屬資訊設定為不同的指標,並且按照應用頻率設定權重 最常用和權威的方式可以使用6Sigma的方法做評估 Regards Solo Zhu Blog:http://bidwhome.itpub.net來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-1028271/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料庫ACDI四大特性資料庫
- 資料庫事務的四大特性資料庫
- oracle資料庫事物四大特性Oracle資料庫
- 資料治理--資料質量
- 讀資料質量管理:資料可靠性與資料質量問題解決之道01資料質量
- 資料治理的資料質量知多少
- 資料質量管理模型模型
- 資料治理:資料質量管理策略!
- 資料治理之資料質量管理
- 資料質量管理方法
- 什麼是資料質量?
- 談談資料質量管理
- 資料質量管理--資料抽取和清洗
- 資料庫事務四大特性是什麼?資料庫
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 讀資料質量管理:資料可靠性與資料質量問題解決之道03資料目錄
- 讀資料質量管理:資料可靠性與資料質量問題解決之道06資料測試
- 讀資料質量管理:資料可靠性與資料質量問題解決之道10資料平臺
- 如何打造高質量的NLP資料集
- 反映資料質量的八個指標指標
- 資料庫事務的隔離級別及四大特性資料庫
- 資料庫事務的四大特性和隔離級別資料庫
- 如何保障數倉資料質量?
- 如何提高企業資料質量
- 如何做好資料質量管理
- 資料質量之矯正引擎
- 讀資料質量管理:資料可靠性與資料質量問題解決之道05資料標準化
- 讀資料質量管理:資料可靠性與資料質量問題解決之道09資料可靠性
- 用好工業大資料的基礎是資料質量大資料
- 資料倉儲資料質量的問題探討(轉)
- 讀資料質量管理:資料可靠性與資料質量問題解決之道04收集與清洗
- 如何通過資料管理影響資料質量
- 大資料下的質量體系建設大資料
- 對待資料質量的28個原則
- 資料質量:BI整合策略的“攔路虎”
- 億信華辰:怎樣去斷定一份資料的質量高低?資料質量如何評估?
- 讀資料質量管理:資料可靠性與資料質量問題解決之道07異常檢測
- 軟體測試質量的六大特性和27個子特性