資料質量管理方法

lillcol發表於2021-06-01

資料處理的過程

資料處理的過程一般如下:


資料質量管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發資料質量的問題進行識別、監控、預警等相關管理活動。

通過改善和提高組織的管理水平是的資料質量進一步提升。

資料質量管理是一個迴圈管理的過程,其最終目標是通過可靠的資料,提升資料的使用價值,最終為企業贏得經濟效益。


資料問題的影響因素

資料問題的來源可能源自上述過程的任一步驟,比如:

  • 資料產生、採集階段:資料的準確性、真實性、完整性、失效性都會影響資料質量
  • 資料儲存、技工階段:會涉及對原始資料的修改,可能導致資料質量問題

資料質量評估方法

評估的維度

對於資料質量,我們一般會從一下幾個維度進行評估

  • 完整性:度量哪些資料丟失了或者哪些資料不可用,描述資料資訊缺失的程度,視情況氛圍資料資訊記錄缺失和欄位資訊缺失
  • 一致性:用於度量那些資料的值在資訊含義上是衝突
  • 唯一性:用於度量哪些資料是重複資料或哪些資料屬性是重複的額
  • 真實性:用於度量資料是否真實、準確反應客觀的實體存在或真實業務
  • 準確性(可靠性):用於度量那些資料是不準確或無效的
  • 關聯性:用於度量哪些關聯的資料缺失或未建立索引等
  • 時效性(及時性):用於度量是否能在需要的時候獲得相關資料

資料質量管理

資料質量管理我們可以劃分為三個部分:


事前

  • 梳理指標:確定物件(多表、單表、欄位)
  • 制定規則:指定資料質量稽核規則

事中

  • 資料完整性:一般只資料條目完整性。常用方法為ODS層資料與抽取庫(業務庫)資料進行資料量對比
  • 資料唯一性:一般指對資料主鍵唯一性校驗,可通過count(1)與cunnt(distinct key)對比
  • 資料非空性:主要分為兩塊,一是確定是否由於bug導致,是的話反饋問題,不是則需要想辦法補回資料;
    二是對於欄位為空的時候,應該使用預設值填充
  • 資料有效性:校驗資料是否與資料值域一致,比如範圍、格式之類的,不一致則進行告警或處理
  • 資料準確性:一般分為兩點,一是資料指標波動稽核,設定相關閥值;
    二是確定相關的幾個表或欄位之間是否存在邏輯衝突
  • 資料及時性:對於資料生成過程進行稽核,如果超出合理時間則進行告警,檢視出問題的點

預警、告警的方法:

  1. 電話告警:一般在緊急、重要、需要及時處理的情況下采用
  2. 郵件告警:不需要及時處理的情況
  3. 簡訊告警:同郵件告警,不需要及時處理的情況

事後

  • 資料質量報告: 報表的形式展示資料質量模型明細資料
  • 告警以及整改:對於異常任務通知相關責任人,並要求整改
  • 訂閱:訂閱關係資料主題,相關人員進行檢視
  • 反推:如果稽核發現問題不在資料開發,而在業務方,則要求相關業務負責人進行整改

參考資料:老徐資料質量管理分享內容

相關文章