資料處理的過程
資料處理的過程一般如下:
資料質量管理(DATA Quality Managenment)是指對上述過程中每個階段可能出現引發資料質量的問題進行識別、監控、預警等相關管理活動。
通過改善和提高組織的管理水平是的資料質量進一步提升。
資料質量管理是一個迴圈管理的過程,其最終目標是通過可靠的資料,提升資料的使用價值,最終為企業贏得經濟效益。
資料問題的影響因素
資料問題的來源可能源自上述過程的任一步驟,比如:
- 資料產生、採集階段:資料的準確性、真實性、完整性、失效性都會影響資料質量
- 資料儲存、技工階段:會涉及對原始資料的修改,可能導致資料質量問題
資料質量評估方法
評估的維度
對於資料質量,我們一般會從一下幾個維度進行評估
- 完整性:度量哪些資料丟失了或者哪些資料不可用,描述資料資訊缺失的程度,視情況氛圍資料資訊記錄缺失和欄位資訊缺失
- 一致性:用於度量那些資料的值在資訊含義上是衝突
- 唯一性:用於度量哪些資料是重複資料或哪些資料屬性是重複的額
- 真實性:用於度量資料是否真實、準確反應客觀的實體存在或真實業務
- 準確性(可靠性):用於度量那些資料是不準確或無效的
- 關聯性:用於度量哪些關聯的資料缺失或未建立索引等
- 時效性(及時性):用於度量是否能在需要的時候獲得相關資料
資料質量管理
資料質量管理我們可以劃分為三個部分:
事前
- 梳理指標:確定物件(多表、單表、欄位)
- 制定規則:指定資料質量稽核規則
事中
- 資料完整性:一般只資料條目完整性。常用方法為ODS層資料與抽取庫(業務庫)資料進行資料量對比
- 資料唯一性:一般指對資料主鍵唯一性校驗,可通過count(1)與cunnt(distinct key)對比
- 資料非空性:主要分為兩塊,一是確定是否由於bug導致,是的話反饋問題,不是則需要想辦法補回資料;
二是對於欄位為空的時候,應該使用預設值填充 - 資料有效性:校驗資料是否與資料值域一致,比如範圍、格式之類的,不一致則進行告警或處理
- 資料準確性:一般分為兩點,一是資料指標波動稽核,設定相關閥值;
二是確定相關的幾個表或欄位之間是否存在邏輯衝突 - 資料及時性:對於資料生成過程進行稽核,如果超出合理時間則進行告警,檢視出問題的點
預警、告警的方法:
- 電話告警:一般在緊急、重要、需要及時處理的情況下采用
- 郵件告警:不需要及時處理的情況
- 簡訊告警:同郵件告警,不需要及時處理的情況
事後
- 資料質量報告: 報表的形式展示資料質量模型明細資料
- 告警以及整改:對於異常任務通知相關責任人,並要求整改
- 訂閱:訂閱關係資料主題,相關人員進行檢視
- 反推:如果稽核發現問題不在資料開發,而在業務方,則要求相關業務負責人進行整改
參考資料:老徐資料質量管理分享內容