一、資料質量概述
什麼是資料質量
資料質量差的危害
資料質量維度(資料六大評價標準)
什麼是資料質量測量
資料質量測量必須要有目的
資料質量測量必須可重複
資料質量測量必須可解釋
什麼是資料質量管理
二、資料問題根因分析
什麼是根因分析
為什麼要進行根因分析
產生資料問題的階段
規劃設計階段
資料建立階段
資料使用階段
資料老化階段
資料消亡階段
產生問題的原因
業務原因
技術原因
管理原因
根因分析的方法
根因分析的工具
魚骨圖
5WHY圖
故障樹圖
帕累託圖
三、資料質量管理策略
四、資料質量管理工具
資料質量指標
資料質量維度
資料質量指標
權重和期望值
資料質量測量
資料質量剖析
資料質量問題分析與改進
一、資料質量概述
什麼是資料質量
資料質量表示資料是否能滿足業務需求或達到某種標準,能夠滿足需求的資料就是高質量資料,不能滿足需求的資料就是低質量資料。
資料質量直接影響結果:
資料質量差的危害
資料質量差的危害很多,會導致資料統計不準確,進而導致決策不正確,損失金錢。還會增加各種各樣的成本,溝通成本,資料處理成本等;客戶看到資料變動較大或與實際出入過大會導致信譽度降低等一系列問題產生。
經濟損失
成本增加
名譽受損
運營風險
資料質量維度(資料六大評價標準)
資料質量維度包含如下內容:準確性、一致性、有效性、及時性、完整性、唯一性;簡稱六性,他們各自的含義如下:
準確性:準確性是指資料記錄的資訊是否存在異常或錯誤。和一致性不一樣,存在準確性問題的資料不僅僅只是規則上的不一致。更為常見的資料準確性錯誤就如亂碼。其次,異常的大或者小的資料也是不符合條件的資料。
一致性:一致性是指資料是否遵循了統一的規範,資料集合是否保持了統一的格式;
**有效性:**對資料的值、格式要求符合資料定義或業務定義的要求,如電話、郵箱的格式
**及時性:**及時性是指資料從產生到可以檢視的時間間隔,也叫資料的延時時長。及時性對於資料分析本身要求並不高,但如果資料分析週期加上資料建立的時間過長就可能導致分析得出的結論失去了借鑑的意義。
完整性:完整性是指資料資訊是否存在缺失的狀況,資料缺失的情況可能是整個資料記錄確實,也可能是資料中某個欄位資訊的記錄缺失,不完整的資料所能借鑑的價值就會大大降低,也是資料質量更為基礎的一項評估工作。
**唯一性:**針對某個資料項或某組資料,沒有重複的資料值,值必須是唯一的,如:ID類資料。
除了以上六性之外,有些資料還會有其他的性質,比如合理性、關聯性等。
什麼是資料質量測量
資料質量測量是指為了達到某種預期,按照一定的標準從資料質量維度進行衡量,以確定資料達到預期的程度。
資料質量測量必須要有目的
我們為什麼要對資料進行質量測量,必須是有目的的,否則測量結果將毫無意義。
資料質量測量必須可重複
資料質量測量的結果必須是可以重複測量的,這代表著我們測量結果的準確性以及真實性。
資料質量測量必須可解釋
我們透過資料質量測量的到的結果必須是可以解釋通的,比如某個指標和實際差異過大,就要透過業務層次去解釋為什麼會差異過大。
什麼是資料質量管理
資料質量管理就是我們對資料整個的生命週期都要對資料的質量進行管控,對資料從計劃、 獲取、儲存、 共享、 維護、 應用到消亡生命週期的每個階段可能引發的資料質量問題, 進行識別、 測量、 監控、 預警等一系列管理活動, 並透過改善和提高組織的管理水平使資料質量獲得進一步提高。 資料質量管理的終極目標是透過可靠的資料提升資料在使用中的價值, 並最終為企業贏得經濟效益。
二、資料問題根因分析
什麼是根因分析
根因分析就是對可能導致某種問題的根本原因進行分析,要考慮多個層面的因素,比如導致資料質量差的原因可能有如下:人為因素、系統行為、流程因素、環境條件等。
找到導致問題的根本原因再找出適當的解決方案並制定預防措施。
問題:發生了哪些資料質量差的問題?
原因:為什麼發生這些問題,導致這些問題的因素都有哪些?
措施:採取什麼樣的方法能夠防止問題再次發生?
為什麼要進行根因分析
“撥開迷霧見明月“分析任何問題都應該找到問題的本質。 進行資料質量問題的根因分析, 不僅在於解決業務部門和技術部門的矛盾, 更重要的是能夠幫助企業利益干係人發現資料質量問題的癥結所在, 從而找到適當的解決方案。
產生資料問題的階段
資料是具有生命週期的,資料的“一生”要經歷規劃設計(定義) 、 資料建立、 資料使用、 資料老化、 資料消亡五個階段, 每個階段都有可能發生資料質量問題。
規劃設計階段
在資料設計階段,資料的定義或設計不當會產生資料質量問題。
比如:資料欄位存在二義性、手機號碼長度限制等。
資料建立階段
將不準確的資料錄入到系統。
比如:資料拼寫錯誤,資料錄入錯誤,丟失資料記錄,列表選擇了不爭取的選項。
資料使用階段
在資料使用階段, 要關注是否正確使用和解釋了資料。
比如:“客戶”資料在多個系統中共存,多個系統中重複錄入,結構不一致。系統遷移過程中資料值的丟失、錯位、不完整等。
資料老化階段
資料不是靜止的,是可能隨著時間發生變化的。
比如:手機號的更換、客戶聯絡人的變更。
資料消亡階段
資料消亡階段, 對使用完的資料進行歸檔及銷燬操作。
產生問題的原因
業務原因
資料需求模糊、對資料的定義、業務規則描述不清、頻繁的需求變更。
資料錄入不規範,大小寫、全半形、特殊字元。
技術原因
資料表設計過程中約束條件、校驗規則不合理等。
資料遷移過程中資料的採集、清洗、轉換不合理等。
管理原因
缺乏資料管理策略,建設初期沒有對資料質量進行管控、資料變更流程不完善。
缺乏統一的資料標準,對於同一資料理解不一致, 業務之間的協作和溝通就如同“雞同鴨講”
根因分析的方法
如下圖:
根因分析的工具
魚骨圖
魚骨圖是由日本管理大師石川馨先生提出的一種把握結果和原因的方便而有效的方法, 故名“石川圖”。 它是一種透過現象看本質的分析方法, 非常適用於資料質量問題的根因分析。魚骨圖是因果分析中常用的工具。
首先, 需要從多個維度對引發問題的直接原因進行歸集;
其次, 依次列出直接原因所導致的問題“事實”;
然後, 分析每一個“事實”發生的原因;
最後, 找到導致問題發生的根本原因。 魚骨圖有助於探索阻礙結果的因素, 適用於資料質量問題的分析。
5WHY圖
5Why分析法的精髓就是多問幾個為什麼, 鼓勵解決問題的人努力避開主觀假設和邏輯陷阱, 從結果著手, 沿著因果關係鏈條順藤摸瓜, 穿越不同的抽象層面, 直至找出原有問題的根本原因。
故障樹圖
故障樹圖是一種邏輯因果關係圖, 是一種圖形演繹法, 是故障事件在一定條件下的邏輯推理方法, 可針對某一故障事件進行層層追蹤分析。 故障樹圖的特點是直觀明瞭, 思路清晰, 邏輯性強, 既可以進行定性分析, 也可以進行定量分析。 它體現了以系統工程方法研究安全問題的系統性、準確性和預測性。
帕累託圖
帕累託圖是條形圖和折線圖的組合, 條形圖的長度代表問題的頻率, 折線表示累積頻率, 橫座標表示影響質量的各項因素, 按影響程度的大小(出現頻數) 從左到右排列 。 透過對排列圖的觀察分析可以抓住影響質量的主要因素, 進而確定問題的優先順序。
帕累託圖是基於80/20法則的分析, 即認為發生的全部問題中有80%是由20%的問題原因引起的。 這意味著, 如果有針對主要問題的解決方案, 則可以解決大部分的資料質量問題。
三、資料質量管理策略
資料質量管理應秉持預防為主的理念, 堅持將“以預控為核心, 以滿足業務需求為目標”作為工作的根本出發點和落腳點, 加強資料質量管理的事前預防、 事中控制、 事後補救的各種措施, 以實現企業資料質量的持續提升。
事前預防策略:
加強培訓
制定資料標準
制定規範
制定資料管理流程
事中控制策略:
維護好資料字典
自動化資料錄入
自動化資料校驗
人工干預稽核
使用預警機制
資料質量報告
使用先進的技術
事後補救策略:
定期質量監控
清理重複資料
清理派生資料
缺失值處理
異常值處理
持續改進最佳化
四、資料質量管理工具
資料質量管理工具用於為企業特定的資料集定義資料質量規則, 進行資料質量評估, 開展資料質量稽核, 並促進企業資料質量及相關業務流程的最佳化和改進。
資料質量管理是用於識別、 理解和糾正資料缺陷的過程, 透過資料缺陷的發現和糾正提升企業資料質量, 以支援企業的業務協同和決策支援。 在實踐中, 資料質量管理工具具有一系列關鍵功能, 如資料質量分析、 資料解析、 資料標準化、 資料清洗、 資料匹配、 資料整合和資料質量監控等。
資料解析和標準化工具: 將資料進行分解和剖析, 並將其統一化、 標準化。
資料清理工具: 刪除不正確或重複的資料條目, 修正資料項的值域, 以滿足某些業務規則或標準。
資料分析工具: 收集有關資料質量的統計資訊, 然後將其用於資料質量測量和評估。
資料質量監控工具: 對資料質量狀態進行監控, 及時發現資料質量問題。
資料整合工具: 引入外部資料並將其整合到現有資料中。
資料質量指標
定義資料質量指標是資料質量測量和管理的第一步, 主要涉及資料質量維度、 資料質量指標、 權重和期望值等。 資料質量指標是由業務人員根據各測量類別對不同業務實體提出的資料質量衡量標準, 它是各資料質量測量類別在不同業務實體上的具體體現。
資料質量維度
企業的資料質量維度一般包括資料唯一性、 一致性、 準確性、 關聯性、 完整性、 及時性等。 資料質量維度反映了資料質量不同的規格標準, 也體現了高層次的指標度量的特點。
資料質量指標
針對不同的資料質量檢核物件, 依據資料質量維度, 定義資料質量指標。每個資料質量指標都是從業務實體的角度對質量問題進行簡單描述, 都包含一個或多個資訊項, 這些資訊項就是每一個業務實體具體要檢核的物件。 我們可以在每一個資料質量指標的基礎上根據不同的資訊項確定具體的檢核方法。
權重和期望值
依據實際業務所需為資料質量指標定義度量的標準, 一個資料質量指標可以設定多個度量標準, 為每個度量指標設定可接受的閾值、 權重等。 例如:對“有效客戶”的度量, 就需要設定多個維度的度量指標, 如最後一次登入時間、 訪問頻次、 有效交易次數、 最後一次交易時間等。 度量指標得分低於可接受水平的資料不符合業務使用者的期望, 必須加以改進以避免對業務和分析產生負面影響。
資料質量測量
資料質量測量是資料質量管理平臺的核心功能, 支援基於給定資料質量維度、 資料質量規則和指標對目標資料集實施定期或持續的測量。
測量方法
任務排程
持續測量
定期測量
資料質量剖析
用各種統計和分析演算法以及業務規則來探究資料集的內容及其資料元素的特徵。 資料質量管理工具支援以下三種資料質量剖析型別。
資料結構解析: 用於瞭解資料是否一致, 格式化描述是否正確。 透過檢查資料中的統計資訊, 例如最小值和最大值、 中位數、 均值或標準差, 瞭解資料的有效性。
資料內容解析: 透過檢查資料庫中的單個資料記錄, 發現空值或錯誤值,包括格式錯誤。
資料關係發現: 用於分析和理解資料集、 資料記錄、 資料庫欄位或資料實體之間的關聯關係。 透過此分析, 可以發現並消除資料集中可能出現的資料重複、 資料參照不完整等問題
資料質量問題分析與改進
透過對不同業務需求和資料質量問題的收集、 分類、 抽象和概括, 採用定量和定性的資料質量分析方法, 對資料質量問題進行評估, 確定哪些資料缺陷對業務流程有重大影響, 為下一步制定資料問題的解決方案奠定基礎。
資料質量分析報告: 資料質量管理工具提供了一個集中展示資料質量狀況的視窗, 相關人員可以對資料質量問題進行查詢、 統計、 分析, 找到引起資料質量問題的根因並付諸行動, 從源頭上解決資料質量問題, 實現資料質量管理的閉環。
資料質量問題分析: 資料質量管理工具提供對問題資料記錄的檢索和查詢功能, 重點關注對問題資料記錄的監控、 對問題資料數量變化的趨勢分析、 對不同測量類別的資料分佈的分析等。
資料質量儀表板: 以儀表板的形式展示對資料質量問題的統計分析, 展示各評估維度的問題資料的資料量及變化趨勢, 以更直觀的方式檢視資料質量問題的變化以及對質量問題的治理結果。