談談資料質量管理中的5個關鍵要素

qing_yun發表於2023-02-09

資料質量管理被定義為:實施一個系統的框架,持續描述資料來源,驗證資料質量,並執行一系列過程來消除資料質量問題,努力使資料更準確、正確、有效、完整、可靠。由於每個組織對資料質量的要求和特點不同,因此企業之間的資料質量管理也不同。管理資料質量所需的人員型別、衡量資料質量所需的指標、需要實施的資料質量流程——一切都取決於多種因素,例如公司規模、資料集大小、涉及的來源等。下面就談談資料質量管理的五大要素:人員、度量、流程、框架和技術。

01.人員:誰參與資料質量管理

人們普遍認為,在管理整個組織的資料質量時,必須獲得決策者的批准和支援。但事實是,需要任命不同資歷級別的資料專業人員,以確保對資料質量計劃的投資得到回報。

以下是一些負責、批准、諮詢或瞭解組織中資料質量控制的角色:

a)首席資料官(CDO):首席資料官是一個行政級別的職位,全權負責設計戰略,以實現整個企業的資料利用、資料質量監控和資料治理。

b)資料管理員:資料管理員是公司處理與資料相關的所有事務的首選人員。他們全身心體驗組織如何捕獲資料、將資料儲存在何處、資料對不同部門意味著什麼,以及如何在整個生命週期內保持資料質量。

c)資料保管人:資料保管人負責資料欄位的結構——包括資料庫結構和模型。

d)資料分析師:資料分析師是能夠獲取原始資料並將其轉化為有意義的見解的人,尤其是在特定領域。資料分析師的主要工作之一是準備、清理和過濾所需的資料。

e)其他團隊:這些角色被認為是資料消費者,這意味著他們使用資料,無論是原始形式還是轉化為可操作的見解時,例如銷售團隊、產品團隊、業務團隊、管理團隊等。

02.度量:資料質量如何衡量

資料質量管理的第二個最重要的方面是它的測量。這些是資料特徵和關鍵績效指標,用於驗證組織資料集中資料質量的存在。根據不同公司使用資料的方式,這些KPI可能會有所不同。我列出了最重要的資料質量維度及其代表的質量指標:

  • 準確性:資料值描述現實或正確性的程度如何

  • 沿襲:資料值的原始來源有多可信

  • 語義:資料值是否符合其含義

  • 結構:資料值是否以正確的模式和/或格式存在

  • 完整性:的資料是否如所需要的那樣全面

  • 一致性:不同的資料儲存是否對相同的記錄具有相同的資料值

  • 可用性:資料是最新可用的嗎

  • 及時性:請求的資料多快可用

  • 合理性:資料值是否具有正確的資料型別和大小

  • 可識別性:是否每條記錄都代表一個唯一的身份並且不是重複的

03.流程:資料質量管理流程

由於資料在過去幾十年裡大量增長,它已經變得多變數並在多個維度上進行測量。要獲取、修復和改進資料質量問題,必須實施各種資料質量流程——其中每個流程都有不同的價值和目的。讓我們來看看公司用來提高資料質量的最常見的資料質量流程。

a)資料剖析

這是透過揭示有關資料結構和內容的隱藏細節來了解資料當前狀態的過程。資料分析演算法分析資料集列並計算各種維度的統計資料,例如完整性、唯一性、頻率、特徵和模式分析等。

b)資料清理和標準化

它是消除資料集中存在的不正確和無效資訊以實現跨所有資料來源的一致和可用檢視的過程。包括刪除和替換不正確的值、解析更長的列、轉換字母大小寫和模式以及合併列等。

c)資料匹配

也稱為記錄連結和實體解析,它是比較兩個或多個記錄並確定它們是否屬於同一實體的過程。它涉及對映相同的列、選擇要匹配的列、執行匹配演算法、分析匹配分數以及調整匹配演算法以獲得準確的結果。

d)重複資料刪除

這是消除屬於同一實體的多個記錄併為每個實體僅保留一個記錄的過程。這包括分析組中的重複記錄、標記重複記錄,然後將其從資料集中刪除。

e)資料合併和生存

它是透過條件選擇和覆蓋將重複記錄合併在一起的構建規則的過程。這有助於防止資料丟失並保留最多的重複資訊。它涉及為主記錄選擇和覆蓋定義規則、執行規則並調整它們以獲得準確的結果。

f)資料治理

資料治理通常是指角色、策略、工作流、標準和指標的集合,可確保高效的資料使用和安全性,並使公司能夠實現其業務目標。它涉及建立資料角色和分配許可權、設計工作流以驗證資訊更新、確保資料安全免受安全風險等。

g)地址驗證

它是根據權威資料庫(例如國家的省市標準)執行地址並驗證該地址在國內是否可郵寄、準確且有效的郵寄地址的過程。

04.框架:資料質量管理框架

除了資料質量流程之外,在設計資料質量策略時要考慮的另一個重要方面是資料質量框架。這些過程代表用於消除資料集中資料質量問題的獨立技術。資料質量框架是一個系統的過程,它持續監控資料質量,實施各種資料質量過程(按定義的順序),並確保它不會惡化到定義的閾值以下。它提供了有關資料質量管理流程的更多詳細資訊。

一個簡單的資料質量框架包括四個階段:

a)評估:這是框架的第一步,需要評估兩個主要組成部分:資料質量對的業務的意義以及當前資料如何對其進行評分。

b)設計:資料質量框架的下一步是設計所需的業務規則,透過選擇需要的資料質量流程並將它們調整到的資料,以及決定資料質量功能的架構設計。

c)執行:第三階段是執行發生的地方。已經在前兩個步驟中準備好了階段,現在是時候看看系統的實際效能如何了。

d)監控:這是監控結果的框架的最後階段。可以使用高階資料分析技術來生成詳細的效能報告。

05.技術:資料質量管理工具

儘管資料質量問題的性質相當複雜,但許多企業仍然手動驗證資料質量。針對此問題採用技術解決方案是確保團隊生產力和資料質量框架順利實施的最佳方式。有許多供應商將資料質量功能打包在不同的產品中,例如:

a)獨立、自助式資料質量軟體:

這種型別的資料質量管理軟體允許對資料執行各種資料質量流程。它們通常帶有自動資料質量管理或批處理功能,可以在一天中的特定時間清理、匹配和合並大量資料。這是合併資料記錄的最快和最安全的方法之一,不會丟失任何重要資訊,因為所有過程都在資料副本上執行,並且最終資料檢視可以傳輸到目標源。

b)資料質量API或SDK:

一些供應商透過API或SDK公開必要的資料質量功能。這有助於在現有應用程式中實時或執行時整合所有資料質量管理功能。

c)嵌入資料管理工具的資料質量

一些供應商將資料質量功能嵌入到集中式資料管理平臺中,以便在同一個資料管道中處理所有事情。設計具有嵌入式資料質量功能的端到端資料管理系統需要進行詳細的規劃和分析,並讓關鍵利益相關者參與流程的每個步驟。此類系統通常被打包為主資料管理解決方案。

資料質量管理與主資料管理有何不同?

“主資料管理”一詞指的是資料管理最佳實踐的集合——涉及資料整合、資料質量和資料治理。這意味著資料質量和主資料管理不是彼此對立的;相反,它們是互補的。MDM解決方案除了資料質量管理功能外還包含一些額外的功能。這無疑使MDM成為實施起來更加複雜和資源密集型解決方案——在兩種方法之間進行選擇時需要考慮的因素。

c)定製內部解決方案

儘管市場上存在各種資料質量和主資料管理解決方案,但許多企業投資開發內部解決方案以滿足其自定義資料需求。儘管這聽起來很有希望,但企業往往最終會在此過程中浪費大量資源——時間和費用。開發這樣的解決方案可能更容易實施,但隨著時間的推移幾乎不可能維護。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/aEAtAJO4Pl2ITHHHu8SZ_g,如有侵權,請聯絡管理員刪除。

相關文章