如何做好資料質量管理

qing_yun發表於2023-01-28

資料質量管理對於處理低質量資料帶來的問題是必要的。資料質量管理可以停止處理不準確資料浪費的時間和精力。低質量的資料可能會隱藏運營中的問題,並使合規性成為挑戰。好的資料質量管理對於理解資料至關重要。它有助於為組織建立框架並支援資料質量規則。

準確、最新的資料提供了組織日常運營的清晰檢視。質量差會導致失誤,包括不必要的開支和發票丟失。準確的資料可提高對應用結果的信心並減少不必要的成本。良好的資料質量管理將建立有用資訊的基礎,有助於瞭解組織的費用和流程。質量差的資料在開始時記錄不正確,在使用或儲存過程中失真,或者已經過時。資料質量差的其他示例包括:

  • 資料不全

  • 資料不一致

  • 重複資料

  • 定義不明確的資料

  • 組織不良的資料

  • 較差的資料安全

一 什麼是資料質量管理

資料質量管理可以描述為一組用於維護和訪問準確資訊的實踐。處理資料的每個步驟都必須包括支援準確性的努力。它從獲取資料、儲存資料、分發資料和分析資料開始,目標是接收高質量、無差錯的資訊。

企業越來越多地使用資料來促進對營銷問題、產品開發和溝通策略的智慧決策。高質量資料通常可以比低質量資料更快地處理和分析。高質量的資料帶來更快更好的洞察力,並支援商業智慧收集和分析。

二 什麼是資料質量工具

一個好的資料質量管理系統會使用有助於提高組織資料可信度的工具。資料質量工具是用於識別、理解和糾正資料缺陷的流程和技術,支援跨運營業務流程和決策制定的有效資料治理。資料質量工具包括一系列功能,例如:

  • 資料清理:用於更正未知資料型別(重新格式化)、消除重複記錄並改進不合標準的資料表示。資料清理確保遵循資料標準化規則,以便從資料集中進行分析和洞察。資料清理過程還建立層次結構並使資料可定製以滿足組織獨特的資料要求。

  • 資料監控:監控並確保組織的資料質量在組織內得到開發、使用和維護的過程。該工具通常使用自動化來監控資料質量。通常,組織會制定自己的關鍵績效指標 (KPI) 和資料質量指標。資料監控流程用於測量這些指標並根據配置的資料質量基線對其進行評估。大多數資料質量監控系統旨在在未達到質量閾值時提醒資料管理員。

  • 資料剖析:資料剖析過程可用於建立趨勢,並幫助發現資料中的不一致之處。這個過程結合了資料的監控和清理。資料剖析是用來:

    • 建立資料關係

    • 根據描述驗證可用資料

    • 將可用資料與標準統計基線進行比較

  • 資料解析:此工具用於發現資料是否符合可識別的模式。資料解析基於模式的模式支援自動識別,例如電話號碼的區號或人名的各個部分。

  • 資料匹配:減少資料重複,提高資料準確性。它分析來自單一資料來源的所有記錄中的重複資料,識別完全匹配和近似匹配。該過程允許手動刪除重複資料。

  • 資料標準化:將來自各種來源和不同格式的資料轉換為統一和一致的格式。它修復諸如大寫不一致、首字母縮略詞、標點符號和位於錯誤欄位中的值等問題。資料標準化有助於確儲存儲的資料使用相同、一致的格式。

  • 資料豐富:補充缺失或不完整資料的過程。

資料豐富是透過組合來自另一個來源的資料來完成的。這通常在資料遷移期間完成,此時客戶資訊變得支離破碎。從一個系統獲取的資料用於補充來自另一個系統的資料。

三 什麼是資料質量指標

資料質量指標對於衡量和評估組織資料的質量已經變得非常重要。使用資料質量指標需要了解資料、資料的處理方式以及衡量資料質量的方法。在許多情況下,使用測量資料維度,但也列出了其他方法。不同型別的資料質量指標是:

  • 資料準確性:衡量資料的準確性。

  • 資料與錯誤的比率:記錄資料集中的已知錯誤,並將它們與資料集的大小進行比較。

  • 資料完整性:當資料滿足組織的期望時,資料就是完整的。它表明何時有足夠的時間得出有意義的結論。

  • 空值數:這是對資料集中存在空欄位的次數的度量。這些空白欄位通常表示資訊被放置在錯誤的欄位中,或者完全缺失。

  • 資料一致性:要求從多個來源獲取的資料值不相互衝突。需要注意的是資料一致性並不一定意味著資料是正確的。

  • 資料價值實現時間:衡量從資料中獲得有用見解所需的時間。

  • 資料完整性:指測試資料以確保其符合組織的資料程式。資料的完整性顯示沒有意外錯誤,並使用適當的資料型別。

  • 資料轉換錯誤率:衡量資料轉換操作失敗的頻率。

  • 及時性:在使用者需要時跟蹤資料何時未為使用者準備好。

  • 資料儲存成本:當資料被儲存而不被使用時,資料可以被認為是質量資料。如果資料儲存成本下降,而資料操作保持不變,或增長,則表明資料質量可能正在提高。

四 什麼是資料質量控制

資料質量控制是關於控制資料的使用方式。該過程通常在資料質量保證(資料不一致的發現及其更正)的“之前和之後”執行。

在資料質量保證過程之前,對輸入進行限制和篩選。在質量保證過程之後,從以下方面收集統計資料以影響質量控制過程:

  • 準確性

  • 完整性

  • 一致性

  • 精確性

  • 失蹤/未知

資訊取自質量保證流程,資料質量控制流程使用這些資訊來決定使用什麼。例如,如果質量控制過程發現太多錯誤,它將阻止資料的使用,而不是允許中斷髮生。

五 什麼是資料質量維度

資料質量維度支援衡量組織使用的資料質量的方法。使用多個維度可以顯示組織的資料質量水平。從多個維度獲取的聚合分數提供了資料質量的合理表示,並表明資料的適用性。

資料質量維度衡量特定於專案需求的維度。

資料可以定義可接受的水平,進而建立對資料的更多信任。常用的資料質量有六個維度:

  • 資料完整性:此維度可用於涵蓋各種情況。例如,客戶資料可能顯示有效客戶互動所需的最少資訊量。另一個例子是缺少交貨估計的訂單,這不符合完整條件。完整性衡量顯示的資料是否足以支援令人滿意的互動或交易。

  • 資料準確性:當資料呈現現實世界(或部分現實世界)和期望的現實模型時,資料可以被認為是準確的。資料越接近“真實”,資料的準確性就越高。準確的電話號碼意味著可以聯絡到此人。準確性對於金融和醫療保健等監管更為嚴格的行業尤為重要。衡量資料準確性需要使用真實來源(例如州出生記錄)或透過聯絡相關個人或組織來驗證資料。

  • 資料一致性:該維度關注儲存在多個例項中的相同資訊是否一致。它顯示為儲存在不同位置的具有匹配資訊的資料的百分比。資料一致性確保分析正確捕獲和利用資料的價值。

資料一致性可能難以評估,因為它需要跨多個資料儲存位置進行有計劃的研究。

  • 資料有效性:該測量系統確定顯示的值是否滿足某些資訊要求。例如,如果郵政編碼包含該地區的正確數字,則它是有效的。使用商業規則提供了一種評估資料有效性的方法。

  • 資料唯一性:用於判斷儲存中是否存在單條記錄,或者同一資訊是否存在多個版本。多個副本可能會導致問題,因為某些副本可能沒有收到更新,或者可能只是錯誤的。唯一性確保避免重複。

  • 資料完整性:隨著資料在不同系統之間傳輸並進行轉換,它可能會失真。完整性表示資訊和核心屬性得到了維護。它確保資料可以追溯到其原始來源。

六 資料質量管理角色和職責

資料質量管理過程是一個多方面的過程,涉及具有不同職責的各種專業人員。以下是資料質量管理工作組中最重要的一些角色:

1 資料質量經理

資料質量經理負責監督與資料質量相關的專案,並評估需要改進的地方。資料質量經理的職責包括:

  • 與客戶合作,確定和定義資料質量管理專案的要求。

  • 分析需要管理的資料以確定它與這些要求的符合程度。

  • 建立指標來衡量特定專案目標的進展情況。

  • 實施可提高資料質量的新政策或流程。

  • 隨著時間的推移根據指標監控進度。

2 首席資料官 (CDO)

首席資料官 CDO 是C級主管,負責組織的資料資產。作為他們的核心職責,CDO 確保其公司的資料資產符合戰略目標。隨著越來越多的組織開始依賴資料驅動的決策制定,CDO 的角色近年來從戰略資料管理演變為業務流程管理。

CDO 的職責因組織而異,但通常包括以下內容:

  • 建立與資料質量管理相關的組織目標。

  • 制定組織資料資產的使用和控制政策。

  • 監督這些政策的實施並建立衡量合規性的機制。

  • 優先考慮資料質量專案。

  • 跨組織部門整合資料質量。

  • 對員工進行最佳實踐培訓。

  • 在內部和外部倡導改進組織資料實踐。

  • 監督資料質量管理流程,以確保公司收集和使用的資料滿足業務要求。

  • 制定有關如何使用資料實現業務目標的策略。

3 資料管理員

資料管理員是一名專業人員,負責根據組織的資料治理策略制定有關資料使用和安全性的政策。此外,資料管理員可能負責分配資源以維護和更新資料庫,確保遵循政策,並監控和報告資料質量。

資料管理員的職責可能因專案而異,具體取決於他們的角色範圍和他們在組織中的角色。

作為資料守門人,資料管理員在規劃專案、審查報告、參與開發會議、設計新流程以及在必要時倡導變更方面發揮積極的領導作用。

資料管理員與跨不同職能部門的團隊合作,就如何在整個企業中最好地使用和管理資料相關資訊建立共同點;這項工作通常需要就具有不同需求或優先事項的利益攸關方之間的跨職能差異進行談判。

4 資料分析師

資料分析師是收集、分析和解釋原始資料以發現模式的資料專業人員。資料分析師可以在許多行業找到,包括零售、金融、政府和醫療保健。

他們的職責因行業而異,但通常包括:

  • 從各種來源收集資料。

  • 分析收集的資料。

  • 設計和維護資料系統和資料庫。

  • 根據他們的發現做出預測。

  • 與跨部門的同事進行清晰的溝通。

  • 與程式設計師、工程師和組織高管合作,以增強流程、修改系統和構建資料治理策略。

資料分析師必須具備出色的組織能力才能跟蹤大量資訊。他們還必須與跨部門的人員進行有效溝通,例如不直接參與分析過程的 IT 人員或業務開發專業人員。

資料分析師與負責根據歷史趨勢建立預測模型並預測未來會發生什麼的資料科學家密切合作。這兩個職位需要相似的技能組合,儘管一個可能更專注於統計分析,而另一個更專注於預測建模。

5 資料保管人

資料保管人是負責整個或部分企業的儲存和安全基礎設施的資料專業人員。資料保管人監督資料集的儲存、聚合和使用。除了代表組織內的其他使用者或部門儲存、管理和保護資料外,資料保管人通常還負責確保根據組織的資料治理策略滿足組織對隱私法規的要求。

他們的職責可能包括管理與資訊訪問、修改和刪除相關的風險,以及確定管理員應如何保留長資料。個人可能還需要執行與系統使用者管理、配置管理、系統開發生命週期管理、容量規劃、災難恢復規劃、備份程式和媒體管理相關的任務。

6 資料建模師

資料建模師是系統分析師,他們與資料架構師和資料庫管理員一起建立定義資料架構不同方面的資料模型。他們透過決定將哪些資料儲存在資料庫中以及如何構建資料來為公司的資料構建組織結構。

資料建模師的職責包括:

  • 建立定義資料架構不同方面的模型。

  • 透過決定將哪些資料儲存在資料庫中以及如何構建它們來為公司資料構建組織結構。

  • 決定資料如何在系統之間移動,以便人們或程式可以對其進行分析或訪問。

  • 確保所有應用程式和系統的資料質量達到適當水平。

  • 制定管理變更和建模新需求的指南。

7 大資料工程師

大資料工程師是使用大資料技術分析大型資料集的 IT 專業人員。大資料工程師設計、構建、分析、測試、維護、監控和管理複雜的公司資料基礎設施系統。

大資料工程師的工作包括管理關聯式資料庫、列式資料庫、分散式檔案系統、快取演算法、資訊檢索方法和其他相關技術。

8 資料架構師

資料架構師負責設計公司的資料架構。這包括收集業務利益相關者的需求、分析當前資料結構以確定需要做什麼以及為未來構建架構。

資料架構師是戰略思想家,他們瞭解技術領域的任何變化將如何影響公司的資料環境。他們負責開發資料架構的所有技術方面,並確保它們與其他組織計劃保持一致。他們還管理與 IT 合作伙伴和供應商的關係,並且必須具備出色的溝通技巧。

七 資料質量管理的階段

在明確了資料質量的定義和用於評估資料質量的屬性之後,我們可以進入資料質量管理的實際過程。

1 定義資料質量規則

對於大多數公司而言,每個資料屬性的 100% 分數根本不常見。這樣做的原因是要達到這樣的合規水平非常耗費成本和時間,因此公司通常會識別最重要的屬性並相應地調整其資料質量管理程式。

那麼如何設定資料質量規則呢?

首先,選擇某條資料進行規則設定。讓我們以客戶的全名為例。如果它是最重要的資訊,希望它儘可能準確。因此,可以為客戶的全名設定 90% 的質量閾值。一旦決定了要評估的資料,就可以選擇要衡量的屬性——讓我們來看看準確性和一致性。這意味著客戶全名的準確性和一致性屬性都應達到 90% 的質量閾值。

完成後,將需要設定某些有助於評估資料的規則。如果是全名,它們可能如下所示:

  • 全名應在兩個單詞之間包含一個空格

  • 全名中的兩個詞都應以大寫字母開頭

  • 全名不應包含任何數字

應該為評估的每條資料設定規則,質量閾值也是如此。

2 按照設定的規則評估資料的質量

一旦設定了規則和閾值,就可以評估資料並檢視它是否符合建立的質量標準。

回到客戶全名的示例,我們將藉助上述三個規則來衡量此資料的準確性。一旦我們測量了資料,可能會發現 95% 的全名在兩個單詞之間包含空格,70% 的資料以大寫字母開頭,而 80% 的資料僅包含字母。因此,如果我們計算平均值,則為 81.6%,低於 90% 的設定閾值。這意味著,資料不夠準確。請記住,需要對每個選定的資料重複該過程。

3 資料修復

完成資料評估過程後,可能會發現資料需要修復或清理。以下是必須採取的最常見步驟:

  • 分析根本原因:識別錯誤資料的來源並隔離或修復它。

  • 資料解析:意味著資料標準化並檢查它是否符合標準。

  • 匹配:檢測資料重複並將它們合併為一個或刪除不需要的資料。

  • 資料增強:加入其他來源的資料,使其更加準確有效。

  • 監控:保持資料符合標準和要求的過程。


來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/qLkQD1HgxM1sAlSwZCn4ZQ,如有侵權,請聯絡管理員刪除。

相關文章