談談什麼是資料質量管理

qing_yun發表於2022-09-28

什麼是資料質量管理

資料質量管理是一組旨在維護高質量資訊的實踐。資料質量管理從資料採集和高階資料流程的實施一直到資料的有效分發。它還需要對資訊進行管理監督。有效的資料質量管理被認為對於任何一致的資料分析都是必不可少的,因為資料的質量對於從資訊中獲得可操作且更重要的準確見解至關重要。

您可以使用許多策略來提高資料質量。資料質量管理流程旨在成為資料開發的“瑞士軍刀”,以應對無論何時何地出現的數字時代資料的挑戰。在本文中,我們將詳細介紹資料質量管理所涉及的一切:為什麼它是必要的、如何衡量資料質量、良好質量管理的支柱以及一些資料質量控制技術。

為什麼需要資料質量管理

雖然數字時代成功地推動了廣泛的創新,但它也助長了所謂的數字時代的“資料危機”——低質量資料。

資料質量的定義是什麼

資料質量是指對資料的評估,相對於其目的和服務於該目的的能力。資料質量由本文後面將詳細介紹的不同因素定義,例如準確性、完整性、一致性或及時性。這種質量對於滿足組織在運營、規劃和決策方面的需求是必要的。

如今,公司的大部分運營和戰略決策都嚴重依賴資料,因此質量的重要性更高。事實上,低質量資料是先進資料和技術計劃失敗的主要原因,每年給美國企業帶來的損失高達970萬美元(不包括世界上所有其他國家的企業)。更一般地說,低質量的資料會影響生產力、底線和整體投資回報率。

稍後我們將討論低質量資料的一些後果。但是,讓我們確保不要陷入“質量陷阱”,因為資料質量管理的最終目標不是建立“高質量”資料是什麼的主觀概念。它的最終目標是提高那些依賴資料的業務部門的投資回報率(ROI)。

從客戶關係管理到供應鏈管理,再到企業資源規劃,有效的資料質量管理的好處可以對組織的績效產生連鎖反應。有了可用的質量資料,組織可以形成資料倉儲,以檢查趨勢和制定面向未來的戰略。在整個行業範圍內,資料質量的積極投資回報率是眾所周知的。根據埃森哲的大資料調查,92%使用大資料進行管理的高管對結果感到滿意,89%的高管認為資料“非常”或“極其”重要,因為它將“像網際網路一樣徹底改變運營模式”。

大企業的領導者清楚地瞭解優質資料的重要性。

資料質量管理的5個支柱

既然瞭解了高質量資料的重要性並希望採取行動來鞏固資料基礎,那麼讓我們來看看資料質量管理背後的技術以及支援它的5個支柱。

1–人

技術的效率取決於實施它的個人。我們可能在技術先進的商業社會中運作,但人類監督和流程實施尚未過時。因此,有幾個資料質量管理角色需要填補,包括:

  • 資料質量管理專案經理:專案經理的角色應由一名高層領導擔任,該領導接受對商業智慧計劃的一般監督責任。他還應監督涉及資料範圍、專案預算和計劃實施的日常活動的管理。專案經理應該領導資料質量和投資回報的願景。

  • 組織變革經理:他透過提供對高階資料技術解決方案的清晰和洞察力來協助組織。由於使用儀表板軟體通常會突出質量問題,因此變更經理在資料質量的視覺化中起著重要作用。

  • 業務/資料分析師:此人從組織的角度定義質量需求。然後將這些需求量化為用於獲取和交付的資料模型。這個人或一組人確保將資料質量背後的理論傳達給開發團隊。

2–資料分析

資料分析是資料質量管理生命週期中的一個基本過程。它涉及:

  • 詳細審查資料

  • 將資料與後設資料進行比較和對比

  • 執行統計模型

  • 報告資料質量

此過程的目的是深入瞭解現有資料,並將其與質量目標進行比較。幫助企業在資料質量管理流程中建立一個起點,併為如何提高其資訊質量設定標準。完整和準確資料的資料質量指標對於這一步至關重要。準確的資料是尋找不成比例的數字,完整的資料是定義資料體並確保所有資料點都是完整的。

3–定義資料質量

資料質量管理的第三個支柱是質量本身。應根據業務目標和要求建立和定義“質量規則”。這些是資料必須遵守的業務/技術規則才能被認為是可行的。

業務需求可能會在這一支柱中佔據首位,因為關鍵資料元素應取決於業務。質量規則的制定對於任何資料質量管理流程的成功都至關重要,因為這些規則將檢測並防止受損資料感染整個資料集的健康狀況。

就像抗體檢測和糾正我們體內的病毒一樣,資料質量規則將糾正有價值資料之間的不一致。當與BI工具結合使用時,這些規則可以成為預測趨勢和報告分析的關鍵。

4–資料包告

資料質量管理報告是刪除和記錄所有受損資料的過程。這應該被設計為遵循資料規則執行的自然過程。一旦識別和捕獲異常,就應該將它們彙總,以便識別質量模式。

應根據特定特徵(例如,按規則、按日期、按來源等)對捕獲的資料點進行建模和定義。統計完這些資料後,可以將其連線到線上報告軟體,以報告質量狀態和儀表板中存在的異常情況。如果可能,還應實施自動化和“按需”技術解決方案,以便實時顯示儀表板洞察力。

報告和監控是資料質量管理投資回報率的關鍵,因為它們可以實時檢視任何時候的資料狀態。透過識別資料異常的位置,資料專家團隊可以制定補救流程的策略。

5–資料修復

資料修復是確定的兩步過程:

修復資料的最佳方法

實施變更的最佳方式

資料修復最重要的方面是執行“根本原因”檢查,以確定資料缺陷產生的原因、位置和方式。一旦實施了這項檢查,就應該開始整治計劃。

依賴於先前有缺陷的資料的資料流程可能需要重新啟動,尤其是當它們的功能面臨風險或受到缺陷資料的影響時。這些流程可能包括報告、活動或財務檔案。

這也是應該再次審查資料質量規則的地方。審查過程將有助於確定規則是否需要調整或更新,並將有助於開始資料演化過程。一旦資料被認為是高質量的,關鍵的業務流程和功能就應該更高效、更準確地執行,從而獲得更高的投資回報率和更低的成本。

如何衡量資料質量

要衡量資料質量,顯然需要資料質量指標。它們也是評估為提高資訊質量所做的努力的關鍵。在各種質量管理技術中,資料質量指標必須是一流的並且定義明確。這些指標包含質量的不同方面,可以用首字母縮略詞“ACCIT”來概括,代表準確性、一致性、完整性、可靠性和及時性。

雖然資料分析可能相當複雜,但所有關鍵的資料質量管理利益相關者都應該瞭解一些基本測量。資料質量指標對於為未來的分析提供最好和最堅實的基礎至關重要。這些指標還將幫助跟蹤質量改進工作的有效性,這當然是確保走上正確軌道所必需的。讓我們回顧一下這五類指標並詳細說明它們所包含的內容。

準確性

指實時發生的業務交易或狀態變化。準確性應透過源文件(即來自業務互動)來衡量,但如果不可用,則應透過獨立性質的確認技術來衡量。它將指示資料是否沒有重大錯誤。

衡量準確性的一個典型指標是資料與錯誤的比率,它跟蹤相對於資料集的已知錯誤(如缺失、不完整或冗餘條目)的數量。這個比率當然應該隨著時間的推移而增加,證明資料質量會變得更好。資料與錯誤的比率沒有特定的比率,因為它在很大程度上取決於資料集的大小和性質,但當然越高越好。在下面的示例中,我們看到資料錯誤率剛好低於95%的準確率目標:

一致性

嚴格來說,一致性指定從不同資料集中提取的兩個資料值不應相互衝突。然而,一致性並不自動意味著正確性。

一致性的一個例子是一個規則,它將驗證公司每個部門的員工總數不超過該組織中的員工總數。

完整性

完整性將表明是否有足夠的資訊來得出結論。完整性可以透過確定每個資料條目是否是“完整”資料條目來衡量。所有可用的資料輸入欄位必須完整,並且資料記錄集不應缺少任何相關資訊。

例如,可以使用的一個簡單質量指標是資料集中的空值數量:在庫存/倉儲環境中,這意味著每一行專案都引用一個產品,並且每個專案都必須有一個產品識別符號。在填寫該產品識別符號之前,該行專案無效。然後,應該隨著時間的推移監控該指標,以減少它。

可靠性

也稱為資料驗證,可靠性是指對資料進行結構測試,以確保資料符合程式。這意味著沒有意外的資料錯誤,並且它對應於其適當的名稱(例如,日期、月份和年份)。

在這裡,一切都歸結為資料轉換錯誤率。要使用的指標跟蹤有多少資料轉換操作相對於整體失敗或者以一種格式儲存的資料並將其轉換為另一種格式的過程未成功執行的頻率。在下面的示例中,轉換錯誤率隨時間變化:

及時性

及時性對應於對資訊可用性和可訪問性的期望。換言之,它衡量的是從預期資料到資料可供使用的時間之間的時間。

評估及時性的一個指標是資料價值實現時間。這對於衡量和最佳化這個時間至關重要,因為它對企業的成功有很多影響。獲取有價值的資料的最佳時機始終是現在,因此越早訪問該資訊越好。

無論選擇哪種方式來提高資料質量,都將始終需要衡量努力的有效性。所有這些資料質量指標示例都可以很好地評估資料質量管理流程。評估得越多,就能改進得越好,所以控制它是關鍵。

資料質量指標示例

以下是5個資料質量指標示例:

  • 資料與錯誤的比率:監控與整個資料集相比已知資料錯誤的數量。

  • 空值數:計算資料集中有空欄位的次數。

  • 資料價值實現時間:評估從資料集中獲得洞察所需的時間。

  • 資料轉換錯誤率:該指標跟蹤資料轉換操作失敗的頻率。

  • 資料儲存成本:當儲存成本上升而使用的資料量保持不變,或者更糟糕的是,資料量減少時,這可能意味著所儲存的大部分資料的使用質量很低。

為什麼需要更好的資料質量控制

高質量資料的好處

讓我們來看看高質量資料在一個領域的好處:營銷。想象一下,您有一個購買的清單,上面有10,000封電子郵件、姓名、電話號碼、企業和地址。然後,假設該列表中有20%是不準確的。這意味著您的列表中有20%的電子郵件、姓名、電話號碼等錯誤。這如何轉化為數字?

好吧,這樣看:如果您針對此列表中的姓名投放廣告活動,由於這些虛假姓名條目,成本將比應有的高出20%。如果您使用實體郵件,多達20%的信件甚至不會送達收件人。透過電話,銷售代表將把更多時間浪費在錯誤的號碼或無法接聽的號碼上。對於電子郵件,您可能認為這沒什麼大不了的,但是開啟率和其他指標會根據“髒”列表而失真。所有這些成本迅速增加,導致美國公司每年面臨6000億美元的資料問題。

但是,讓我們顛倒一下情況:如果您的資料質量控制到位,那麼您將能夠:

以比競爭對手更低的成本獲得潛在客戶

從執行的每個直郵、電話或電子郵件活動中獲得更多投資回報

向最高管理層展示更好的結果,使廣告支出更有可能增加

總而言之,在當今的數字世界中,擁有高質量的資料是領先者和“失敗者”之間的區別。

不良資料質量控制的後果

糟糕的資料質量控制會影響組織的各個方面,包括:

營銷活動的成本和效果如何

瞭解客戶的準確程度

可以多快將潛在客戶轉化為銷售線索

做出業務決策的準確性如何

Gartner的一項研究告訴我們,糟糕的資料質量控制使他們調查的公司平均每年損1420萬美元。

一項巨大的無形成本:錯誤的決定

也許您並沒有試圖讓其他人相信資料驅動決策的重要性。也許公司已經使用了分析,但沒有對資料質量控制進行盡職調查。在這種情況下,您可能會面臨更大的打擊:根據不準確的資料做出代價高昂的決策。

正如大資料專家ScottLowe所說,也許最糟糕的是,決策是用糟糕的資料做出的:這最終會導致更大更嚴重的問題。他寧願聽從自己的直覺做出決定,也不願冒險用不良資料做出決定。

例如,假設您有一個不正確的資料集,表明當前的現金流是健康的。感到樂觀,你擴大了業務。然後,一兩個季度後,您遇到了現金流問題,突然間就很難向供應商(甚至您的員工)付款了。這種災難性的情況是可以透過更高質量的資料來預防的。

低質量資料來源

我們剛剛介紹瞭如何清理可能不準確的資料。然而,俗話說,一盎司的預防勝過一磅的治療。考慮到這一點,這裡有一些低質量資料的來源,因此可以注意隨著時間的推移保持記錄的準確性。請記住:保持資料的高質量不是一次性的工作。這是一個永無止境的持續過程。

來源#1:併購

當兩家公司以某種方式聯合起來時,他們的資料就會融入這種新的工作關係中。然而,就像兩個婚前有孩子的人建立新的關係一樣,事情有時會變得一團糟。

例如,兩家公司很有可能使用完全不同的資料系統。也許你們中的一個人有一個遺留資料庫,而另一個人已經更新了東西。或者使用不同的方法收集資料。甚至有可能關係中的一個合作伙伴有很多不正確的資料。

行動步驟:如果有計劃的合併或收購,請確保讓IT負責人坐到談判桌前,以便在簽署任何交易之前提前計劃此類問題。

來源#2:從遺留系統過渡

對於非技術使用者來說,可能很難理解從一種作業系統切換到另一種作業系統所固有的困難。直覺上,外行會期望事情已經“設定好”,以便終端使用者可以輕鬆無痛地進行轉換。這絕對不符合現實。

許多公司將所謂的“遺留系統”用於已有數十年曆史的資料庫,當不可避免的過渡時期到來時,需要處理大量問題。這是由於資料系統本身的技術性質。每個資料系統都包含三個部分:

  • 資料庫(資料本身)

  • “業務規則”(解釋資料的方式)

  • 使用者介面(資料呈現方式)

在從一個系統到另一個系統的資料轉換過程中,這些不同的部分可能會帶來不同的挑戰。正如SteveHoberman所寫,關注的焦點是資料轉換過程中的資料結構。但這是一種失敗的方法,因為源和目標的業務規則層非常不同。轉換後的資料在實際應用中不可避免地不準確,即使它在技術上仍然是正確的。

行動步驟:從遺留系統過渡到新系統時,過渡團隊成為一個系統或另一個系統的專家是不夠的。他們需要成為這兩個方面的專家,以確保過渡順利進行。

來源#3:使用者錯誤

這是一個可能永遠不會消失的問題,因為人類將始終參與資料輸入,並且人類會犯錯誤。人們經常打錯東西,這必須加以考慮。

你會認為資料清理專家是絕對可靠的,事實並非如此。正如霍伯曼先生所說,“仍有3%的更正輸入錯誤。這是在一個以資料質量為主要目標的專案中!”

行動步驟:建立公司使用的所有表格,儘可能簡單直接地填寫。雖然這不會完全防止使用者錯誤,但它至少會減輕它。

總 結

希望這篇文章為您提供了保持資料高質量所需的資訊。如果您的公司是努力使資料健康的公司,那麼就更多的在市場中獲得競爭優勢。資料質量管理是保持組織在當今數字市場中具有競爭力的關鍵過程。雖然維護高質量資料似乎真的很痛苦,俗話說,“如果容易,每個人都會這樣做。”

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/d9IR-UtMmL7sVd3CRSSm2Q,如有侵權,請聯絡管理員刪除。

相關文章