談談12個最常見的資料質量問題及其來源

qing_yun發表於2023-02-02

據調查,56%的組織面臨至少四種不同型別的資料質量問題,而71%的組織面臨至少三種不同型別的問題。組織在設計資料質量框架和解決資料質量問題時花費了大量時間和資源。但要獲得良好的結果,瞭解這些問題的確切性質並首先確定它們如何最終出現在系統中是很重要的。

什麼是資料質量問題

資料質量問題是指資料集中存在無法容忍的缺陷,從而降低了該資料的可靠性和可信度。

跨不同來源儲存的資料必然包含資料質量問題。由於多種原因,這些問題可能會被引入系統,例如人為錯誤、不正確的資料、過時的資料或組織中缺乏資料素養技能。由於資料為關鍵業務提供動力,因此此類問題可能會給公司帶來一些嚴重的風險和損害。

在所有業務流程中利用高質量資料的需求非常明顯。領導者正在投資招聘資料質量團隊,因為他們想讓人們負責獲得和維持資料質量。並且設計了複雜的資料質量框架,採用先進的技術,確保資料質量管理快速準確。所有這些努力都是為了讓清潔資料夢想成真。

但是,如果不首先了解是什麼汙染了資料以及它究竟來自何處,這一切都是不可能的。

公司面臨的12大資料質量問題

問題#01:缺乏記錄唯一性

一個擁有200-500名員工的普通組織使用大約123個SaaS應用程式。用於捕獲、管理、儲存和使用資料的應用程式數量龐大且種類繁多,是導致資料質量差的主要原因。在這種情況下最常見的問題是為同一實體儲存多個記錄。

例如,客戶在購買過程中與品牌進行的所有互動都記錄在資料庫中的某個位置。這些記錄可能來自網站、登陸頁面表格、社交媒體廣告、銷售記錄、賬單記錄、營銷記錄、購買點記錄等領域。如果沒有系統的方法來識別客戶身份並將新資訊與現有資訊合併,最終可能會在整個資料集中出現重複資訊。要修復重複,必須執行高階資料匹配演算法來比較兩個或多個記錄並計算它們屬於同一實體的可能性。

問題#02:缺乏關係約束

一個資料集通常引用多個資料。但是,當兩個或多個不同的資料之間沒有定義和強制執行任何關係時,最終可能會得到很多不正確和不完整的資訊。

以這種情況為例:客戶門戶包含今年贏得的新業務以及從去年升級的現有客戶的記錄。除了基本客戶資訊外,肯定有一些客戶欄位僅適用於NewBusiness和一些僅適用於NewCustomer。可以使用相同的通用資料模型處理這兩種情況,但它可能會導致許多資料質量問題,例如缺少必要的資訊,以及客戶記錄中的模糊或不正確的資訊。

要處理此類情況,應該始終建立特定的資料模型並加強它們之間的關係。透過在實體之間強制執行父/子(超型別/子型別)關係,可以使處理此資訊的人員更好地捕獲、更新和理解資料。需要將基本Customer欄位與其子子型別(即NewBusiness和ExistingCustomer)分開。

問題#03:缺乏參照完整性

參照完整性意味著資料記錄與其引用對應物是真實的。要了解由於缺乏參照完整性而產生的問題,我們考慮一家零售公司的例子。一家零售公司可能將他們的銷售記錄儲存在Sales表中,每條記錄都提到在進行銷售時售出的產品。因此,可能希望在Sales表中找到銷售ID和產品ID。但是,如果Sales記錄引用Product表中不存在的ProductID,則很明顯資料集缺乏引用完整性。

這些問題可能會導致團隊建立不正確的報告、運送不正確的產品或將產品運送給不存在的客戶等等。

問題#04:缺乏關係基數

關係基數是指兩個實體之間可以擁有的最大關係數。通常,可以在資料物件之間建立不同型別的關係,這取決於公司允許如何進行業務交易。

參考以下示例以瞭解不同資料物件之間的基數,例如Customer、Purchase、Location和Product:

  • 一個客戶一次只能有一個位置

  • 一個客戶可以進行多次購買

  • 許多客戶可以來自一個位置

  • 許多客戶可以購買許多產品

如果基數約束沒有明確定義,它可能會在資料集中引起許多資料質量問題。

問題#05:缺乏屬性的唯一性和意義

我們經常發現與資料集屬性或列相關的問題。很多時候資料模型沒有明確定義,因此結果資訊被認為是不可用的。發現的常見問題有:

  • 存在具有相同名稱的多個列,其中包含一條記錄的不同資訊。

  • 存在具有不同名稱的多個列,這在技術上意味著相同的事物,因此儲存相同的資訊。

  • 列標題不明確,會使資料輸入操作者混淆要在列中儲存的內容。

  • 有些列總是留空;要麼是因為它們已被棄用,要麼是沒有獲取此類資訊的來源。

  • 有些列從未使用過,因此被不必要地儲存。

所有這些場景都描述了資料集中的屬性管理不善,並增加了資料質量問題的數量。

問題#06:缺乏驗證約束

大多數資料質量問題都是由於缺乏驗證約束造成的。驗證約束確保資料值有效且合理,並根據定義的要求進行標準化和格式化。例如,缺少對CustomerName的驗證約束檢查會導致以下錯誤:

  • 名稱中的額外空格(前導、尾隨或中間的雙空格),

  • 使用不適當的符號和字元,

  • 名稱的長度太長,

  • 單字母中間名不大寫或不以句號結尾,

  • 名字、中間名和姓氏的所有字母都大寫,而不是僅將第一個字母大寫。

此外,某些欄位可能包含不正確的縮寫和程式碼,或其他不屬於屬性域的值。如果這些約束未在資料模型中定義並在資料入口點上強制執行,最終會在資料集最關鍵和最基本的欄位(例如客戶姓名)中出現大量驗證錯誤。

問題#07:缺乏準確的公式和計算

資料集中的許多欄位是從其他欄位派生或計算得出的。因此,每次在相關欄位中輸入或更新新資料時,都會設計、實施並自動執行公式。公式或計算中存在的任何錯誤都可能導致資料集的整個列中獲得不正確的資訊。這會使用於任何預期目的的欄位無效。

根據其他欄位計算的欄位示例包括根據生日計算的年齡、根據購買的產品數量計算的適用折扣或任何其他百分比計算。

問題#08:跨來源缺乏一致性

與資料相關的最常見挑戰之一是在所有節點或資料來源中維護關於同一“事物”的一個定義。例如,如果一家公司使用CRM和一個單獨的計費應用程式,則客戶的記錄將出現在這兩個應用程式的資料庫中。隨著時間的推移,在所有資料庫中保持一致的客戶資訊檢視是一項艱鉅的任務。

缺乏一致性可能會擾亂企業所有職能和運營的報告。一致性不僅與資料值的含義有關,還與它們的表示有關;例如,當值不適用或不可用時,必須使用一致的術語來表示所有來源的資料不可用。

問題#09:缺乏資料完整性

資料完整性是指資料集中存在必要的欄位。資料集的完整性可以垂直(屬性級別)或水平(記錄級別)計算。通常,欄位被標記為必填以確保資料集的完整性,因為並非所有欄位都是必需的。

通常會在大量欄位留空的資料集中發現此資料質量問題–大量記錄。但空並不一定意味著不完整。資料集的完整性只能透過首先對資料模型的每個欄位進行如下分類來準確衡量:

  • 欄位是必填項嗎?意思是,它不能留空;例如,客戶的名稱。

  • 該欄位是可選的嗎?意思是,它不一定需要填寫;例如,客戶的愛好欄位。

  • 該欄位在某些情況下不適用嗎?意思是,根據記錄的上下文,它變得無關緊要,應該留空;例如,未婚客戶的配偶姓名。

問題#10:缺乏資料流通

資料老化得非常快——無論客戶是否更換了他們的住址、電子郵件地址、聯絡電話等。此類更改可能會影響資料集的流通性,並導致產生數週或數月的舊資料,從而導致根據過時的資訊做出關鍵決策。為確保資料集的流通性,可以設定提醒以更新資料,或對屬性的年齡設定限制,確保所有值在給定時間內接受審查和更新。

問題#11:缺乏資料素養技能

儘管為保護資料及其跨資料集的質量做出了所有正確的努力,但組織中缺乏資料素養技能仍然會對資料造成很大的損害。員工經常儲存錯誤的資訊,因為他們不理解某些屬性的含義。此外,他們不知道自己行為的後果,例如在某個系統或某個記錄中更新資料會產生什麼影響。

這種差異只能透過建立和設計資料素養計劃和課程來消除,這些計劃和課程向團隊介紹組織資料並解釋:

  • 它包含什麼,

  • 每個資料屬性的含義,

  • 其質量的可接受標準是什麼,

  • 輸入/運算元據的錯誤和正確方法是什麼,

  • 使用什麼資料來實現給定的結果。

問題#12:錯誤輸入和其他人為錯誤

錯誤輸入或拼寫錯誤是最常見的資料質量錯誤來源之一。眾所周知,人類在輸入10,000個資料時至少會犯400個錯誤。這表明即使存在唯一識別符號、驗證檢查和完整性約束,人為錯誤仍有可能產生並使資料質量下降。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/URneU1SCIAFIvCI5NEYtTw,如有侵權,請聯絡管理員刪除。

相關文章