如何提高企業資料質量

大資料小知識發表於2022-03-15

  大資料時代,資料資產及其價值利用能力逐漸成為構成企業核心競爭力的關鍵要素;然而,大資料應用必須建立在質量可靠的資料之上才有意義,建立在低質量甚至錯誤資料之上的應用有可能與其初心南轅北轍背道而馳。因此,資料質量正是企業應用資料的瓶頸,高質量的資料可以決定資料應用的上限,而低質量的資料則必然拉低資料應用的下限。

  一、資料質量

  資料質量的高低代表了該資料滿足資料消費者期望的程度,這種程度基於他們對資料的使用預期。資料質量必須是可測量的,把測量的結果轉化為可以理解的和可重複的數字,使我們能夠在不同物件之間和跨越不同時間進行比較。資料質量管理是通過計劃、實施和控制活動,運用質量管理技術度量、評估、改進和保證資料的恰當使用。

  二、資料質量維度

  1、準確性:資料不正確或描述物件過期

  2、合規性:資料是否以非標準格式儲存

  3、完備性:資料不存在

  4、及時性:關鍵資料是否能夠及時傳遞到目標位置

  5、一致性:資料衝突

  6、重複性:記錄了重複資料

  三、資料質量分析

  資料質量分析的主要任務就是檢查資料中是否存在髒資料,髒資料一般是指不符合要求以及不能直接進行相關分析的資料。髒資料包括以下內容:

  1、預設值

  2、異常值

  3、不一致的值

  4、重複資料以及含有特殊符號(如#、¥、*)的資料

  我們已經知道了髒資料有4個方面的內容,接下來我們逐一來看這些資料的產生原因,影響以及解決辦法。

  第一、預設值分析

  產生原因:

  1、有些資訊暫時無法獲取,或者獲取資訊的代價太大

  2、有些資訊是被遺漏的,人為或者資訊採集機器故障

  3、屬性值不存在,比如一個未婚者配偶的姓名、一個兒童的固定收入

  影響:

  1、會丟失大量的有用資訊

  2、資料額挖掘模型表現出的不確定性更加顯著,模型中蘊含的規律更加難以把握

  3、包含空值的資料回事建模過程陷入混亂,導致不可靠輸出

  解決辦法:

  通過簡單的統計分析,可以得到含有缺失值的屬性個數,以及每個屬性的未缺失數、缺失數和缺失率。刪除含有缺失值的記錄、對可能值進行插補和不處理三種情況。

  第二、異常值分析

  產生原因:業務系統檢查不充分,導致異常資料輸入資料庫

  影響:不對異常值進行處理會導致整個分析過程的結果出現很大偏差

  解決辦法:可以先對變數做一個描述性統計,進而檢視哪些資料是不合理的。最常用的統計量是最大值和最小值,用力啊判斷這個變數是否超出了合理的範圍。如果資料是符合正態分佈,在原則下,異常值被定義為一組測定值中與平均值的偏差超過3倍標準差的值,如果不符合正態分佈,也可以用原理平均值的多少倍標準差來描述。

  第三、不一致值分析

  產生原因:不一致的資料產生主要發生在資料整合過程中,這可能是由於被挖掘的資料是來自不同的資料來源、對於重複性存放的資料未能進行一致性更新造成。例如,兩張表中都儲存了使用者的電話號碼,但在使用者的號碼發生改變時只更新了一張表中的資料,那麼兩張表中就有了不一致的資料。

  影響:直接對不一致的資料進行資料探勘,可能會產生與實際相悖的資料探勘結果。

  解決辦法:注意資料抽取的規則,對於業務系統資料變動的控制應該保證資料倉儲中資料抽取最新資料

  第四、重複資料及特殊資料

  產生原因:業務系統中未進行檢查,使用者在錄入資料時多次儲存。或者因為年度資料清理導致。特殊字元主要在輸入時攜帶進入資料庫系統。

  影響:統計結果不準確,造成資料倉儲中無法統計資料

  解決辦法:在ETL過程中過濾這一部分資料,特殊資料進行資料轉換。

  四、資料質量管理

  大多數企業都沒有一個很好的資料質量管理的機制,因為他們不理解其資料的價值,並且他們不認為資料是一個組織的資產,而把資料看作建立它的部門領域內的東西。缺乏資料質量管理將導致髒資料、冗餘資料、不一致資料、無法整合、效能底下、可用性差、責任缺失、使用系統使用者日益不滿意IT的效能。

  在做資料分析之前一般都應該初步對資料進行評估。初步資料評估通過資料包告來完成的,資料包告通常在準備把資料存入資料倉儲是做一次,它是全面跨資料集的,它描述了資料結構、內容、規則、和關係的概況。通過應用統計方法返回一組關於資料的標準特徵,包括資料型別、欄位長度、列基數、粒度、值、格式、模式、規則、跨列和跨表的資料關係,以及這些關係的基數。初步評估報告的目的是獲得對資料和環境的瞭解,並對資料的狀況進行描述。

  如何提高企業資料質量.中琛魔方大資料平臺表示資料包告中列出了很多的檢查項都是圍繞資料質量管理相關的檢查,所以做一個資料分析專案前一定要知道客戶的資料質量情況。如果資料質量很糟糕,最終影響的是專案分析的實際效果。例如,使用者業務系統中客戶資訊只輸入了客戶名稱,要分析客戶型別就會存在預設值。當然有一些維度屬性我們可以通過事實表反算資料進入維度表來補充維度屬性。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69936596/viewspace-2871072/,如需轉載,請註明出處,否則將追究法律責任。

相關文章