億信華辰:怎樣去斷定一份資料的質量高低?資料質量如何評估?

DataAnalyst的碎碎念發表於2022-01-18

今天給大家分享一下如何進行資料治理。資料治理包括很多方面,我們今天聊聊資料質量應該如何評估。“ 資料質量的治理,是資料治理的主要內容之一。資料質量的全面評價,是資料質量治理的準繩。”


為什麼要進行質量評估?可能很多朋友之前都沒怎麼關注過針對資料質量的內容。但是如果你經常與資料打交道,以下場景應該不陌生:


場景一:作為分析師,要統計近7天使用者的購買情況,結果從數倉統計完後發現,很多資料發生了重複記錄的情況;


場景二:作為業務員去看報表,發現某一天成交的gmv暴跌,經過排查發現是當天的資料缺失。


以上就是隨意舉了兩個例子。其實我們們在工作中,很多時候資料出現問題這都是屬於資料質量的範疇內。資料質量差,會導致業務分析結果不準確、決策失誤以及內部不一致等等情況。提升資料質量是資料治理的重中之中,也是資料發揮價值的基礎。沒有質量的資料,還不如沒有資料。


關於如何提升資料質量,我們後面再來分享。在這之前,首先要知道,我們說的資料質量好或者資料質量差,到底是好在哪、差在哪。這也就是資料質量的評估。只有知道如何評估資料質量,才能有的放矢,有針對性的提升資料質量。

對於資料質量差,我們如何進行資料質量的評估呢?資料質量的評估,主要圍繞著以下6個方面進行。


(1)資料完整性

數字完整性這個其實比較好理解,通俗上來說就是我們常說的資料全不全,完全字面意思。但如何用指標來衡量呢?這個我們通常是去看一份資料的總記錄數是否正常。比如成交記錄是1萬條,但資料表只有9000條,這就是不完整的。再細一些,我們可以去看錶中具體欄位。比如總條數是1萬,但是使用者ID欄位有2000是空的,這也是不完整的。


(2)資料唯一性

資料的唯一性也比較容易理解,就是講數字是沒有重複的。數字唯一性與資料完整性是相對的。完整性看的是資料少沒少,而唯一性看的是資料多沒多。我們還是拿上面的例子,比如真實成交1萬條,但資料表有3000重複了,成了1.3萬條成交記錄,這就不符合資料唯一性的評估。


(3)資料有效性

資料有效性主要是看資料是否符合公司業務的真實情況。比如手機號欄位,取值是32988,明顯是髒資料。這裡列舉了幾個方面:

程式碼值域約束:比如**型別的程式碼值要包含在資料標準的公共程式碼中

長度約束:比如約束身份證欄位長度要等於18位

取值範圍約束:比如要求欄位值不能是負數

標誌取值約束:比如要求欄位取值只能是1、2、3

通過以上方面,可以衡量資料內容的質量是否達標


(4)資料一致性

資料一致性的含義是通過不同方式取出來的資料,不能是衝突的。這裡強調的是多個表或者來源,只有多個對比,才有不一致的概念。資料一致性其實就是我們在做交叉驗證時的內容,經常會說的一句話:“這數對不上啊!”通常分為以下三個方面:

等值一致性:一個核驗物件的資料取值必須與另外一個或多個核驗物件在一定規則下相等。比如,“進出口經營權許可證號”長度13位,後9位應該與“組織機構程式碼證”一致

存在一致性:一個核驗物件的資料值必須在另一個核驗物件滿足某一條件時存在。比如,“登入狀態”是已登入,“登入日期”不能為空

邏輯一致性:一個核驗物件上的數值必須與另一個核驗物件的資料值滿足某種邏輯關係。比如,“支票起號”小於等於“支票止號”


(5)資料準確性

資料準確性就是多個表有不一致的概念,單個資料表呢?這就是資料準確性了。比如使用者的實際地址是青島市,但資料表存的是煙臺市。一般原始資料不準的情況不多,都是統計表、彙總表容易出現資料不準的情況。比如統計使用者最近30天的成交金額出現偏差。另外值得注意的是,準確性強調資料是否與真實世界值一致。這個校驗有時候不容易進行。


(6)資料及時性

資料及時性主要是滿足時效性的。這裡也劃分到了資料質量的範疇。比如一份資料是統計離線T-1日的,結果都是第二天下午甚至第三天才能統計完,這種資料的應用價值就會大打折扣了。


資料質量的評估維度,就先分享到這裡。後面會針對如何落實資料質量的管理、提升資料質量,進行詳細分享。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69996137/viewspace-2852879/,如需轉載,請註明出處,否則將追究法律責任。

相關文章