資料治理的資料質量知多少

qing_yun發表於2022-05-12

前些天領導問我,以前你們公司的資料質量都是怎麼做的,需要關注哪裡,當時給他稍微說了一下,於是決定回來之後整理一下寫一下。歡迎大家的指正。

·什麼是資料質量

·資料質量評估

·為什麼要進行資料質量評估

·方法與步驟

·資料質量問題根源

·資料質量定義維度

·為什麼資料質量這麼難

·如何實現高質量資料

·一般資料質量的監控指標點

·總結

什麼是資料質量

按照國際資料管理協會的《資料管理知識手冊》中規定,資料質量(DQ)是“既指與資料有關的特徵,也指用於衡量或改進資料質量的過程。”但要深入理解資料質量,需要切分不同層次或維度。

資料無處不在。隨著資料建立的數量、來源和速度的增加,企業正在努力解決如何處理所有這些問題以及如何處理這些問題的現實。如果你的企業還沒有確定使用自己的資料的最有效的方法,那麼你就錯過了改變你的業務並獲得決定性優勢的關鍵機會。

當然,如果沒有好的資料,做你想做的事情就難多了。無論是推出新產品或新服務,還是簡單地響應最大競爭對手的舉動,做出明智、及時的商業決策幾乎完全取決於手頭資料的質量。

人們試圖用這樣的術語來描述資料質量完全, 準確, 可接近,和脫糊狀。雖然每個詞都描述了資料質量的一個特定元素,但更大的資料質量概念實際上是關於該資料是否達到了您想要用於的目的或目的。

資料質量評估

完整性 Completeness:完整性用於度量哪些資料丟失了或者哪些資料不可用。

規範性 Conformity:規範性用於度量哪些資料未按統一格式儲存。

一致性 Consistency:一致性用於度量哪些資料的值在資訊含義上是衝突的。

準確性 Accuracy:準確性用於度量哪些資料和資訊是不正確的,或者資料是超期的。

唯一性 Uniqueness:唯一性用於度量哪些資料是重複資料或者資料的哪些屬性是重複的。

關聯性 Integration:關聯性用於度量哪些關聯的資料缺失或者未建立索引。

資料質量評估標準

為什麼要進行資料質量評估

很多剛入門的資料分析師,拿到資料後會立刻開始對資料進行各種探查、統計分析等,企圖能立即發現資料背後隱藏的資訊和知識。然而忙活了一陣才頹然發現,並不能提煉出太多有價值的資訊,白白浪費了大量的時間和精力。比如和資料打交道的過程中,可能會出現以下的場景:

·場景一:作為分析師,要統計一下近7天使用者的購買情況,結果從數倉中統計完發現,很多資料發生了重複記錄,甚至有些資料統計單位不統一。

·場景二:業務看報表,發現某一天的成交gmv暴跌,經過排查發現,是當天的資料缺失。

造成這一情況的一個重要因素就是忽視了對資料質量的客觀評估。在進行資料分析前需要注意以下兩點:

·1、在實際工作中資料分析一定都是為具體業務服務的,只有緊密圍繞業務需求的分析才是有意義的有價值的。

·2、通常我們進行資料分析、挖掘的目的是企圖發現資料中隱藏的知識和資訊,從而對實際業務或產品進行最佳化。如果資料集本身質量不佳,自然很難得出有用的結論,甚至可能得到錯誤的結果延伸到導致決策失誤。

所以,進行科學、客觀的資料質量評估是非常必要且十分重要的。首先可以節約大量試錯的時間;其次可以降低得出錯誤結論的機率;還可以縮短資料反饋流程,更加及時的將資料收集過程存在的問題反饋給資料生產部門,提高協作效率。

方法與步驟

熟悉六西格瑪管理的人應該知道,六西格瑪強調以事實驅動管理。但事實是用資料說話。對映到六西格瑪管理方法,MTC-DQM推薦採用十步資料質量管理方法。

1、定義和商定問題、時機和目標,以指導整個資料質量管理的工作。

2、收集、彙總、分析有關形式和資訊環境。設計捕獲和評估的方案。

3、按照資料質量維度對資料質量進行評估。

4、使用各種技術評估劣質資料對業務產生的影響。

5、確定影響資料質量的真實原因,並區分這些原因的影響的資料質量的級別。

6、最終確定行動的建議,為資料質量改善制定方案,包括資料級和組織級的。

7、建立資料錯誤預防方案,並改正當前資料問題。

8、透過改進組織管理流程,最大限度控制由管理上的缺陷造成的資料質量問題。

9、對資料和管理實施監控,維護已改善的效果。10.溝通貫穿管理始終,迴圈的評估組織管理流程,以確保資料質量改善的成果得到有效保持。

資料質量問題根源

做資料質量管理首先要搞清楚資料質量問題產生的原因,原因有很多方面,例如:技術、管理、處理流程、業務邏輯錯誤等都會碰到,但從根本上來講資料質量問題產生的絕大多數原因在業務上。

解決資料質量問題不是簡單透過一個工具就能搞定,需要從根本上認識到資料質量問題產生的真正根源,從而從業務上著手解決資料質量問題。從業務角度著手解決資料質量問題,重要的是建立一套科學、可行的資料質量評估標準和管理流程。

資料質量定義維度

如果從使用者層級定義資料質量,就是滿足特定使用者預期需要的一種程度。

如果從資料本身定義資料質量,即從資料質量的指示器和引數指標等方面來衡量其優劣。

如果從資料約束關係定義資料質量,即從資料的原子性、資料的關聯性及對資料的約束規則來度量資料質量。

如果從資料過程定義資料質量,需要從資料能被正確使用、儲存、傳輸等方面定義質量。

為什麼資料質量這麼難

差一點85%的執行長說他們擔心他們用來做決定的資料的質量。這種擔憂的部分原因在於,事實證明,糟糕的資料使公司付出了更大的代價。佔其年收入的25%在失去的銷售,失去的生產力,或錯誤的決定。

顯然,對於許多組織來說,實現資料質量仍然是一個挑戰,但解決方案並不像它們看起來的那樣虛幻。大多數企業都會遇到一些或全部直接影響資料質量的問題:

·孤立的資料。又稱“資料筒倉”,這些獨立的資料組要麼屬於特定的業務單元,要麼包含在特定的軟體中。隔離資料的問題是,組織的其他部分無法訪問它,因為該軟體可能與任何其他內容不相容,或者業務單元嚴格控制使用者許可權。雖然這些資料可能提供有用的,甚至是非常有價值的洞察力,因為它不容易被訪問,但是業務不能對它形成一個完整的圖景,更不用說從中受益了。

·過時的資料。企業結構龐大而複雜,有多個團隊和部門。因此,跨組織收集資料通常是一個緩慢而費力的過程。到收集所有資料時,其中一些-如果不是大多數-在相關性方面已經落後,因此大大降低了其對組織的價值。

·複雜的資料。資料來自許多不同的來源和不同的形式。資料來自智慧手機、膝上型電腦、網站、客戶服務互動、銷售和營銷、資料庫等。它可以是結構化的,也可以是非結構化的。理解輸入的資料量和資料種類,並使其標準化供每個人使用是一個資源密集型的過程,許多組織沒有足夠的頻寬或專門知識來跟上。

如何實現高質量資料

和任何有價值的商業活動一樣,提高資料的質量和效用是一個多步驟、多方法的過程。以下是如何:

·方法1:大資料指令碼獲取大量資料,並使用指令碼語言與其他現有語言進行通訊和組合,以清理和處理資料以進行分析。雖然工程師欣賞指令碼的靈活性,但它確實需要對需要合成的資料型別和資料存在的特定上下文有一個重要的理解,以便知道要使用哪種指令碼語言。判斷和執行中的錯誤會打亂整個過程。

·方法2:傳統的ETL(提取、載入、轉換)工具整合了來自不同來源的資料,並將其載入到資料倉儲中,然後準備進行分析。但是,通常需要一組技術熟練的內部資料科學家首先手動清除資料,以解決與源和目的地之間存在的模式和格式不相容的問題。更不方便的是,這些工具通常是批次處理,而不是實時處理。傳統的ETL需要基礎設施的型別、現場的專業知識以及很少有組織願意投資的時間承諾。

·方法3:開放原始碼工具提供資料質量服務,如解除欺騙、標準化、充實和實時清理,以及快速註冊和比其他解決方案更低的成本。然而,大多數開源工具在實現任何真正的好處之前仍然需要一定程度的定製。對於服務的啟動和執行,支援可能是有限的,這意味著組織必須再次依靠他們現有的IT團隊來使其工作。

·方法4:現代資料整合透過自動整合、清理和轉換資料,然後將資料儲存在資料倉儲或資料湖中,從而消除了傳統ETL工具的手工操作。組織定義資料型別和目的地,並可以根據需要使用更新的客戶詳細資訊、IP地理定位資料或其他資訊豐富資料流。轉換過程將來自所有源和各種格式的資料標準化,使其可供組織中的任何人使用。而且,由於它實時處理資料,使用者可以檢查資料流並糾正正在發生的任何錯誤。

一般資料質量的監控指標點

1、接入資料條數波動(近7天均值比較)

2、源系統表結構變更(表名、欄位名、欄位型別)

3、源系統表計算延遲,導致後續資料接入延遲

4、線上維表新增數值, 倉庫未及時更新

5、對接入RDBMS表的主鍵、外來鍵檢查:是否重複

6、重要欄位長度檢查

7、空值檢查

8、重要欄位列舉分佈檢查:離散的,多數是維度欄位,可以包含空值檢查

9、值域檢查:連續的,一般是事實欄位,計算檢查MAX MIN SUM AVG

10、日期合法性檢查:是否有跨天日誌,是否有不正常時間日誌

總結

資料質量的檢測一直是個難題,我介紹的可能還不算詳細,有什麼不正確的歡迎指出,辛苦各位了。

來自 “ 大資料球球 ”, 原文作者:薛秋豔;原文連結:https://mp.weixin.qq.com/s/NqJJmP-qtiowdQl2b7tcqg,如有侵權,請聯絡管理員刪除。

相關文章