十步法原則解決資料質量問題
一、相關概念
1.1 資料質量
資料的一組固有屬性滿足資料消費者要求的程度。
1)資料固有屬性
- 真實性:即資料是客觀世界的真實反映
- 及時性:即資料是隨著變化及時更新的
- 相關性:即資料是資料消費者關注和需要的
2)高質量資料滿足要求(消費者角度)
- 可得的,當資料消費者需要時能夠獲取到;
- 及時的,當需要時,資料獲得且是及時更新的;
- 完整的,資料是完整沒有遺漏的;
- 安全的,資料是安全的,避免非授權的訪問和操控;
- 可理解的,資料是可理解和解釋的;
- 正確的,資料是現實世界的真實反映。
1.2 資料質量管理
資料質量管理,是指對資料從計劃、獲取、儲存、共享、維護、應用、消亡生命週期的每個階段裡可能引發的各類資料質量問題,進行識別、度量、監控、預警等一系列管理活動,並透過改善和提高組織的管理水平使得資料質量獲得進一步提高。
二、評估維度
任何改善都是建立在評估的基礎上,知道問題在哪才能實施改進。通常資料質量評估和管理評估需透過以下幾個維度衡量。常見的以下維度:
1)完整性
完整性,是指資料資訊是否完整,是否存在缺失情況。資料缺失的情況可能是整個資料記錄缺失,也可能是資料中某個欄位資訊的記錄缺失。記錄的完整性,一般使用統計的記錄數和唯一值個數。完整性的另一方面,記錄中某個欄位的資料缺失,可使用統計資訊中的NULL的個數進行稽核。一般空值的佔比基本恆定,同樣可以使用統計的空值個數來計算空值佔比,如果空值的佔比明顯增大,很可能這個欄位的記錄出現了問題,資訊出現缺失。總而言之,完整性可用記錄數、均值、唯一值、空值佔比等指標來衡量。
2)規範性
規範性,是指記錄是否符合規範,是否按照規定的格式儲存(例如標準編碼規則)。資料規範性稽核是資料質量稽核中比較重要也是比較複雜的一塊。規範性檢驗主要是檢驗資料和資料定義是否一致,因此可以透過合規記錄的比率來衡量。比如取值範圍是列舉集合的資料,其實際值超出範圍之外的資料佔比,比如存在特定編碼規則的屬性值不符合其編碼規則的記錄佔比。
3)一致性
一致性,是指資料是否符合邏輯,資料內單項或多項資料間存在邏輯關係。一致性檢驗,存在邏輯關係的屬性之間的校驗,比如屬性A取某定值時,屬性B的值應該在某個特定的資料範圍內,都可以透過合規率來衡量。
4)準確性
準確性,用於度量哪些資料和資訊是不正確的,或者資料是超期的。準確性可能存在於個別記錄,也可能存在於整個資料集上。準確性和規範性的差別在於規範性關注合規,表示統一,而準確性關注資料錯誤。因此,同樣的資料表現,比如資料實際值不在定義的範圍內,如果定義的範圍準確,值完全沒有意義,那麼這屬於資料錯誤。
資料的準確性可能存在於個別記錄,也可能存在於整個資料集。如果整個資料集的某個欄位的資料存在錯誤,這種錯誤很容易發現,利用平均數和中位數也可以發現這類問題。當資料集中存在個別的異常值時,可使用最大值和最小值的統計量去稽核,或者使用箱線圖也可以讓異常一目瞭然。
還有幾個準確性的稽核問題,字元亂碼的問題或者字元被截斷的問題,可以使用分佈來發現這類問題,一般的資料記錄基本符合正態分佈或者類正態分佈,那麼那些佔比異常小的資料項很可能存在問題。如果資料並沒有顯著異常,但仍然可能記錄的值是錯誤的,只是這些值和正常值比較接近而已,這類準確性檢驗最困難,一般只能與其他來源或者統計結果進行對比來發現問題。
5)時效性
資料從產生到可以檢視的時間間隔,也叫資料的延時時長。某些實時分析和決策需要用到小時或者分鐘級的資料,這些需求對資料的時效性要求極高,所以及時性也是資料質量的組成要素之一。例如定義某張表在每月最晚達到的日期是幾號。
6)唯一性
唯一性,用於度量哪些資料是重複資料或者資料的哪些屬性是重複的。即對存在於系統內或系統間的特定欄位、記錄或資料集意外重複的測量標準。
7)合理性
合理性,是從業務邏輯角度判斷資料是否正確。評估方面可參照規範性、一致性做法。
8)冗餘性
冗餘性,是指多層次資料中是否存在不必要的資料冗餘。
9)獲取性
獲取性,是指資料是否易於獲取、易於理解和易於使用。
三、影響因素
影響資料質量的因素主要來源於四方面:資訊因素、技術因素、流程因素和管理因素。
1)資訊因素
產生這部分資料質量問題的原因主要有:後設資料描述及理解錯誤、資料度量的各種性質(如:資料來源規格不統一)得不到保證和變化頻度不恰當等。
2)技術因素
主要是指由於具體資料處理的各技術環節的異常造成的資料質量問題。資料質量問題的產生環節主要包括資料建立、資料獲取、資料傳輸、資料裝載、資料使用、資料維護等方面的內容。
3)流程因素
是指由於系統作業流程和人工操作流程設定不當造成的資料質量問題,主要來源於系統資料的建立流程、傳遞流程、裝載流程、使用流程、維護流程和稽核流程等各環節。
4)管理因素
是指由於人員素質及管理機制方面的原因造成的資料質量問題。如人員培訓、人員管理、培訓或者獎懲措施不當導致的管理缺失或者管理缺陷。
四、解決質量問題方法
可以遵從下面的十步法原則(此部分摘自御數坊公開材料)。
4.1 定義業務需求與方法
找出有哪些業務受到資料質量問題的影響,或者由於資料質量的改進將會為企業帶來更好的業務效益的需求,評估這些業務需求並按照重要等級排序,作為本次資料質量提升的目標與範圍。只有明確了業務需求與方法,才能確保要解決的資料質量問題是與業務需求相關的,從而真正的解決了業務問題。
4.2 分析資訊環境
細化已定義的業務需求,識別出業務需求與資料、資料規範、流程、組織和技術(如系統、軟體等)之間的關聯資訊,定義資訊生命週期,確定資料來源及範圍。透過分析資訊環境,不僅可以為後續的原因分析提供幫助,也可以使我們對資料問題及現狀有一個更全面、直觀的理解與認識。
4.3 評估資料質量
從相關資料來源提取資料,圍繞已定義的業務需求,設計資料評估維度並利用相關工具完成評估,將資料質量評估結果以圖表或報告形式準確的表達出來,使相關領導或業務人員都能夠清晰的、直觀的瞭解實際的資料質量情況,確保資料問題是與業務需求相關的,並能夠得到相關領導或業務人員的重視與支援。
4.4 評估業務影響
瞭解低質量資料是如何影響業務的,為什麼這些資料很重要,如果改善這些問題會帶來哪些業務價值。評估方式的複雜度越高所花費的時間越長,不過與評估效果卻並不一定成正比,所以在評估業務影響時也要注意方法的選擇。另外,要將業務影響評估結果及時歸檔,這樣,隨著時間的推移即便問題被淡化,也能夠有跡可查。
4.5 確定根本原因
在糾正資料問題之前要先確定其根本原因,產生問題的根源有很多。不過,有些問題的發生僅是表象,並不一定是導致錯誤資料的根本原因,所以在分析的過程中,要不斷的去追蹤資料進行問題定位,確定問題最早出現的根本原因;或者多問自己幾遍“WHY”以弄清楚問題的根本原因,進而使問題得到有效的解決,達到治標又治本的效果。
4.6 制定改進方案
透過前面幾步詳細的問題分析及原因確定,在這一步則可以有針對性的制定出合理的資料質量改進方案,包括對已知資料問題的改進建議及如何預防未來類似錯誤資料的發生。
4.7 預防未來資料錯誤
根據解決方案的設計,預防未來錯誤資料的發生。
4.8 糾正當前資料錯誤
根據解決方案的設計,解決現有資料問題。這一步更多是”髒活累活”,但對於最終質量目標的達成至關重要。
4.9 實施控制監控
實施持續的監測,確定是否已經達到預期效果。
4.10 溝通行動和結果
對結果和專案進展情況溝通,保證整體專案的持續推進。
五、資料質量產品設計
5.1 資料產品價值
- 完整檢核標準梳理方法及指標規則模板。
- 自動化的檢核處理及問題通知機制,達到無人值守。
- 提供全面的資料分析機制,加速問題解決。
- 規範的問題管理流程及制度,精確管理問題每個階段。
- 完善的質量問題解決共享機制,實現資料治理的閉環管理。
5.2 處理問題流程
- 確定規則:資料質量指標
- 發現問題:資料質量檢核
- 提出問題:質量問題告警
- 解決問題:質量問題分析
- 歸納問題:問題管理流程
5.3 主要功能模組
1)質量評估
提供全方位資料質量評估能力,如資料的重複性、關聯性、正確性、完全性、一致性、合規性等,對資料進行體檢進而識別和理解資料質量問題。有評價體系作為參照,需要進行資料的採集、分析和監控,為資料質量提供全面可靠的資訊。在資料流轉環節的關鍵點上設定採集點,根據系統對資料質量的要求,配置相應的採集規則,透過在採集點處進行質量資料採集並進行統計分析,就可以得到採集點處的資料分析報告。
2)檢核執行
提供配置化的度量規則和檢核方法生成能力,提供檢核指令碼的定時排程執行和第三方排程工具的排程執行功能。
3)質量監控
系統提供報警機制,對檢核規則或方法進行閥值設定,對超出閥值的規則進行不同級別的告警和通知。
4)問題管理
對資料問題進行流程處理支援,規範問題處理機制和步驟,強化問題認證,提升資料質量。透過質量評價體系和質量資料採集系統,可以發現問題,之後還需要對發現的問題及時作出反應,追溯問題原因和形成機制,根據問題種類採取相應的改進措施,並持續跟蹤驗證改進之後的資料質量提升效果,形成正反饋,達到資料質量持續改良的效果。
在源頭建立資料標準或接入標準,規範資料定義,在資料流轉過程中建立監控資料轉換質量的流程和體系,儘量做到在哪發現問題就在哪解決問題,不把問題資料帶到後端。
5)質量報告
系統提供了豐富的API可進行定製化資料質量包括開發,另外系統內建了常用質量報告。
6)質量分析
提供多種問題分析能力,包括血統分析,影響分析,全鏈分析,定位問題產生的根源。
作者:韓鋒
首發於作者個人公號《韓鋒頻道》,歡迎關注。
來源:宜信技術學院
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69918724/viewspace-2654423/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 讀資料質量管理:資料可靠性與資料質量問題解決之道01資料質量
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 讀資料質量管理:資料可靠性與資料質量問題解決之道03資料目錄
- 讀資料質量管理:資料可靠性與資料質量問題解決之道06資料測試
- 讀資料質量管理:資料可靠性與資料質量問題解決之道10資料平臺
- 讀資料質量管理:資料可靠性與資料質量問題解決之道04收集與清洗
- 讀資料質量管理:資料可靠性與資料質量問題解決之道05資料標準化
- 讀資料質量管理:資料可靠性與資料質量問題解決之道09資料可靠性
- 讀資料質量管理:資料可靠性與資料質量問題解決之道07異常檢測
- 對待資料質量的28個原則
- 讀資料質量管理:資料可靠性與資料質量問題解決之道08擴充套件異常檢測套件
- 供應商質量管理十大原則(轉載)
- 程式碼質量-開閉原則
- SAP質量管理模組常見問題及解決方案
- Android vitals 幫您解決應用質量問題Android
- 資料倉儲資料質量的問題探討(轉)
- 解決資料災難需要回答的十個問題
- 【譯】原則問題:直面設計中的核心實質
- TSM故障問題解決一則
- 優思學院|質量人如何提升解決問題的能力?
- 質量管理三不原則的基本做法
- [譯] 如何用 Android vitals 解決應用程式的質量問題Android
- 解決AI的小資料問題AI
- 優思學院:10個質量管理的原則
- 質量管理八項原則及其應用指南(轉)
- 報告指出資料質量問題正在影響公司業績
- 資料治理--資料質量
- 新手大資料必問十個問題大資料
- 安裝資料庫和資料庫解決問題資料庫
- 解決hive資料庫 插入資料很慢的問題Hive資料庫
- 資料庫層面問題解決思路資料庫
- sbt配置——資料來源問題解決
- 資料探勘主要解決四類問題
- 使用bulkCollect解決資料遷移問題
- 談談12個最常見的資料質量問題及其來源
- 解決問題的三條規則 | Yonatan Zunger
- 解決「問題」,不要解決問題
- 解決兩相同資料庫資料同步的問題 (轉)資料庫