《資料安全能力成熟度模型》實踐指南04:資料質量管理
2019年8月30日,《資訊保安技術 資料安全能力成熟度模型》(GB/T 37988-2019)簡稱DSMM(Data Security Maturity Model)正式成為國標對外發布,並已於2020年3月起正式實施。
DSMM將資料按照其生命週期分階段採用不同的能力評估等級,分為資料採集安全、資料傳輸安全、資料儲存安全、資料處理安全、資料交換安全、資料銷燬安全六個階段。DSMM從組織建設、制度流程、技術工具、人員能力四個安全能力維度的建設進行綜合考量。DSMM將資料安全成熟度劃分成了1-5個等級,依次為非正式執行級、計劃跟蹤級、充分定義級、量化控制級、持續最佳化級,形成一個三維立體模型,全方面對資料安全進行能力建設。
能力評估等級
在此基礎上,DSMM將上述6個生命週期進一步細分,劃分出30個過程域。這30個過程域分別分佈在資料生命週期的6個階段,部分過程域貫穿於整個資料生命週期。
生命週期過程域
隨著《中華人民共和國資料安全法(草案)》的公佈,後續DSMM很可能會成為該法案的具體落地標準和衡量指標,對於中國企業而言,以DSMM為資料安全治理思路方案選型,可以更好的實現資料安全治理的制度合規。
本系列文將以DSMM資料安全治理思路為依託,針對上述各過程域,基於充分定義級視角(3級),提供資料安全建設實踐建議,本文作為本系列第四篇文章,將介紹資料採集安全階段的
資料質量管理過程域
(PA04)。
資料質量管理,DSMM官方描述定義為建立組織的資料質量管理體系,保證對資料採集過程中收集/產生的資料的準確性、一致性和完整性。
DSMM標準在充分定義級對資料質量管理要求如下:
組織建設
組織應設立資料質量管理崗位和人員,負責制定統一的資料質量管理要求,明確對資料質量進行管理和監控的責任部門或人員。
應利用技術工具實現對關鍵資料進行資料質量管理和監控,實現異常資料及時告警或更正。
人員能力
負責該項工作的人員應瞭解資料採集階段的資料質量控制要素,能夠基於組織的業務特點開展資料質量評估工作。
02實踐指南
組織建設
組織機構需要專門設立一個資料質量管理崗位並招聘一個或多個資料質量管理人員,資料質量管理崗位的相關人員需要為公司建立屬於自己的資料質量管理體系,負責為公司制定統一的資料質量管理規範,推動資料質量管理制度的有效落地,明確責任主體,明確對資料質量進行監督、管理的相關責任人或責任部門。
針對該項工作的相關人員,需要熟悉國家網路安全法律法規以及組織機構所屬行業的政策和監管要求,在進行資料質量管理的過程中嚴格按照《網路安全法》、《資料安全法》等相關國家法律法規和行業規範執行,同時還需要此崗位的相關人員具備良好的資料安全風險意識,瞭解當前行業內資料質量管理的最佳實踐路線,瞭解資料採集階段中的資料質量控制要素,對資料質量管理規範有一致性理解,能夠根據組織機構的實際資料質量管理需求以及組織機構不同業務的特點開展資料質量評估工作。
落地執行性確認
針對資料質量管理崗位人員能力的實際落地執行性確認,可透過內部審計、外部審計等形式以調研訪談、問卷調查、流程觀察、檔案調閱、技術檢測等多種方式實現。
① 真實性:資料必須真實準確的反映客觀的實體存在或真實的業務,是一切管理工作的基礎。資料的真實性取決於資料採集過程的可控程度高,可追溯情況好,資料的真實性容易得到保障,而可控程度低或者無法追溯,資料造假後無法追溯,則真實性難以保證。
② 完整性:資料的完整性是從資料採集到的程度來衡量的,用於度量哪些資料丟失了或者哪些資料不可用
③ 規範性:資料的規範性可用於度量哪些資料未按統一格式儲存。
④ 一致性:資料的一致性可用於度量哪些資料的值在資訊含以上是衝突的。例如,相同的資料有多個副本的情況下的資料不一致,便會存在資料內容衝突的問題。
⑤ 準確性:資料的準確性是指資料採集值或者觀測值和真實值之間的接近程度,資料的準確性由資料的採集方法決定。
⑥ 唯一性:資料的唯一性用於識別和度量重複資料、冗餘資料。重複資料是導致業務無法協同、流程無法追溯的重要因素,也是資料治理需要解決的最基本的資料問題。
⑦ 關聯性:資料的關聯性包括函式關係、相關係數、主外來鍵關係、索引關係等。存在資料關聯性問題,會直接影響資料分析的結果,進而影響管理決策。
⑧ 及時性:資料的及時性是指能否在需要的時候獲到資料,資料的及時性與企業的資料處理速度及效率有直接的關係,是影響業務處理和管理效率的關鍵指標。
2)資料質量校驗
資料質量校驗是指實現資料的完整性和一致性檢查,提升資料質量。
資料質量校驗的的規則如下:
① 關聯性檢查:key值關聯是否存在;
② 行級別:資料量是否一致;
③ 列級別:表結構是否一直,如欄位數量、欄位型別和寬度等是否一致;
④ 內容級別:資料內容是否一致,以及是否資料內容是否缺失。
資料質量校驗可分為三個層次:
① 人工對比:為了檢查資料的正確性,相關負責人員可開啟相關資料庫,對轉換前和轉換後的資料進行直接的對比,發現資料不一致時,通知相關人員進行糾正;
② 程式對比:為了自動化地檢查資料的質量,更好的進行測試對比,可利用程式對轉換前和轉換後的資料進行對比,發現資料不一致時,通知相關人員進行糾正;
③ 統計分析:為了更加全面地從總體上檢查資料的質量,需要透過統計分析的方法,主要透過對新舊資料不同角度、不同檢視的統計對資料轉換的正確程度進行量化的分析,發現其在某個統計結果的不一致性,通知相關人員進行糾正。
資料質量校驗的流程如下:
① 對待校驗的資料來源進行解析,得到資料來源的後設資料;
② 配置檢驗規則,例如資料唯一性校驗、完整性校驗、精度校驗或格式校驗、長度校驗等;
③ 根據資料來源的後設資料對資料來源進行校驗運算,得到校驗結果。
3)資料清洗
資料清洗是指發現並糾正資料檔案中可識別的錯誤的最後一道程式,包括檢查資料的一致性,以及處理無效值和缺失值等。
資料清洗的規則如下:
① 缺失值處理:
a. 根據同一欄位的數字填充,例如均值、中位數、眾數;
b. 根據其他欄位的資料填充,例如透過身份證件號碼取出生日期等;
c. 設定一個全域性變數,例如缺失值用“unknown”等填充;
d. 直接剔除,避免缺失值過多影響結果;
e. 建模法,可以用迴歸、使用貝葉斯形式化方法的基於推理的工具或決策樹歸納確定;
② 重複值處理:
a. 根據主鍵去重,利用工具去除重複記錄的資料;
b. 根據組合去重,編寫一系列的規則,對重複情況複雜的資料進行去重;
③ 異常值處理:
a. 根據同一欄位的資料填充,例如均值、中位數、眾數等;
b. 直接剔除,避免異常值過多影響結果;
c. 設為缺失值,可以按照處理缺失值的方法來處理;
④ 不一致值處理
a. 從根源入手,建立統一的資料體系;
b. 從結果入手,設立中心標準,對不同來源資料進行值域對照;
⑤ 丟失關聯值處理
a. 重新建立關聯。
4)資料質量管理規範
組織開展資料質量管理的過程中應遵循如下基本要求,提高資料質量:
① 設立負責資料質量管理的崗位和人員,負責制定資料質量管理規範以及對資料質量進行管理和監控,資料採集質量管理規範中需包含但不限於資料格式要求、資料完整性要求、資料質量要素、資料來源質量評價標準;
② 對資料質量進行管理時,需要對資料的真實性、完整性、規範性、一致性、準確性、唯一性、關聯性、及時性進行定義和監控;
③ 建立資料採集過程中質量監控規則,明確資料質量監控範圍及監控方式。
④ 設定資料質量校驗和監控方法,例如人工對比、程式對比、統計分析等;
⑤ 設定資料質量異常上報流程和操作規範,並對每個已報告異常的解決狀態保持跟蹤;
⑥ 根據實際情況,設定資料清洗的規則和方法;
5)資料質量管理實施流程
提高資料質量最好的方法是首先根據要分析的目標確定資料希望達到的標準,根據這些標準衡量現有的資料集,然後使用各種提高資料質量的技術和方法,持續不斷地提高資料的質量,以達到預定義的標準,下面介紹一種常用的資料質量管理專案的實施流程。
① 發現資料質量問題,這是實施資料質量管理的第一步;
② 分析與資料質量相關的業務環節;
③ 分析現有資料的資料質量,收集資料質量管理需求;
④ 設計專案使用的技術平臺,這可從軟體應用商購買或自行開發;
⑤ 建立後設資料模型;
⑥ 建立資料質量管理系統架構;
⑦ 評估資料質量管理程式的執行結果;
⑧ 清洗資料;
⑨ 持續監視資料;
資料質量是保證資料應用效果的基礎。衡量資料質量的指標體系有很多,幾個典型的指標有:完整性(資料是否缺失)、規範性(資料是否按照要求的規則儲存)、一致性(資料的值是否存在資訊含義上的衝突)、準確性(資料是否錯誤)、唯一性(資料是否是重複的)、時效性(資料是否按照時間的要求進行上傳)。資料質量是描述資料價值含量的指標,就像鐵礦石的質量,礦石的質量高,則練出來的鋼材就會多;反之,礦石的質量低,不但練出來的鋼材少了,同時也增加了提煉的成本。因此必須要對資料質量進行管理,目前主要透過資料清洗工具進行資料質量核查。
資料清洗工具
所謂資料清洗,其目的是檢測資料集合中存在的不符合規範的資料,並進行資料修復,提高資料質量。針對資料清洗一般是自動完成,只有少數情況下需要人工參與完成,提高資料質量。根據資料常見的缺陷型別,可以把資料清洗方法分為五類:解決空值資料的方法、解決錯誤資料的方法、解決重複資料的方法、解決不一致資料的方法、解決資料不規範的方法。
① 解決空值資料的方法:
進行估算填充。而估算方法又包括樣本均值、中位數、眾數、最大/最小值填充,這種方法在沒有更多資訊參考時可以採用,但是有一定誤差,如果空值數量較多,則會對結果造成影響,使結果偏離實際情況。
② 解決錯誤值資料的方法:
需要用一定方法識別該錯誤值,常用統計方法進行分析,統計工具有很多,例如偏差分析、迴歸方程、正態分佈等,也可以用簡單的規則庫檢查數值範圍,使用屬性間的約束關係來識別和處理資料。
③ 解決重複資料的方法:
如果判斷重複記錄則涉及到實體識別技術。完全相同的記錄即指向相同實體,而對於有一定相似度的資料,有可能指向同一實體,例如對同一資料採用不同的計量單位,需要採用有效的技術診斷識別。而可能存在一種極端的情況,即不相同的兩條記錄,可能反映了同一實體的不同觀測點,清洗時需要進行資料合併。
④ 解決不一致資料的方法:
資料不滿足完整性約束,可以透過分析資料結構,後設資料文件,得到資料之間的關聯關係,並制定同一的標準。
⑤ 解決資料不規範的方法:
不同行業的資料規範要求都不相同,一般來說,我們可以透過自定義的規則來定製化實現不同行業的資料規範性要求。如某個表列中的資料內容為手機號,那我們就可以明確該資料的規範格式要11個數字字元,可以透過相關正規表示式進行實現,從而自動化的對該表列中內容進行實時監控。
受限於篇幅,此處技術工具不進行進一步展開,資料質量管理工具從資料使用角度監控管理資料資產的質量,最終要求資料質量符合相關業務用途和滿足使用者要求,主要流程如下。
資料質量管理工具主要流程
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69973247/viewspace-2724609/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 《資料安全能力成熟度模型》實踐指南02:資料採集管理模型
- 《資料安全能力成熟度模型》實踐指南11:資料分析安全模型
- 《資料安全能力成熟度模型》實踐指南07:儲存介質安全模型
- 《資料安全能力成熟度模型》實踐指南10:資料脫敏模型
- 《資料安全能力成熟度模型》實踐指南05:資料傳輸加密模型加密
- 《資料安全能力成熟度模型》實踐指南01:資料分級分類模型
- 《資料安全能力成熟度模型》實踐指南06:網路可用性管理模型
- 《資料安全能力成熟度模型》實踐指南09:資料備份和恢復模型
- 《資料安全能力成熟度模型》實踐指南08:邏輯儲存安全模型
- 《資料安全能力成熟度模型》實踐指南03:資料來源鑑別及記錄模型
- DCMM(資料管理能力成熟度模型)模型
- 讀資料質量管理:資料可靠性與資料質量問題解決之道04收集與清洗
- 傅一平:資料質量管理的實踐和思考
- 資料庫安全最佳實踐:基本指南資料庫
- 資料治理之資料質量管理
- 資料治理:資料質量管理策略!
- 讀資料質量管理:資料可靠性與資料質量問題解決之道01資料質量
- 中國信通院:資料資產運營能力成熟度模型模型
- 讀資料質量管理:資料可靠性與資料質量問題解決之道14普及資料質量
- B站的資料質量管理——理論大綱與實踐
- 資料質量管理方法
- 談談資料質量管理
- 如何通過資料管理影響資料質量
- 讀資料質量管理:資料可靠性與資料質量問題解決之道15資料信任
- 如何做好資料質量管理
- 讀資料質量管理:資料可靠性與資料質量問題解決之道02資料湖倉
- 讀資料質量管理:資料可靠性與資料質量問題解決之道06資料測試
- 讀資料質量管理:資料可靠性與資料質量問題解決之道10資料平臺
- 讀資料質量管理:資料可靠性與資料質量問題解決之道18資料發現
- 讀資料質量管理:資料可靠性與資料質量問題解決之道19資料未來
- 讀資料質量管理:資料可靠性與資料質量問題解決之道16資料認證
- 讀資料質量管理:資料可靠性與資料質量問題解決之道13資料沿襲
- 讀資料質量管理:資料可靠性與資料質量問題解決之道17資料網格
- 讀資料質量管理:資料可靠性與資料質量問題解決之道03資料目錄
- 資料治理--資料質量
- 讀資料質量管理:資料可靠性與資料質量問題解決之道05資料標準化
- 讀資料質量管理:資料可靠性與資料質量問題解決之道09資料可靠性
- 極光筆記丨資料質量建設實踐筆記