資料治理:資料質量管理策略!

成就數智企業發表於2023-12-14

資料治理:資料質量管理策略!

作者石秀峰

全文共 6090 個字,建議閱讀 15 分鐘

資料質量管理包含正確定義資料標準,並採用正確的技術、投入合理的資源來管理資料質量。資料質量管理策略和技術的應用是一個比較廣泛的範疇,它可以作用於資料質量管理的事前、事中、事後三個階段。
資料質量管理應秉持預防為主的理念,堅持將“以預控為核心,以滿足業務需求為目標”作為工作的根本出發點和落腳點,加強資料質量管理的事前預防、事中控制、事後補救的各種措施,以實現企業資料質量的持續提升,如下圖所示。
資料治理:資料質量管理策略!
01 資料質量管理策略之事前預防
東漢史學家荀悅在《申鑑·雜言上》中提到對皇帝進獻忠告的三種方法,也稱進忠有三術:“一曰防,二曰救,三曰戒。先其未然謂之防,發而止之謂之救,行而責之謂之戒。防為上,救次之,戒為下。
事前預防即防患於未然,是資料質量管理的上上之策。資料質量管理的事前預防可以從組織人員、標準規範、制度流程三個方面入手。

1、加強組織建設

企業需要建立一種文化,以讓更多的人認識到資料質量的重要性,這離不開組織機制的保障。建立資料質量管理的組織體系,明確角色職責併為每個角色配置適當技能的人員,以及加強對相關人員的培訓和培養,這是保證資料質量的有效方式。
(1)組織角色設定
企業在實施資料質量管理時,應考慮在資料治理整體的組織框架下設定相關的資料質量管理角色,並確定他們在資料質量管理中的職責分工。常見的組織角色及其職責如下。

  • 資料治理委員會:為資料質量定下基調,制定有關資料基礎架構和流程的決策。資料治理委員會定期開會以新的資料質量目標,推動測量並分析各個業務部門內資料質量的狀態。
  • 資料分析師:負責資料問題的根因分析,以便為資料質量解決方案的制定提供決策依據。
  • 資料管理員:負責將資料作為公司資產進行管理,保障資料質量,例如定期資料清理、刪除重複資料或解決其他資料問題。

(2)加強人員培訓
資料不準確的主要原因是人為因素,加強對相關人員的培訓,提升人員的資料質量意識,能夠有效減少資料質量問題的發生。
資料質量管理培訓是一個雙贏的過程。對於員工來說,透過培訓,自己不僅能夠認識到資料質量對業務和管理的重要性,還能學習到資料管理理論、技術、工具等知識和技能,確保上游業務人員知道他們的資料對下游業務和應用程式的影響,讓自己在工作中儘可能不犯錯、少犯錯,提高自己的業務處理效率和質量。對於企業來說,透過培訓,可以使資料標準得到宣貫,提升員工的資料思維和對資料的認識水平,建立起企業的資料文化,以支撐企業資料治理的長治久安。
有關資料治理培訓機制的相關策略在第6章中已經詳細描述過,此處不再贅述。
此外,企業應鼓勵員工參加專業資格認證的培訓,這樣能夠讓相關人員更加系統性地學習資料治理知識體系,提升資料管理的專業能力。

2、落實資料標準

資料標準的有效執行和落地是資料質量管理的必要條件。資料標準包括資料模型標準、主資料和參考資料標準、指標資料標準等。
(1)資料模型標準
資料模型標準數對資料模型中的業務定義、業務規則、資料關係、資料質量規則等進行統一定義,以及透過後設資料管理工具對這些標準和規則進行統一管理。在資料質量管理過程中,可以將這些標準對映到業務流程中,並將資料標準作為資料質量評估的依據,實現資料質量的稽查核驗,使得資料的質量校驗有據可依,有法可循。
(2)主資料和參考資料標準
主資料和參考資料標準包含主資料和參考資料的分類標準、編碼標準、模型標準,它們是主資料和參考資料在各部門、各業務系統之間進行共享的保障。如果主資料和參考資料標準無法有效執行,就會嚴重影響主資料的質量,帶來主資料的不一致、不完整、不唯一等問題,進而影響業務協同和決策支援。
(3)指標資料標準
指標資料是在業務資料基礎上按照一定業務規則加工彙總的資料,指標資料標準主要涵蓋業務屬性、技術屬性、管理屬性三個方面。指標資料標準統一了分析指標的統計口徑、統計維度、計算方法的基礎,不僅是各業務部門共識的基礎,也是資料倉儲、BI專案的主要建設內容,為資料倉儲的資料質量稽查提供依據。

3、制度流程保障

(1)資料質量管理流程
資料質量管理是一個閉環管理流程,包括業務需求定義、資料質量測量、根本原因分析、實施改進方案、控制資料質量,如下圖所示。

資料治理:資料質量管理策略!

① 業務需求定義
筆者的一貫主張是:企業不會為了治理資料而治理資料,背後都是為了實現業務和管理的目標,而資料質量管理的目的就是更好地實現業務的期望。
第一,將企業的業務目標對應到資料質量管理策略和計劃中。
第二,讓業務人員深度參與甚至主導資料質量管理,作為資料主要使用者的業務部門可以更好地定義資料質量引數。
第三,將業務問題定義清楚,這樣才能分析出資料數量問題的根本原因,進而制定出更合理的解決方案。
② 資料質量測量
資料質量測量是圍繞業務需求設計資料評估維度和指標,利用資料質量管理工具完成對相關資料來源的資料質量情況的評估,並根據測量結果歸類資料問題、分析引起資料問題的原因。
第一,資料質量測量以資料質量問題對業務的影響分析為指導,清晰定義出待測量資料的範圍和優先順序等重要引數。
第二,採用自上而下和自下而上相結合的策略識別資料中的異常問題。自上而下的方法是以業務目標為出發點,對待測量的資料來源進行評估和衡量;自下而上的方法是基於資料概要分析,識別資料來源問題並將其對映到對業務目標的潛在影響上。
第三,形成資料治理評估報告,透過該報告清楚列出資料質量的測量結果。
③ 根本原因分析
產生資料質量問題的原因有很多,但是有些原因僅是表象,並不是根本原因。要做好資料質量管理,應抓住影響資料質量的關鍵因素,設定質量管理點或質量控制點,從資料的源頭抓起,從根本上解決資料質量問題。
④ 實施改進方案
沒有一種通用的方案來保證企業每個業務每類資料的準確性和完整性。企業需要結合產生資料問題的根本原因以及資料對業務的影響程度,來定義資料質量規則和資料質量指標,形成一個符合企業業務需求的、獨一無二的資料質量改進方案,並立即付諸行動。
⑤ 控制資料質量
資料質量控制是在企業的資料環境中設定一道資料質量“防火牆”,以預防不良資料的產生。資料質量“防火牆”就是根據資料問題的根因分析和問題處理策略,在發生資料問題的入口設定的資料問題測量和監控程式,在資料環境的源頭或者上游進行的資料問題防治,從而避免不良資料向下遊傳播並汙染後續的儲存,進而影響業務。
(2)資料質量管理制度
資料質量管理制度設定考核KPI,透過專項考核計分的方式對企業各業務域、各部門的資料質量管理情況進行評估。以資料質量的評估結果為依據,將問題資料歸結到相應的分類,並按所在分類的權值進行量化。總結髮生資料質量問題的規律,利用資料質量管理工具定期對資料質量進行監控和測量,及時發現存在的資料質量問題,並督促落實改正。
資料質量管理制度的作用在於約束各方加強資料質量意識,督促各方在日常工作中重視資料質量,在發現問題時能夠追根溯源、主動解決。 
02 資料質量管理策略之事中控制
資料質量管理的事中控制是指在資料的維護和使用過程中監控和管理資料質量。透過建立資料質量的流程化控制體系,對資料的建立、變更、採集、清洗、轉換、裝載、分析等各個環節的資料質量進行控制。
資料治理:資料質量管理策略!

1、加強資料來源頭的控制

“問渠那得清如許,為有源頭活水來。”瞭解資料的來源對於企業的資料質量至關重要,從資料的源頭控制好資料質量,讓資料“規範化輸入、標準化輸出”是解決企業資料質量問題的關鍵所在。企業可以考慮從以下幾個方面做好源頭資料質量的管理。
(1)維護好資料字典
資料字典是記錄標準資料、確保資料質量的重要工具。資料會隨著時間累積,如果資料積累在電子表格等非正式資料系統中,那麼這些寶貴的資料就可能會存在一定的風險,例如可能會隨著關鍵員工的離職而丟失。透過建立企業級資料字典對企業的關鍵資料進行有效標識,並清晰、準確地對每個資料元素進行定義,可以消除不同部門、不同人員對資料可能的誤解,並讓企業在IT專案上節省大量時間和成本。
(2)自動化資料輸入
資料質量差的一個根本原因是人為因素,手動輸入資料,很難避免資料錯誤。因此,企業應該考慮自動化輸入資料,以減少人為錯誤。一個方案,只要系統可以自動執行某些操作就值得實施,例如,根據關鍵字自動匹配客戶資訊並自動帶入表單。
(3)自動化資料校驗
對於疾病,預防比治療更容易,資料治理也一樣。我們可以透過預設的資料質量規則對輸入的資料進行自動化校驗,對於不符合質量規則的資料進行提醒或拒絕儲存。資料質量校驗規則包括但不限於以下幾類。

  • 資料型別正確性:數字、整數、文字、日期、參照、附件等。

  • 資料去重校驗:完全重複的資料項、疑似重複的資料項等。

  • 資料域值範圍:最大值、最小值、可接受的值、不可接受的值。

  • 資料分類規則:用來確定資料屬於某個分類的規則,確保正確歸類。

  • 單位是否正確:確保使用正確的計量單位。


(4)人工干預稽核
資料質量稽核是從源頭上控制資料質量的重要手段,採用流程驅動的資料管理模式,控制資料的新增和變更,每個操作都需要人工進行稽核,只有稽核透過資料才能生效。例如:供應商主資料發生新增或變更,就可以採用人工稽核的方式來控制資料質量。

2、加強流轉過程的控制

資料質量問題不止發生在源頭,如果以終端使用者為終點,那麼資料採集、儲存、傳輸、處理、分析中的每一個環節都有可能出現資料質量問題。所以,要對資料全生命週期中的各個過程都做好資料質量的全面預防。資料流轉過程的質量控制策略如下。
(1)資料採集
在資料採集階段,可採用以下質量控制策略:

  • 明確資料採集需求並形成確認單;
  • 資料採集過程和模型的標準化;
  • 資料來源提供準確、及時、完整的資料;
  • 將資料的新增和更改以訊息的方式及時廣播到其他應用程式;
  • 確保資料採集的詳細程度或粒度滿足業務的需要;
  • 定義採集資料的每個資料元的可接受值域範圍;
  • 確保資料採集工具、採集方法、採集流程已透過驗證。

(2)資料儲存

在資料儲存階段,可採用以下質量控制策略:

  • 選擇適當的資料庫系統,設計合理的資料表;
  • 將資料以適當的顆粒度進行儲存;
  • 建立適當的資料保留時間表;
  • 建立適當的資料所有權和查詢許可權;
  • 明確訪問和查詢資料的準則和方法。

(3)資料傳輸
在資料傳輸階段,可採用以下質量控制策略:

  • 明確資料傳輸邊界或資料傳輸限制;
  • 保證資料傳輸的及時性、完整性、安全性;
  • 保證資料傳輸過程的可靠性,確保傳輸過程資料不會被篡改;
  • 明確資料傳輸技術和工具對資料質量的影響。

(4)資料處理
在資料處理階段,可採用以下質量控制策略:

  • 合理處理資料,確保資料處理符合業務目標;
  • 重複值的處理;
  • 缺失值的處理;
  • 異常值的處理;
  • 不一致資料的處理。

(5)資料分析

  • 確保資料分析的演算法、公式和分析系統有效且準確;
  • 確保要分析的資料完整且有效;
  • 在可重現的情況下分析資料;
  • 基於適當的顆粒度分析資料;
  • 顯示適當的資料比較和關係。
  • 事中控制的相關策略

03 資料質量管理之事後補救

是不是做好了事前預防和事中控制就不會再有資料質量問題發生了?答案顯然是否定的。事實上,不論我們採取了多少預防措施、進行了多麼嚴格的過程控制,資料問題總是還有 “漏網之魚”。你會發現只要是人為干預的過程,總會存在資料質量問題,即使拋開人為因素,資料質量問題也無法避免。為了儘可能減少資料質量問題,減輕資料質量問題對業務的影響,我們需要及時發現它並採取相應的補救措施。

1、定期質量監控

定期質量監控也叫定期資料測量,是對某些非關鍵性資料和不適合持續測量的資料定期重新評估,為資料所處狀態符合預期提供一定程度的保證。
定期監控資料的狀況,為資料在某種程度上符合預期提供保障,發現資料質量問題及資料質量問題的變化,從而制定有效的改進措施。定期質量監控就像人們定期體檢一樣,定期檢查身體的健康狀態,當某次體檢資料發生明顯變化時,醫生就會知道有哪些資料出現異常,並根據這些異常資料採取適當的治療措施。
對於資料也一樣,需要定期對企業資料治理進行全面“體檢”,找到問題的“病因”,以實現資料質量的持續提升。

2、資料問題補救

儘管資料質量控制可以在很大程度上起到控制和預防不良資料發生的作用,但事實上,再嚴格的質量控制也無法做到100%的資料問題防治,甚至過於嚴格的資料質量控制還會引起其他資料問題。因此,企業需要不時進行主動的資料清理和補救措施,以糾正現有的資料問題。
(1)清理重複資料
對經資料質量檢核檢查出的重複資料進行人工或自動處理,處理的方法有刪除或合併。例如:對於兩條完全相同的重複記錄,刪除其中一條;如果重複的記錄不完全相同,則將兩條記錄合併為一條,或者只保留相對完整、準確的那條。
(2)清理派生資料
派生資料是由其他資料派生出來的資料,例如:“利潤率”就是在“利潤”的基礎上計算得出的,它就是派生資料。而一般情況下,儲存派生出的資料是多餘的,不僅會增加儲存和維護成本,而且會增大資料出錯的風險。如果由於某種原因,利潤率的計算方式發生了變化,那麼必須重新計算該值,這就會增加發生錯誤的機會。因此,需要對派生資料進行清理,可以儲存其相關演算法和公式,而不是結果。
(3)缺失值處理
處理缺失值的策略是對缺失值進行插補修復,有兩種方式:人工插補和自動插補。對於“小資料”的資料缺失值,一般採用人工插補的方式,例如主資料的完整性治理。而對於大資料的資料缺失值問題,一般採用自動插補的方式進行修復。自動插補主要有三種方式:

  • 利用上下文插值修復;

  • 採用平均值、最大值或最小值修復;

  • 採用預設值修復。

當然,最為有效的方法是採用相近或相似數值進行插補,例如利用機器學習演算法找到相似值進行插補修復。
(4)異常值處理
異常值處理的核心是找到異常值。異常值的檢測方法有很多,大多要用到以下機器學習技術:

  • 基於統計的異常檢測;

  • 基於距離的異常檢測;

  • 基於密度的異常檢測;

  • 基於聚類的異常檢測。

以上涉及的機器學習演算法不在本書的討論範圍之內,有興趣的讀者可以參考相關的機器學習圖書。

3、持續改進最佳化

資料質量管理是個持續的良性迴圈,不斷進行測量、分析、探查和改進可全面改善企業的資訊質量。透過對資料質量管理策略的不斷最佳化和改進,從對於資料問題甚至緊急的資料故障只能被動做出反應,過渡到主動預防和控制資料缺陷的發生。
經過資料質量測量、資料問題根因分析以及資料質量問題修復,我們可以回過頭來評估資料模型設計是否合理,是否還有最佳化和提升的空間,資料的新增、變更、採集、儲存、傳輸、處理、分析各個過程是否規範,預置的質量規則和閾值是否合理。如果模型和流程存在不合理的地方或可最佳化的空間,那麼就實施這些最佳化。
事後補救始終不是資料質量管理的最理想方式,建議堅持以預防為主的原則開展資料質量管理,並透過持續的資料質量測量和探查,不斷發現問題,改進方法,提升質量。
寫在最後的話
資料質量影響的不僅是資訊化建設的成敗,更是影響企業業務協同、管理創新、決策支援的核心要素。對於資料質量的管理,堅持“垃圾進,垃圾出”的總體思想,堅持“事前預防、事中控制、事後補救”的資料質量管理策略,持續提升企業資料質量水平。
儘管可能沒有一種真正的萬無一失的方法來防止所有資料質量問題,但是使資料質量成為企業資料環境“DNA”的一部分將在很大程度上能夠獲得業務使用者和領導的信任。
注:本文摘自《一本書講透資料治理 戰略、方法、工具與實踐》機械工業出版社。這本書參考了國內外資料治理理論體系,基於筆者15資料工作經驗和實踐基礎,並花費了2年的時間不斷打磨而成。一經出版,便獲得了業內專家和企業的高度認可,成為了很多企業資料治理內部必學書籍,獲得了機械工業出版社優秀作者等多項殊榮。在此,感謝各位讀者的關注和認可!在新年伊始之際,我祝所有的讀者朋友,在2023新的一年裡都身體健康、萬事順遂、皆得所願!

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024923/viewspace-2930579/,如需轉載,請註明出處,否則將追究法律責任。

相關文章