資料質量管理模型

bidwhome發表於2009-04-15
:[@more@]

問題:
目前企業存在多地區,多產品,多業務,多系統的環境,在資料資訊,報表統計,業務分析和業務元定義上存在資料不一致,不完整,不統一以及不真實和不及時的情況,­這樣讓業務人員,管理者,資訊使用者存在誤解,導致決策出現偏差,同時低下的資料質量往往造成開發出來的系統與使用者的預期大相徑庭,而在維護階段,也出現維護成­本不斷上升,工作量加大,系統難以擴充套件


成果:
1:在源資料剖析,資料質量後設資料管理,資料驗證和資料修補上給出指導建議和標準的解決方案
2:源資料剖析系統原型
3:資料驗證引擎系統原型
4:資料修補引擎系統原型
5:資料質量分析報表原型


場景:
1:BI系統或者資料管理系統可以根據資料質量管理模型構建系統或者提供資料管理模型介面
2:能根據產生的質量分析結果監控和改進資料質量
3:用閉環管理的思想指導資料質量改進過程
4:決策者能知道資料的可用性和可信性的程度
5:減輕IT工作者在後期維護的成本和工作量
6:增加資料的驗證體系和修補體系,按優先順序順序完善資料管理制度


思路:
1:確定資料本身的資料質量和源資料的資料模型
2:建立源資料和源資料模型,管理等後設資料
3:定義資料身份,資料粒度和資料生命週期,標註主資料和輔助資料
4:分析源資料質量,對比出資料參照優先順序,資料校驗標準和修補更新標準
5:依據業務規則和資料參照優先順序,確定資料校驗規則
6:依照資料校驗標準和修補更新標準,確立資料修補優先順序和修補標準


這個提案時我提出的,研究成果其實是
1:在源資料剖析,資料質量後設資料管理,資料驗證和資料修補上給出指導建議和標準的解決方案
2:源資料剖析系統原型
3:資料驗證引擎系統原型
4:資料修補引擎系統原型
5:資料質量分析報表原型

在研究這個可提前,我們現需要剖析現有的關於資料質量的方方面面,特別是對資料質量分析前的定義
主要有資料語義的一致性,資料元的完整性,資料體的唯一性,資料描述的準確性四個方面的定義
以此為依據,決定資料質量存在的問題
1:在源資料剖析,資料質量後設資料管理,資料驗證和資料修補上給出指導建議和標準的解決方案
A:源資料剖析的深度和業務層次,來定義資料語義的一致性,將企業相關資料元就行分析,看看各系統間資料的不同部門對資料的定義,這是確定資料含義是否
一致。


2:源資料剖析系統原型
A:原系統的資料剖析是對分析各個原系統的資料儲存的結構,包括表資料,檢視資料,Excel資料等以及計算公式,比較方式,檢視資料方式,都資料剖析
的範圍,這需要一個比較可行的方式,對於資料庫中的內容,需要有相應的匯出完整資料字典的結構過程,能在Excel中修改,也能匯入到制定的表中進行保
存,同時還能定期檢查表結構是否發生變化。


3:資料驗證引擎系統原型
A:這裡的驗證有幾種,資料結構驗證,還有資料一致性,完整性,唯一性和準確性的驗證,每一種驗證就需要建立固定的可變化的驗證規則,而且驗證規則,驗
證體,驗證結構都需要記錄日誌和驗證結果,同時還需要提供介面給UI,最好能做到讓業務人員自己更新驗證規則,自己檢視驗證過程和結果,為資料修補邀請
提供介面


4:資料修補引擎系統原型
A:這個修補邀請就是針對不同型別的資料驗證規則驗證的資料進行更新,有指定規則自動更新的,有人工干預修改的,主要是能有UI介面,提供修改功能和修
改策略,以及記錄修改日誌和標記。便於和正常資料區分


5:資料質量分析報表原型
A:這裡的分析報表,可以利用6Sigma的原理,對資料質量情況進行分析,可以預先制定標準和參考依據,對資料質量進行等級劃分。方便企業制定資料質
量管理制度。




資料質量這個提案我認為是比較清楚,如何提高資料質量,這也是已經構建資料倉儲的企業面臨的重大難題。請有興趣的朋友跟solozhu聯絡,看能不能把這當作t­tnn研究院的第一個專案。
但在成果方面,有一個建議——將質量管理的標準作為最核心的成果,而將關於內部質量處理的東西放在次要地位。


因為對於終端使用者來說,他們關注的問題從粗到細是:
1、如何提高資料的質量?
2、如何衡量資料的質量?
3、如要要求資料流水線各個環節保證質量?



> 資料質量這個提案我認為是比較清楚,如何提高資料質量,這也是已經構建資料倉儲的企業面臨的重大難題。請有興趣的朋友跟solozhu聯絡,看能不能把這當作t­-tnn研究院的第一個專案。
> 但在成果方面,有一個建議----將質量管理的標準作為最核心的成果,而將關於內部質量處理的東西放在次要地位。

> 因為對於終端使用者來說,他們關注的問題從粗到細是:
> 1、如何提高資料的質量?
> 2、如何衡量資料的質量?
> 3、如要要求資料流水線各個環節保證質量?


發件人:terrysong <>

思路不錯,我有幾點建議:
1、資料驗證引擎系統模型,這個是必須要做的,但在實際操作中是否可以提供"修改功能",因為我們是在兩個不同的系統內,對於人工干預的情況,我覺得就
提供髒資料給業務人員就可以了,這屬於系統邊界之外的東西。
2、上面的方案側重於針對業務系統而言的資料質量問題,而忽視了在整個ETL過程中也存在資料質量問題,監控整個ETL流程的資料質量也是至關重要
的。
3、我認為最終是不是可以做一個KPI指標對比的功能,也就是用業務系統中計算出來的指標值和資料倉儲裡計算的指標值來對比,以確保整個資料抽取過程的
完整性和準確性,這點大家可以討論一下。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7600305/viewspace-1020589/,如需轉載,請註明出處,否則將追究法律責任。

相關文章