資料管控背景
資料管控是在做大資料平臺包括傳統BI都需要做的工作,資料從各個源過來,我們都要進行資料質量的管理,也就是我們常說的資料治理。那麼在資料倉儲建設的時候如何進行資料管控呢?
管控手段包括對資料質量、資料生命週期、資料標準、後設資料四方面的管控。
管控手段
資料質量
不管是做資料倉儲建設還是做資料分析,一致和準確的資料是資料模型與決策分析的基礎。在實際生產環境中,我們從不同的系統抽取資料到大資料平臺,那麼我們就要提供一套資料監控機制,對資料質量進行監控。良好的、高質量的資料可以有效降低系統建設成本。
資料標準
保證標準命名、編碼、業務解釋等內容的唯一性。只有建立相應的標準,同時加強業務的標準化工作,規範重點業務內容,強化業務管理。並在實時過程中加強現有資料的互動性,支撐統一的業務管理,只用建立的資料標準,才能推動主資料系統的建設,完成重點資料的統一管理,為後期資料模型完全共享打下堅實的基礎。
同時在資料質量監控的同時,我們會不斷完善資料標準,以適應企業內部多變的系統環境,從而形成良性迴圈。
資料生命週期
隨著企業業務的增長,越來越多的資料匯入大資料平臺,同時在建設資料倉儲的時候,我們還進行了資料分層管理,資料會存在多份共存情況,那麼此時我們就要做資料生命週期管理,對不必須儲存的資料,進行冷資料管理。控制資料的生命週期,一方面可以減低成本、簡化管理,同時也為我們叢集騰出了資源,提高了系統效能,儘可能滿足現有業務的高效執行。另外,在做資料生命週期管理的同事要注意一些風險,比如法規,對於很多網際網路、銀行、電信、車聯網等企業,相關部門會提出原始資料必須保持多長時間的要求。在制定資料生命週期管理時,一定要注意!
後設資料
之前寫過一篇文章介紹過資料倉儲的後設資料《資料倉儲後設資料》。後設資料就是對一些業務術語、標準等的統一定義、管理。對各種資料流介面的統一管理。同時在構建資料模型的時候,通過後設資料我們可以進行血緣分析等。
總結
通過上面我們介紹的管控手段的幾個要點,那麼在實施過程中是否能夠成功呢?大概率不會,因為團隊總會有那麼幾個人嫌規範太繁瑣,不按套路出牌,所以建立一些標準的基礎上,在實施過程中我們還有建立一些規章制度,來幫助我們的規劃落地,比如和員工績效掛鉤、或者制定一些流程管控、增加上線稽核機制等。
只有管控好資料,才能更好的保證資料倉儲的成功實施。