資料治理之後設資料管理實踐

EAWorld發表於2020-04-06

資料治理之後設資料管理實踐

轉載本文需註明出處:微信公眾號EAWorld,違者必究。

引言:

數字轉型對不同的人意味著不同的東西,這取決於你的行業和你的業務性質。然而,所有的解釋都有一個共同的主線,資料和資料治理的重要性。近年來,大家都在談論資料逐步或已經成為企業的核心資產,資料驅動企業業務開展已經在不同的行業和企業中發揮著巨大的作用,那麼作為企業的核心資產資料,如何進行管理是不同企業在進行全面數字化轉型需要考慮的一個重要事情。

關於後設資料概念的文章網上有不少,本文主要探討一般的企業如何開展後設資料管理工作。這裡分享兩個主題後設資料是什麼、如何實現後設資料管理。

後設資料是什麼

後設資料最簡單的定義是描述資料的資料。這裡有兩個關鍵點,一個是資料,一個是描述資料。企業中一般的可進行管理的資料如下表:

資料治理之後設資料管理實踐

和後設資料管理相關的另一個重要概念是元模型要實現企業後設資料管理,需要定義一個符合儲存企業資料現狀的後設資料模型,且這個模型有不同粒度和層次的元模型,有了層次和粒度的劃分,未來後設資料進行批量管理後就可以靈活的從不同維度進行後設資料分析,如企業的資料地圖、資料血統都是基於此實現的。


資料治理之後設資料管理實踐

我們試著把企業找中的技術後設資料、業務後設資料、操作後設資料、管理後設資料進行元模型的梳理,如下圖所示:

資料治理之後設資料管理實踐


將以上梳理出的資訊通過UML建模處理就得到了元模型,在元模型中有包、類、屬性、繼承、關係。建立元模型的時候也可以參考CWM,CWM定義了一套完整的元模型體系結構,但它是用於資料倉儲構建和應用的後設資料建模。

如何實現後設資料管理

下面分析下企業的後設資料如何管理,從後設資料管理什麼、後設資料怎麼管理、後設資料管理的難點、後設資料管理的實踐這四個方面描述。

一、後設資料管理什麼

從多年的實施經驗看,國內企業進行後設資料管理的方向有三個,一個是基於資料平臺進行後設資料管理,由於大資料平臺的興起,目前逐步開始針對Hadoop環境進行後設資料管理;二是基於企業資料整體管理規劃開展對後設資料的管理,也是企業資料資產管理的基礎;三是後設資料作為某個平臺的元件進行此平臺特有的後設資料管理,它作為一箇中介或中轉互通平臺各元件間的資料。

基於資料平臺的後設資料管理相對成熟,也是業界最早進行後設資料管理的切入點或者說是資料平臺建設的必備。

在此業務場景下,從技術維度講:後設資料管理圍繞著資料平臺內的源系統、資料平臺、資料集市、資料應用中,資料模型,資料庫、表、欄位、報表(指標儲存欄位)、欄位和欄位間的資料關係進行管理。從業務維度講:管理指標的定義包括指標的業務維度,技術維度和管理維度三方面的資料、欄位的中文描述、表的加工策略、表的生命週期資訊、表或欄位的安全等級。從應用維度講:實現資料平臺模型變更管理、變更影響分析、資料血統分析、高階資料地圖、排程作業異常影響範圍。

企業級資料管理,在企業整體資料管理背景下的後設資料管理是資料管理的基礎,除了要管理在資料平臺後設資料管理場景下的所有後設資料外,核心是要解決後設資料管理和資料標準、資料質量、資料安全、資料生命週期、資料服務的貫通問題,進行資料描述層面的資訊融合。在此場景下,後設資料管理的著力點是欄位或資訊項,其他的管理維度或資訊都可以基於欄位或資訊項進行擴充套件或外延。企業級的資料管理涉及的內容很多,但基於欄位或資訊項的擴充套件其結構是穩定的,它是一個支點。否則在紛繁複雜的資料管理業務中會迷茫和痛苦。下圖是基於資訊項的各管理物件間資料關係,示例的說明了基於欄位或資訊項為管理核心和外延的定位。

資料治理之後設資料管理實踐


最後是基於某個大型的平臺的後設資料管理,這種場景出現在應用型的產品架構中,一般企業資料管理中不會涉及這個問題,這裡就不展開介紹了。

二、後設資料怎麼管理

後設資料管理要符合企業資料現狀,要能支撐企業資料人員分析資料的需要,後設資料是企業資料資產的最原始詞典,我們需要從這本詞典中獲取到準確的資料資訊,準確、便捷、深度、廣度是後設資料管理努力的方向。

要實現企業後設資料管理需從兩個方面考慮,一是盤點企業資料情況,搞清楚要管理哪些後設資料以及這些後設資料在什麼地方,以何種形態儲存,他們之間有有著怎樣的聯絡。二是建模,這裡的建模是建立後設資料的模型及元模型,要抽象出企業的元模型,建立個元模型之間的邏輯關係。總結的講盤點企業資料資產和建立企業元模型是後設資料管理的兩個基本步驟。下面我們展開的講一下這兩點:

企業資料資產盤點,首先要把後設資料建設的定位定義清楚,短期解決什麼問題,長期達到什麼目的,基於短期目標要重點細化。舉個例子要實現企業物理模型的全面管理,實現資料結構變更一體化管理這個短期目標,那麼就需要盤點企業有多少應用系統,每個應用系統有多少個資料庫,資料庫的種類有什麼,哪些是業務資料表,哪些是垃圾資料表,每個資料欄位的含義是否完整,每個系統那個業務部門使用,哪些管理員進行運維,企業的資料變更是否有流程驅動等。將以上資訊分為兩大類,一類是資料模型本身的後設資料資訊,一類是支撐資料模型管理的後設資料資訊,這兩類資訊都是需要盤點的內容。

後設資料建模,後設資料建模是對企業要管理的後設資料進行結構化、模型化。元模型的構建要一般要參考公共倉庫元模型CWM,但也不能照搬CWM,否則構建的元模型太過臃腫,不夠靈活。在構建元模型過程中不但要關心模型的結構更要關係模型間的關係,每個模型在後設資料的世界裡是一個獨立的個體,個體和個體之間的關係賦予了模型間錯綜複雜的關係圈,這些關係的建立往後衍生會支撐資料圖譜或知識圖譜的構建。再拿資料資產盤點的例子來講,我們要建立資料庫元模型、表元模型、欄位元模型、管理員元模型,其中庫-表-欄位是通過組合關係來構建的,而表-表、欄位-欄位是通過依賴關係來構建的。通過這樣的關係構建就能將企業中的所有有互動的資料形成一個錯綜複雜龐大的資料關係網路,資料分析人員就可以基於這張網路進行各種資訊的挖掘。

三、後設資料管理中的難點

後設資料管理是大資料平臺建設的重要組成部分,是企業實現資料資產,資產服務化的重要基礎,在資料管理大環境下和資料安全、資料質量、資料架構、資料模型等有著千絲萬縷的關係。也是是業務和技術互通的橋樑。因此後設資料建設的好壞會對企業整體資料以及管理帶來重要的影響。

後設資料管理的難點,個人認為有三個點。

首先是後設資料識別,要確定要管理哪些後設資料,按後設資料的定義來看只要能描述資料的資料都能作為後設資料進行管理,但從價值角度講一定要找到對資料業務、資料運維、資料運營、資料創新帶來幫助的後設資料進行管理,避免眉毛鼻子一把抓。一般企業後設資料建設都是圍繞資料集中的資料平臺進行全鏈路的源、資料平臺、分析系統的後設資料資料管理,圍繞這條主線,進一步管理業務後設資料和操作後設資料。在建設過程中要圍繞本企業資料管理問題域進行虛實結合的建設。

其次是元模型的構建,元模型其核心結構要穩定,因為後設資料的建設不是一蹴而就的,需要慢慢的積累和演變,因此儲存後設資料的元模型結構一定要進行抽象出穩定的結構,比如:針對關係抽象出組合關係和依賴關係、針對模型要抽象出每一型別後設資料父類或基類以方便其靈活擴充套件。

最後是後設資料間的關係,從後設資料應用的角度來看,光分析後設資料的結構對資料分析人員和資料應用的價值還不是那麼的突出。後設資料管理的價值主要在其關係的豐富程度,舉個不恰當的例子,猶如一個人如果其社會關係足夠的豐富,那麼其處理各種事情就遊刃有餘,後設資料也類似資料分析和應用一定是從其關係中探尋出資料的價值進而指導業務或進行資料創新。從長期的實踐中發現,基於資訊項或欄位的後設資料關係構建是最穩定的。

四、後設資料管理最佳實踐

下面從多年的實踐角度談一談後設資料管理:

謀定而後動,後設資料管理是一盤棋,需要進行管理設計,如基於規範和制度的設計,元模型的設計、實施的設計,推廣的設計,每一環節想一想再動。

選好價值點,後設資料管理是紛繁複雜的,它是對企業資料現狀的一種抽象、整合和展現,其管理是複雜和不容易的,其價值有可能是隱形的、不容易察覺的,它是一項承上啟下,貫通業務和技術的基礎性管理工作,因此選好不同時期其管理的價值點,逐步影響企業的方方面面。

選好工具,後設資料管理可藉助管理工具使管理工作變的相對快速和簡單一些,如後設資料的採集、後設資料儲存、資料血統、資料地圖、後設資料整合等都可以通過後設資料工具來實現。

資料治理之後設資料管理實踐

關於作者王鵬,現任普元大資料產品線總經理,2009年進入國內資料治理領域,先後主導或參與金融、運營商、製造、政府、航空,物流等行業的資料治理解決方案的編寫,以及相關落地專案的實施。

關於EAWorld:微服務,DevOps,資料治理,移動架構原創技術分享。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562043/viewspace-2675935/,如需轉載,請註明出處,否則將追究法律責任。

相關文章