一文讀懂如何實施資料治理?

danny_2018發表於2022-09-23

大資料時代的到來,讓政府、企業看到了資料資產的價值,快速開始探索應用場景和商業模式、建設技術平臺。這無可厚非。但是,如果在大資料拼圖中遺忘了資料治理,那麼做再多的業務和技術投入也是徒勞的,因為很經典的一句話:Garbage in ,Garbage out,資料質量沒有保證。而保證資料質量,資料治理是必須的手段。

資料治理這個話題看似陽春白雪高大上,實際上是非常下里巴人接地氣,或者說必須要頂天立地才能見實效。頂天是指,與資訊化類似,資料治理也是一把手工程,沒有高層推動、在業務與業務間、業務與技術間協調,資料治理無法落地;立地是指:一般是IT人員對資料問題有深刻體會,也是IT人員最先意識到資料治理的重要性,而且資料治理最終是在IT層面落地的。

一、資料治理相關概念

1.1 資料分類

言歸正傳,首先是基本概念部分,既然談到資料,首先要看一下資料的分類。其實筆者有點擔心提到“分類”這個詞,因為每個人、每個角色分類的視角都是不同的,各有道理。

這裡所提的資料分類,是指在企業資訊化領域做資料治理通常的分類方式。有其他方式也歡迎提出來大家一起探討。我們通常將資料分為:主資料、交易資料、參考資料、後設資料和統計分析資料(指標)。上一張圖來說明:

為什麼要談資料分類,因為對每類資料進行治理時,關注點、方法和效果都不同,需要區別對待。下面談一點筆者個人的理解:

主資料關注的是“人”和“物”,主資料管理(MDM)是資料治理領域一個專門的話題,其主要目的是對關鍵業務實體(如員工、客戶、產品、供應商等)建立統一檢視,讓客觀世界裡本是同一個人或物,在資料世界裡也能做到唯一識別,而不是在不同系統、不同業務中成為不同的人或物。主資料管理在各行業企業已經有大量的實踐,受限於時間,今天不單獨展開,其核心管理思想是和後面要談的資料治理方法一脈相承的。

交易資料關注的是“事”,交易資料沒有形成單獨的資料治理領域,由於交易資料是BI分析的基礎,因此往往在資料質量管理中重點關注;

參考資料是更細粒度的資料,是對“人”“事”“物”的某些屬性進行規範性描述的,對參考資料的管理一般會與主資料管理同時進行,或與BI資料質量管理同時進行,因為指標維度和維值直接影響到BI資料質量;

後設資料是一個包羅永珍的概念,其本質是為資料提供描述,所以任何資料都有後設資料。資料治理領域的後設資料,更多是指BI、資料倉儲這個範疇內的後設資料(國際上有Common Warehouse Meta-model規範),此外還有資訊資源管理的後設資料(如Dublin core協議)、地理資訊後設資料、氣象後設資料等等。正因為如此廣泛,也造成了從業者對其有極高的預期以及實踐後的極大失落。

多說兩句後設資料:筆者從事過4年左右後設資料管理的產品設計和方案規劃,但現在極少談“後設資料”,而是談“資料定義”,談資料必談定義,但卻又不將其作為專門一類資料來管理,在資料治理領域單獨做後設資料管理,收效甚微。

主要原因有兩點:

資料生產與資料管理脫節,後設資料管理更多是在資料生產的事後進行後設資料收集和應用展現,對資料生產起到的管控作用極小。

工具自身問題:雖然很多工具都號稱支援CWM規範,但後設資料自動獲取始終是技術難題,而且對於儲存過程、自定義指令碼很難自動解析和獲取,就無法準確、完整展現細節的資料處理過程。

統計分析資料(指標),無需多言,目前BI系統建設的主要作用就是做各種指標和報表的計算和展示。指標往往是資料治理的重點,指標的資料流分析、指標數值的波動性、平衡性監控,幾乎是各個企業做資料治理的必備應用。

1.2資料治理

談完資料分類,再來談“什麼是資料治理”。資料治理的英文是DataGovernance,不同軟體廠商和諮詢公司給出的定義也會有所不同,但本質都是相似的。

這裡引用《DAMA 資料管理知識體系指南》一書給出的定義:資料治理是對資料資產管理行使權力和控制的活動集合(規劃、監控和執行)。資料治理職能指導其他資料管理職能如何執行。可能有些抽象,有圖有真相,下面這張圖說明了資料治理與其他幾個資料管理職能的關係:

可以看到資料治理貫穿在資料管理的整個過程中,重點關注的是有關資料的戰略、組織、制度等高層次的話題,並透過制定和推行戰略、組織、制度,將其他幾個資料管理職能貫穿、協同在一起,讓企業的資料工作能夠成為一個有機的整體而不是各自為政。

有關DataGovernance的中文翻譯,國內最常見的翻法有兩種:資料治理、資料管控。國內客戶似乎更喜歡資料管控,因為這個詞有力度、體現權威。筆者從實踐層面的體會:治理與管控缺一不可,治理在前、管控在後,治理針對的是存量資料,是個由亂到治、建章立制的過程,而管控針對的是增量資料,實現的是執法必嚴、行不逾矩的約束。

為什麼要做資料治理?下面是一份國際資料質量協會的調研結果可以參考。

從理論上來講資料治理主要是三個目的:保證資料的可用性、資料質量和資料安全。而在實踐層面,國內外談到資料治理,其主要目的都是資料質量,對於資料安全,往往是有專門的團隊和管理舉措,從資料治理領域涉及的較少。我們下面的討論也繼承這種習慣,主要探討資料質量這個目標。

概念探討先告一段落,後面在探討方法和實踐的時候,會反過來對概念有更好的理解。

二、資料治理的方法

在方法部分,主要講三個內容:誰負責資料治理?治理或者管控物件是什麼?技術工具有哪些?

2.1組織架構

首先來談誰負責資料治理,也就是組織架構,先上一張圖。

從理論和國外實踐來看,大型企業會建立企業級資料治理委員會,有業務部門領導、IT部門領導共同參與,讓業務與業務之間、業務與技術之間能夠有更充分的討論溝通,從而對宏觀的資料戰略、制度達成共識。在企業級之下,還可以有部門級、專案級的委員會,負責某些區域性的資料治理,在最基層面向某一個業務領域應該有相應的資料管理專員(DataSteward)。

Steward實際上是管家的意思,但翻譯成管家似乎不夠嚴肅,因此採用了“專員”。Steward一詞與Owner相對應,說的是雖然資產不是歸Steward所有,但是他們替Owner代管,由此也衍生出Stewardship一詞,表明代管、託管制度,這裡面蘊含了一種兢兢業業、克己奉公的管家精神,何其難得!資料治理委員會、資料管理專員會制定出一系列資料相關的標準和制度,由資料管理服務組織(DMSO)去執行。從圖中可以看到,DMSO實際上是資訊化建設團隊,他們負責資料倉儲、資料整合等技術平臺建設。

上面談的是理論和國外,在國內的情況剛好相反,DMSO是主力軍,因為大家普遍“重功能、輕資料,重技術、輕管理”,絕大部分企業是缺失左側的委員會等管理角色的。據筆者的經驗,國內大型銀行在這方面做得相對領先,企業級資料治理委員會或者專職的部門去推動資料治理;能源行業對資料治理的接觸和認同程度比較高,開展了不少資料治理專案,特別是在主資料管理方面。

運營商更重視技術手段,資料治理體制機制有待建設、健全。整體而言,國內在企業層面成立資料治理委員會的不多,更多是將資料治理的工作放在“企業資訊化領導小組”推動,由資訊部門負責具體落實執行。而有些企業雖然資訊化水平很高,但資訊化建設未實現資訊部門的歸口管理,這對資料治理的推行帶來了極大挑戰,跨部門、跨系統的協同異常艱難。

2.2 治理/管控物件

這個部分主要是筆者個人實踐經驗的總結,可能和國外的一些理論不一樣。個人總結為“內容管控”和“過程管控”。此處用了管控一詞,體現一些管理的“力道”。

2.2.1內容管控

先說內容管控,資料在資訊系統中是以不同形態體現的,需要將每種形態管理好,才有可能管好最終的資料質量。上一張圖來說明:

從宏觀到微觀,資料的形態體現為資料架構、資料標準和資料質量標準。

資料架構,包括了資料模型(概念模型、邏輯模型)以及資料的流轉關係,一般在企業級和系統級會談資料架構,主要對企業資料的分類、分佈和流轉進行規劃、設計,確保新建系統、新建應用能夠與現有系統保持一致和融合,避免產生資訊孤島,或者帶來重複不必要的資料整合、資料轉換。

資料標準,包括了資料項、參考資料、指標等不同形式的標準。舉例來說,“客戶型別”是一個資料項,應該有統一的業務含義,將客戶歸類為大客戶、一般客戶的規則是什麼,資料項的取值是幾位長度,有哪些有效值(如01,02,03)等。這方面有國際標準可以參考,如ISO11179,國內很多行業也制定了行業資料標準,如電子政務資料元、金融行業統計資料元等等。共同的問題是,標準定義出來之後,執行的情況怎麼樣?是否真正落實到IT系統了?

資料質量標準,包括資料質量規則以及稽核模型(即規則的組合應用)。資料質量規則一般會關注及時性、準確性、完整性、一致性、唯一性等,展開來談還有許多內容,有的專家整理出12個資料質量維度,有定性的也有定量的。

IT部門應該牽頭制定並且定期更新企業級的資料架構、資料標準和資料質量標準,作為新建系統和應用的指導約束。值得注意的是,在標準制定的過程中,要避免IT部門的閉門造車,一定要讓業務部門充分參與進來。

舉一個例子,筆者個人作為技術人員參與一次資料架構的規劃,需要設計資料的流轉關係。筆者發現從技術角度看,資料從哪流向哪裡似乎都是合理的,也都可以有相應的工具去支撐,似乎沒有什麼可以決策的依據。其實,這時就應該有業務的參與,因為業務職能、業務流程和業務部門間的職能邊界劃分,直接決定了資料來源和去向,IT部門更多是從技術層面考慮具體實現方案。

2.2.2過程管控

這裡談的過程,是指資訊系統建設過程。因為經過大量的實踐我們發現,資料質量不佳主要原因之一是在資訊系統建設的過程中忽視了對資料的管控,這就會造成資料的設計與需求不一致,開發與設計不一致,對資料質量要求考慮缺失,不同系統對資料的定義和技術實現不一致等等諸多問題。等待系統上線後再去解決這些問題,亡羊補牢,消耗資源。

其實,資料管理甚至IT行業都應該虛心向傳統行業學習管理理念。比如製造業的質量管理是在產品生產線各個環節進行質量管控,有些理念也很有啟發:QualityBy Design,質量是設計出來的,不是檢查出來的;Quality check is a cost not benefit,質量檢查是成本而非收益。

筆者公司最近完成了對工廠化的資料生產和管理模式的探索和初步實踐,執行效率、開發維護效率和資料質量都有顯著提升,找機會再分享,提供一張效果圖有些感性認識。

下面是過程管控的示意圖:

這張圖的內容比較豐富,其核心內容是將“內容管控”中形成的各項標準規範注入到透過資訊系統建設的生命週期中,透過對系統建設各個階段交付物的管控確保標準規範得到遵從,從而保障資料的標準化和規範化。

過程管控一方面依靠開發管理中的評審機制去落實,另一方面就是靠工具去固化一些標準和規範,做到自動化檢查。在系統上線常態執行階段,注重新的資料需求和資料問題的收集和處理,對標準規範進行最佳化。

在資訊化早期階段ERP、CRM等操作型系統的建設是以功能和流程為中心,而後期BI、資料倉儲、大資料平臺等資料分析平臺的建設是以資料為中心的,這就註定一些傳統方式需要改變,應該更加註重對資料架構、資料標準、資料質量的管控,更加關注資料的生命週期,否則資料分析平臺建設成功的機率不高。

2.2.3技術工具

下面簡單談談技術工具。先上一張圖,這是國外對資料治理關鍵技術的調研結論。

可以看到後設資料、主資料、資料質量是主要的技術手段。具體的產品功能不是今天要探討的話題,筆者主要想談一談技術工具在資料治理工作中的定位。與ERP遇到的情況非常類似,國內的客戶往往寄望於上一套技術工具就能包治百病的解決資料問題、提升資料質量。

而實際情況是,如果前面所說的組織架構、內容管控、過程管控等管理機制、技術標準不到位,僅僅上一套軟體工具,起不到任何效果。以上軟體工具的作用又是什麼呢?核心作用在於知識的固化和提高資料治理人員的工作效率。

比如,需要手工編寫程式收集的後設資料,工具幫你自動獲取;需要人工識別或編寫程式碼實現的資料質量檢查,工具幫你自動識別問題;用文件管理的資料字典,工具幫你線上管理;基於郵件和線下的流程,工具幫你線上自動化。

除此之外,資料治理的軟體工具與其他軟體工具一樣,沒有什麼神奇之處,沒有資料治理人員的參與和資料治理工作的推進,軟體也只是看上去很美。這也是為什麼資料治理諮詢服務一直有其市場,以及為什麼國內大部分單純資料治理軟體專案未能達到預期目標。

三、資料治理的實踐案例

第一個案例是運營商客戶的系統級資料治理,主要的啟示在於:組織架構對於推動資料治理的重要性。

運營商資料倉儲建設已有多年,對後設資料管理和資料質量管理一直高度重視。資料質量問題往往是在資料倉儲發現的,而有很大比例問題是由於上游BOSS系統的升級或者資料錯誤傳遞到了資料倉儲。

例如,推出了新產品但資料倉儲中尚未註冊、SIM卡號位數升級但未通知資料倉儲等等。這說明兩個問題:業務人員與分析系統技術人員協同不夠;業務系統與分析系統協同不夠。

因此,資料倉儲的主管方嘗試從集團推動BOSS和資料倉儲的資料質量協同管理,透過幾省試點的方式建立了跨系統的後設資料血緣圖、資料質量聯動監控等一系列技術手段去解決問題。

但是,資料質量協同管理的工作終於試點、未能全國推廣實施,其原因主要有三點:

組織上,BOSS系統和資料倉儲沒有實現歸口IT管理、是由平級的兩個處室管理。

BOSS系統業務關鍵性高於資料倉儲。

此工作作為技術工作發起,沒有去爭取業務部門的支援、參與甚至牽頭。

由此可見,組織架構和管理機制不順暢,會制約資料問題的解決,甚至會帶來資料問題。

第二個案例是一個能源行業客戶企業級的資料治理,主要的啟示在於:資料治理既要大處著眼,更要小處著手,而且要善於找時機切入。

該客戶透過資訊化規劃設計了企業級資料架構,透過主資料管理專案經過1年時間建立了企業級的主資料標準、實現了不同業務部門對不同領域資料認責(即承擔資料管理專員的角色),又透過資料管控專案理順了業務部門、資訊化部門在資料管控工作上的職責,在專案管理辦公室PMO設定了資料管控組對各專案資料統一管控,同時制定了制度、流程和技術標準。組織、制度和標準上都可謂是到位的,但是技術標準的落地工作一直不順利。

舉例來說,以ERP為首的套裝軟體實施團隊對組織機構主資料的標準一直很牴觸,不肯使用8位統一編碼而是使用本地4位編碼。這個問題的影響在只有ERP系統時並不明顯,資料管控組也無法推動8位編碼的應用。隨著專案後期非套裝軟體的建設,系統間的整合需求豐富起來,如果不能統一編碼標準,系統間無法整合。

這時,非ERP系統都遵從標準使用統一8位編碼,ERP專案組不得不讓步,透過對映表的方式實現了4位與8位的編碼對映,確保順利整合。由此可見,組織架構、管理機制和技術標準建立好之後,其推行落地需要找時機,也需要資料治理人員的耐心和智慧,否則只能是紙上談兵。

第三個案例是美國的一個案例,主要的啟示在於:小處著手,可以非常非常小,這對國內客戶喜歡大而全的思路是非常有益的互補。

這個企業也是受困於資料質量問題,希望透過資料治理來解決。但開始時並不知道如何實際運算元據治理,所以他們啟動了一個“企業資料定義”的專案:用6個月的時間梳理現有系統的資料項,識別跨系統、跨業務的資料項作為資料治理的重點。資料項梳理完畢後,他們選擇了7個資料項去重點治理。

注意,只有7個資料項哦!國內客戶一定會認為7個太少,不能當個事情來做。但美國這個企業就是圍繞這7個資料項去調研相關的業務使用者,發現他們的資料使用需求和問題,去分析與這些資料項相關的業務流程和資料流程。後來識別了40多項可以改進的內容,也為資料治理的全面開展積累經驗,在此基礎上制定了總體規劃和實施路線。

四、大資料與資料治理

終於談到了大資料。從前面的討論來看,資料治理大的脈絡並不複雜:對資料資產家底清晰、管理權責分明、建立配套標準規範、確保落地執行,由此去保障資料質量。雖然大資料的規模大、型別多、速度快,但資料治理的原則對於大資料也是同樣適用的。

那麼大資料的到來會給資料治理提出哪些新的要求呢?

首先來看《大資料時代》的作者的觀點之一,他認為在大資料時代資料質量不再重要,因為人們需要的是整體趨勢的分析而非精確結果。個人不太同意此觀點,而是認為對大資料而言資料質量更加重要。

作者提的整體趨勢分析僅僅是大資料的應用之一,而從精準營銷、風險識別等應用場景來看,因為資料與運營結合的更緊密、要求資料粒度更細,任何一點錯誤都可能直接帶來業務上的損失;而傳統的指標應用,反而對運營環節沒有如此直接的影響。因此,在大資料環境下對資料質量的需求是提升而非降低。

其次,Hadoop、Spark等大資料技術的應用,對資料治理的技術手段提出新的要求。傳統模式下基於RDBMS進行管理,SQL是通用的資料訪問方式。而在大資料環境中,Hadoop、MPP、RDBMS、Spark並存,如何在混搭的異構環境中實現對資料資產的視覺化統一管控,避免大資料系統成為不可管理的黑盒子,這是傳統行業應用大資料技術需要面對的關鍵問題之一。

特別是大資料技術人才目前更多流向網際網路企業,進入傳統行業的少之又少,在人才可得性短期不能快速解決的情況下,需要依靠技術手段來確保傳統企業IT人員能夠對資料資產的可視、可控。

第三,資料安全,或者說資料隱私的重要性比以往有顯著提升,這也需要在資料治理中加強對資料安全的重視。在傳統應用場景中,資料由企業收集,在企業內部應用,資料所有權的問題並不突出。

在大資料時代,資料要更多進行跨界整合、外部應用的商業模式創新,這其中就涉及到更多資料所有權、資料隱私的話題。使用者資訊究竟屬於企業還是使用者、在什麼條件下企業可以拿來用於商業應用?這些問題的答案還在探討當中,毋庸置疑的是,企業需要在資料治理過程中,需要更加註意資料安全、資料隱私相關的制度和政策。

來自 “ 企業數字化諮詢 ”, 原文作者:企業數字化諮詢;原文連結:https://mp.weixin.qq.com/s/4g3mEG6R9CbVEZjgtXCipQ,如有侵權,請聯絡管理員刪除。

相關文章