從管、存、算、規、治看資料資產管理

danny_2018發表於2022-09-21

導讀:俗話說“巧婦難為無米之炊”,要做好資料分析,先要找到“好米”,也就是“好資料”。如何獲取資料,又怎麼能在資料中找到真正有用的“好資料”,是資料分析需要重點關注的問題。

據研究表明,在資料分析的整個過程中,資料準備會佔大約80%的時間。怎樣把資料收集起來,並確保資料可直接用於分析展示,是最麻煩、最耗時的事情,這在企業級的資料分析中也被稱為是“最髒最累”的活。倘若資料未處理妥當,炫酷好看的視覺化展示也毫無意義。

如果你參與過大型企業BI系統的建設,那就一定能有所感觸。無數的決策分析系統成為臨時的“政績工程”,一時名聲大噪之後卻無人問津,大多因為後續資料不準確,無法真正為業務、管理提供實質的服務。這實則為資料分析專案建設的悲哀。

做好資料準備、保證資料質量,都是資料資產管理的範疇。

國際資料管理協會(DAMA International)在《DAMA資料管理知識體系指南(原書第2版)》一書中,將資料管理(DM)定義為“為了交付、控制、保護並提升資料和資訊資產的價值,在其整個生命週期中制訂計劃、制度、規程和實踐活動,並執行和監督的過程”。

對於資料管理的職能,DAMA將其歸為十一大類:資料治理、資料架構、資料建模和設計、資料儲存和操作、資料安全、資料整合和互操作、檔案和內容管理、參考資料和主資料、資料倉儲和商務智慧、後設資料、資料質量,如圖1所示。

▲圖1 DAMA資料管理框架

其中,資料架構、資料建模和設計、資料儲存和操作、資料整合和互操作、檔案和內容管理、參考資料和主資料、後設資料管理、資料倉儲和商務智慧屬於“資料準備”的範疇,資料治理、資料安全、資料質量可以統一歸類為“資料治理”。

結合DAMA對資料管理職能的分類及內容,可將資料準備分為“管”“存”“算”個層面,將資料治理分為“規”、“治”兩個層面,如圖2所示。

▲圖2 “管” “存” “算” “規” “治”

01

資料之“管”

資料之“管”指狹義的資料管理,是對不同類別的資料採取不同的資料管理模式。這裡我們把資料分為四個層次:後設資料、主資料、參考資料、一般資料(交易資料)。透過資料之“管”,來確保資料來源的可靠性、資料內容的準確性、資料安全性及資料粒度的精細性。

不同的資料,根據其特性在資料量、更新頻率、資料質量和生命週期上有不同的特點。從資料的作用及管理的方式上來講,我們把資料分為四個層次:後設資料、主資料、參考資料、一般資料(交易資料),如圖3所示。這裡提到的資料之“管”,即指管理好這四個層次資料。

▲圖3 資料層次

後設資料(Metadata):通俗地說就是描述資料的資料,比如資料的名稱、屬性、分類、欄位資訊、大小、標籤等等。要做好資料的管理,後設資料起到了舉足輕重的作用。

參考資料(Reference Data):是用於將其他資料進行分類或目錄整編的資料,它定義了資料可能的取值範圍,可以理解為屬性值域,也就是資料字典。參考資料一方面有助於在TP(業務處理)側提升業務流程的準確性,另一方面在AP(資料分析)側規範資料的準確性,為多系統綜合分析提供有利的保障。

主資料(Master Data):指具有高業務價值的,關於關鍵業務實體的權威的、最準確的資料,被稱為“黃金”資料。通常用於建立與交易資料的關聯關係來進行多維度的分析。

一般資料:也就是交易資料。相對來說,我們可以認為後設資料、參考資料、主資料為靜態資料,而一般資料則是動態資料。它一般隨著業務的發生而變化,比如資金交易流水。

02

資料之“存”

資料之“存”指資料儲存,指透過技術手段將資料儲存起來。涉及三個關鍵詞是“資料湖”、“資料倉儲”和“資料集市”。資料的有效性、及時性、相關性、一致性、安全性、準確性,其來源的可靠性、粒度的精細性,最終都會體現在“存”之上,具備上述條件的資料組合,幫助資料實現了其“豐富性”。

如果把資料比作是源源不斷的水,那麼,資料湖可以比作湖泊,資料倉儲可以比作水庫,資料集便是超市。水在不斷的加工製造中,最後成為超市中的瓶裝水供人直接食用,就好比原始資料經過加工處理最終成為資料集市中直接可用於分析的資料。如圖4所示。

▲圖4 資料湖、資料倉儲和資料集

資料湖、資料倉儲和資料集形成了資料儲存的三個層次,三者層層遞進,各自發揮著其不同的作用。資料湖為非結構化資料分析、機器學習、預測分析提供了豐富的資料土壤;資料倉儲透過規範化的管理,為企業、組織系統化的規範資料體系提供了支撐;資料集則將資料場景化,讓資料觸手可得,實現即席分析。

資料湖(Data Lake,DL),是指一個集中化儲存海量的、多個來源、多種型別資料,並可以對資料進行快速加工、分析的平臺。

資料倉儲(Data Warehouse,簡稱DW或DWH),是為支援決策而產生的資料池,它是整個組織中的各級人員可能感興趣的、當前和歷史的所有型別資料的戰略集合。

資料集市(Data Mart,DM),是滿足特定的部門或者使用者的需求,按照多維的方式進行儲存,生成面向決策分析需求的資料集合。

03

資料之“算”

資料之“算”,指的是資料預處理之“算”。為了保證資料分析時資料可用、好用而對資料進行的加工。是指對資料的清洗和加工,包括簡單的清洗和處理,也包括透過智慧手段如藉助演算法模型對資料的清洗和加工。

資料預處理的關鍵鏈路如圖5所示。原始資料納入資料湖的管理,通常混雜著各種資料。要防止資料湖變為資料沼澤,就需要將資料碎片分門別類,將不可洞察的資料和無關資料歸類為資料噪聲,留下可洞察的資料和相關的資料,我們稱之為“資訊元”。這類資料進一步透過資料加工形成整理後的資料,與可直接洞察的資料共同構成了可分析的資料。

▲圖5 資料預處理

我們前面提到資料處理大約佔了資料分析80%的時間,而在資料處理的過程中,資料清洗幾乎會佔據40%~70%的時間,且資料質量越差,其佔比越高。資料清洗不能被孤立的看待,透過藉助對後設資料資訊、資料分佈情況的分析,甚至是根據分析結果的異常性來對資料進行有效的清理,會事半功倍。所以,資料清洗和資料分析也是相輔相承,互相依賴、互相促進的。

常見資料清洗包括對缺失值的處理和異常值的處理。資料加工包括資料變換、資料結構轉換、表間資料處理等。ETL(抽取Extract、轉換Transform、載入Load)將上述資料清洗、資料加工的方法串聯起來,形成完整的資料之“算”鏈路體系,是資料準備過程中最重要的一環。

04

資料之“規”

資料之“規”指資料規範,包括對資料規範的制定和資料管理上的規章制度。“規”是確保資料有效性、安全性的基石。

資料的規範,包括兩個層面。一方面針對資料本身,即資料標準;另一方面是資料管理上的規範和制度。我們可以通俗的理解為資料分析中的“法”。

資料標準

資料來源的多樣化帶來了資料的不一致性,多源系統資料整合的關鍵首先就是建立資料標準。資料標準的定義應遵循一定的原則,包括唯一性、統一性、通用性、穩定性、前瞻性、可行性“六大特性”和系列化、模組化“兩化原則”。

基於上述特性和原則,資料標準從內容層次上可以分為語義標準、資料結構標準和資料內容標準。透過建立語義標準體系,保證整個組織層面關於資料分析的溝通“在一個頻道上”;透過建立資料結構體系,統一資料資源目錄及資料命名規則以確保資料規整、易查詢;透過建立資料內容標準,根據業務梳理資料標籤及資料描述規則以提升分析效率。

資料規範

資料標準的執行,需要依賴制度的規範。無體系、無制度的管理無異於一般散沙。資料規範可以大致分為資料基礎規範、資料安全規範、資料質量規範三大類,如圖7所示。

▲圖6 資料規範體系

05

資料之“治”

資料之“治”指狹義的資料治理,實質上指資料治理相關的一套方法及體系,包括了實踐資料之“規”來確保資料質量的過程和方法。它不僅是技術上的治理工作,更是以有效滿足組織各層級管理訴求的有效手段,它應該是包括資料、應用、技術和組織的四位一體均衡的治理體系。資料治理,最重要的目標就是保證資料質量,即資料的一致性及準確性。

理論體系總是看起來完美無缺,但應用到實際中,往往是“理想是豐滿的,現實是骨感的”。先不說平臺如何搭建、技術如何選擇、如何保障安全性,真正深入到工作中,會發現,所有技術上的難題都不是最難的,如何說服各個部門主動配合資料收集工作,是最大的難點。

所以,資料治理實質上並不只是技術問題,更是一個管理問題。做好資料治理,一定首先是自上而下的發起,其次是有足夠的組織保障,再次是建立切實有效的機制體系。

▲圖7 資料治理

資料治理需要依賴強大的統籌能力和管理能力才能得以實現,對於較大型的企業和組織來說,通常都是“吃力不討好”的活,要真正透過資料治理做出成效,是一件非常困難的事情。所以,這裡一再強調的重中之重便是“高層負責”。

高層負責是基礎,切實有效地將資料治理落實下去,還需要有合理的“組織保障”。各業務部門的人通常都會被各類事務纏身,對他們來說,資料的梳理、整合一直是被認為重要但確經常無暇關注的事情。建立專門的資料主責部門,負責統一的管理協調工作,再由各業務部門配合各類業務資料的提供和質量保障,才是正解。

資料團隊快速的運轉離不開“機制建立”。機制需要建立在規範的基礎上,不同的是,它更側重強調管理、監控和流程。因此,不同的企業、組織均需要根據自身的組織架構和文化體系制定適合自己的機制。值得注意的,一方面是各環節責任人的落實,另一方面是需要在全面性和可執行性、規範性和時效性方面做一個平衡。

做好資料資產管理,是資料分析的重要基礎和保障。“管”、“存”、“算”、“規”、“治”是各類組織做好資料資產管理可以借鑑的有效手段。其中,“管”、“存”、“算”是業界已經形成的標準的基礎知識,可以直接使用;“規”、“治”則在不同的企業、組織中需要因地制宜,選擇適合自身的規範制度及治理機制。

來自 “ Flink ”, 原文作者:陳雪瑩;原文連結:https://mp.weixin.qq.com/s/nHeyPe8QGYxdNNaknO-tbQ,如有侵權,請聯絡管理員刪除。

相關文章