資料中臺(資料資產管理篇)

一寸HUI發表於2022-01-24

資料資產管理

宣告:本文歸屬一寸HUI所有。@一寸HUI

在上一篇文章資料中臺(架構篇)中瞭解到了資料中臺的架構,其中我們一個很重要的部分就是要構建資料資產管理,這部分我們就來了解下什麼什麼資料資產,資料資產管理了什麼。

資料資產管理介紹

1.定義

在明白資料資產管理之前,要明白管理的資料資產是什麼?

資料資產”定義為:“由企業擁有或控制的,能夠為企業帶來未來經濟利益的,以物理或者電子的方式記錄的資料資源,如檔案資料、電子資料等。”

從上面的資料資產定義來看,資料資產具有如下3個特徵:

1)“企業擁有或控制”。 這個特徵指明資料是有其主體的,同時也說明資料資源既可能來源於企業內部的資訊系統或者日常經營活動的沉澱, 可能是企業通過外部的交換、購買等手段獲取的。
2)“能帶來未來經濟利益”。 這個特徵清楚表明,在企業中,並非所有的資料都構成資料資產,資料資產是能夠為企業產生價值的資料資源。
3)“資料資源”。 這個特徵表明資料資產的存在形態,是以物理或者電子方式記錄下來的資料。

資料資產管理”的定義為:“規劃、控制和提供資料及資訊資產的一組業務職能,包括開發、執行和監督有關資料的計劃、政策、方案、專案、流程、方法和程式,從而控制、保護、交付和提高資料資產的價值。”

資料資產管理在資料中臺架構中處於中間位置,介於資料開發和資料應用之間,處於承上啟下的重要地位。資料資產管理對上支援以價值挖掘和業務賦能為導向的資料應用開發,對下依託大資料平臺實現資料全生命週期的管理,並對企業資料資產的價值、質量進行評估,促進企業資料資產不斷自我完善,持續向業務輸出動力。

2.資料資產管理現狀和挑戰

缺乏統一的資料檢視:資料資源分佈在企業的多個業務系統中,分佈線上上和線下,甚至分佈在企業的外部。

資料基礎薄弱:大部分企業的資料基礎還很薄弱,存在資料標準混亂、資料質量參差不齊、各業務系統之間資料孤島化嚴重、沒有進行資料資產的萃取等現象,阻礙了資料的有效應用。

資料應用不足:受限於資料基礎薄弱和應用能力不足,多數企業的資料應用剛剛起步,主要在精準營銷、輿情感知和風險控制等有限場景中進行了一些探索,資料應用的深度不夠,應用空間亟待開拓。

資料價值難估:企業難以對資料對業務的貢獻進行評估,從而難以像運營有形資產一樣運營資料。產生這個問題的原因有兩個:一是沒有建立起合理的資料價值評估模型;二是資料價值與企業的商業模式密不可分,在不同應用場景下,同一項資料資產的價值可能截然不同。

缺乏安全的資料環境:資料的價值越來越得到全社會的廣泛認可,但隨之而來的是針對資料的犯罪活動日漸猖獗,資料洩露、個人隱私受到侵害等現象層出不窮。很多資料犯罪是由安全管理制度不完善、缺乏相應的資料安全管控措施導致的

資料管理浮於表面:沒有建立一套資料驅動的組織管理制度和流程,沒有建設先進的資料管理平臺工具,導致資料管理工作很難落地。

資料資產管理

1.目標

可見:通過對資料資產的全面盤點,形成資料資產地圖。針對資料生產者、管理者、使用者等不同的角色,用資料資產目錄的方式共享資料資產,使用者可以快速、精確地查詢到自己關心的資料資產。

可懂:通過後設資料管理,完善對資料資產的描述。同時在資料資產的建設過程中,注重資料資產業務含義的提煉,將資料加工和組織成人人 可懂的、無歧義的資料資產。具體來說,在資料中臺之上,需要將資料資產進行標籤化。標籤是面向業務視角的資料組織方式。

可用:通過統一資料標準、提升資料質量和資料安全性等措施,增強資料的可信度,讓資料科學家和資料分析人員沒有後顧之憂,放心使用資料資產,降低因為資料不可用、不可信而帶來的溝通成本和管理成本。

可運營:資料資產運營的最終目的是讓資料價值越滾越大,因此資料資產運營要始終圍繞資產價值來開展。通過建立一套符合資料驅動的組織管理制度流程和價值評估體系,改進資料資產建設過程,提升資料資產管理的水平,提升資料資產的價值。

2.資料資產管理vs資料治理

資料治理(Data Governance,DG)是指對資料資產管理行使權力和控制的活動集合(規劃、監督和執行)。傳統的資料治理內容通常包含資料標準管理、後設資料管理、資料質量管理、資料安全管理、資料生命週期管理等內容

資料治理的目標是保障資料資產的質量,促進資料資產的價值創造。這個根本目標可以分解成以下6項:

  • 提升資料質量,幫助做出基於資料的更高效、更準確的決策;
  • 構建統一的、可執行的資料標準;
  • 良好地響應資料生產者、消費者、資料處理技術人員等資料利益相關者的需求,如保護好客戶(資料生產者)的資料隱私和資料安全;
  • 培訓組織內所有的管理層和員工,讓大家採用共同的解決資料問題的辦法;
  • 實現可重複的資料管理流程,並確保流程透明;
  • 實現資料的可持續運營、資料資產的增值。

資料治理的6個原則:

  • 標準化原則:資料標準化是實現高價值資料、支撐以資料為基礎的相關業務的先決條件。組織必須制定可參考、可落地的標準。
  • 透明原則:除了一些需要保密的安全措施之外,資料治理相關的檔案、資料問題的發現等,都應該是公開透明的,相關人員應該清楚正在發生的事情,以及事情發生後應如何按照原則處理。
  • 資料的認責與問責:資料治理必須解決無人問責的問題,比如將很多崗位列為負責人,最終卻沒有人真正負責。資料的認責是資料治理的先決條件,資料的問責和考核制度是確保資料治理工作真正落地的制度保障。
  • 平衡原則:在大資料時代,時時刻刻都在湧現海量資料。在進行資料治理工作的過程中,必須在代價和收益之間取得平衡。往往沒有必要追求百分之百的資料質量,而對於歷史遺留資料,資料標準也不可能對其進行完全約束。很多時候,對於企業來說,資料可商用是平衡原則的重要參考。
  • 變更原則:隨著市場和業務的不斷髮展,資料標準、後設資料、資料質量等要求並不是一成不變的,既要控制資料的變更流程,也要主動適應這些變化,推動標準更新。
  • 持續改進原則:業務在不斷變化,資料在持續產生,資料治理非朝夕之功,需要持續推動,不斷改進,形成長效機制。

資料治理和資料資產管理的定義有異曲同工之處,它們圍繞的物件都是資料資產。資料標準管理、後設資料管理、資料質量管理和資料安全管理等同時也屬於傳統資料治理的必要工作內容。資料資產管理在傳統資料治理的基礎上,加入了資料價值管理、資料共享管理等內容。可以這麼理解:資料資產管理就是傳統的資料治理的升級版,可以認為是資料治理2.0。

3.資料資產管理職能

《資料資產管理實踐白皮書4.0》中規定,資料資產管理的管理職能包括資料標準管理、資料模型管理、後設資料管理、主資料管理、資料質量管理、資料安全管理、資料價值管理和資料共享管理共8個方面。而在資料中臺中,還可以包括資料資產門戶、生命週期管理、 標籤管理3個新的管理職能。

1.資料標準管理

大資料的標準體系框架共由7個類別的標準組成,分別為基礎標準、資料標準、技術標準、平臺和工具標準、管理標準、安全和隱私標準及行業應用標準。

資料標準是對資料的表達、格式及定義的一致約定,包含資料業務屬性、技術屬性和管理屬性的統一定義;資料標準的目的是使組織內外部使用和交換的資料是一致的、準確的。通常可分為業務術語標準,參考資料和主資料標準,資料元標準,指標資料標準。

  • 業務術語是被批准、管理的業務概念定義的描述,需要通過流程來定義組織如何建立、審批、修改和釋出統一的業務術語。
  • 參考資料是用於將其他資料進行分類或目錄整編的資料,可以簡單理解為是資料字典,是資料可能的取值範圍。
  • 主資料是組織中需要跨系統、跨部門共享的核心業務實體資料。主資料因為其重要價值,被喻為企業的黃金資料記錄,如多個系統共享的客戶、商品等核心業務實體資料。
  • 資料元是用一組屬性描述其定義、標識、表示和允許值的資料單元,是描述資料的最基本單元。資料元由3部分組成:物件類、特性、表示值域和資料型別的組合。
  • 指標資料是組織在經營分析過程中衡量某一個目標或事物的資料,一般由指標名稱、指標解釋、時間限定、其他條件限定、指標數值等組成,如企業的人均利潤率、季度離職率等。

資料標準管理是指資料標準的制定和實施的一系列活動,關鍵活動包括:

  • 理解資料標準化需求;
  • 構建資料標準體系和規範;
  • 規劃制定資料標準化的實施路線和方案;
  • 制定資料標準管理辦法和實施流程要求;
  • 建設資料標準管理工具,推動資料標準的執行落地;
  • 評估資料標準化工作的開展情況。

資料標準化的難題和應對方案:

一是制定的資料標準本身有問題。 有些標準一味地追求先進,向行業領先者看齊,標準大而全,脫離實際的資料情況,導致很難落地。

二是在標準化推進過程中出了問題。 這是筆者重點闡述的原因,主要有以下幾種情況:

  • 對建設資料標準的目的不明確
  • 過分依賴諮詢公司
  • 對資料標準化的難度估計不足
  • 缺乏落地的制度和流程規劃
  • 組織管理水平不足

應對方案:

  • 第一,制定可落地的執行方案。 執行方案要側重於可落地性,不能落地的方案最終只能被廢棄。一個可落地的方案要有組織架構和人員分工,每個人負責什麼,如何考核,怎麼監管,都必須納入執行方案中。
  • 第二,正確認識資料標準建設的目, 即是統一組織內的資料口徑,指導資訊系統建設,提高資料質量,更可信地處理和交換資料,而不是應付上級和監管機構的檢查。
  • 第三,正確認識諮詢公司在資料資產管理工作前期的作用。 諮詢公司的定位應該是準確評估組織的資料管理水平,制訂可以落地的方案,而不應一味地追求諮詢輸出物的技術含量。
  • 第四,充分認識到資料標準化的難度。 要取得管理決策層的支援,提升組織管理水平,做好長期推進的工作準備,建立起資料標準化的工作制度和流程,遇到問題通過正式的流程和溝通機制逐步解決。
  • 第五,實際落地中,建立起科學可行的資料標準落地形式。

2.資料模型管理

資料模型是指對現實世界資料特徵的抽象,用於描述一組資料的概念和定義。資料模型從抽象層次上描述了資料的靜態特徵、動態行為和約束條件。

資料模型管理主要是為了解決架構設計和資料開發的不一致,而對資料開發中的表名、欄位名等規範性進行約束。資料模型管理一般與資料標準相結合,通過模型管理維護各級模型的對映關係,通過關聯資料標準來保證最終資料開發的規範性。理想的資料模型應該具有非冗餘、穩定、一致和易用等特徵。

資料模型按不同的應用層次分成概念資料模型、邏輯資料模型、物理資料模型3種。

  • 概念模型是一種面向使用者、面向客觀世界的模型,主要用來描述世界的概念化結構,與具體的資料庫管理系統無關。
  • 邏輯模型是一種以概念模型的框架為基礎,根據業務條線、業務事項、業務流程、業務場景的需要,設計的面向業務實現的資料模型。邏輯模型可用於指導在不同的資料庫管理系統中實現。邏輯資料模型包括網狀資料模型、層次資料模型等。
  • 物理模型是一種面向計算機物理表示的模型,描述了資料在儲存介質上的組織結構。物理模型的設計應基於邏輯模型的成果,以保證實現業務需求。它不但與具體的資料庫管理系統有關,而且還與作業系統和硬體有關,同時考慮系統效能的相關要求。

資料模型管理的關鍵活動包括:

  • 定義和分析企業資料需求;
  • 定義標準化的業務用語、單詞、域、編碼等;
  • 設計標準化資料模型,遵循資料設計規範;
  • 制定資料模型管理辦法和實施流程要求;
  • 建設資料模型管理工具,統一管控企業資料模型。

資料模型是資料資產管理的基礎,一個完整、可擴充套件、穩定的資料模型對於資料資產管理的成功起著重要的作用。通過資料模型管理可以清楚地表達企業內部各種業務主體之間的資料相關性,使不同部門的業務人員、應用開發人員和系統管理人員獲得關於企業內部業務資料的統一完整檢視。

3.後設資料管理

後設資料(Metadata)是描述資料的資料。後設資料按用途不同分為技術後設資料、業務後設資料和管理後設資料。詳情見資料中臺(後設資料篇)

4.主資料管理

主資料(Master Data)是指用來描述企業核心業務實體的資料,是企業核心業務物件、交易業務的執行主體,是在整個價值鏈上被重複、共享應用於多個業務流程的、跨越各個業務部門和系統的、高價值的基礎資料,是各業務應用和各系統之間進行資料互動的基礎。

主資料管理(Master Data Management,MDM)是一系列規則、應用和技術,用以協調和管理與企業的核心業務實體相關的系統記錄資料。主資料管理的主要內容包括如下幾項。

  • 主資料相關標準及規範設計:主資料的標準和規範是主資料建設的核心工作,需要企業抽調專業人員集中精力進行梳理和彙總,建立一套完整的標準體系和程式碼庫,對企業經營活動中所涉及的各類主資料制定統一資料標準和規範,如資料模型標準、資料編碼標準、主資料介面標準等。
  • 主資料建模:對主資料進行資料模型設計,建立主資料架構的物理模型,包括資料屬性的定義、資料結構設計、資料管理定義等方面,通過資料釋出來建立資料儲存實體。
  • 主資料梳理與整合:根據主資料標準規範,依託於資料整合平臺以及主資料質量模組,輔助業務部門將現有的主資料內容重新進行資料編碼、資料轉換、資料清洗等,形成企業標準的主資料庫。
  • 主資料質量管理:對主資料系統中的資料質量進行統一閉環管理,覆蓋資料質量的定義、監控、問題分析、整改和評估,推動質量問題的解決。圍繞資料質量管理,建立考核機制,提升資料資產的業務價值;在資料清洗過程中,進行資料質量的管理,並生成資料質量報告,提供資料質量管理服務。
  • 建立靈活的主資料共享服務:主資料的特殊性決定了主資料與業務系統需要頻繁的資料共享,主資料管理系統需提供靈活的服務介面,保證能夠快速實現資料整合且最大程度減少整合成本。
  • 建立主資料維護流程:協助梳理企業內主資料管理相關流程,明確流程流轉方向,以及各環節表單及責任人,並在主資料系統中進行流程配置,逐步實現梳理成果的自動化落地,在主資料系統中實現跨業務部門的流程貫通。

5.資料質量管理

做資料質量管理,首先要搞清楚資料質量問題產生的原因。原因有很多方面,比如技術、管理、流程等。

圍繞完整性、準確性、一致性、及時性監控分析資料質量問題、提升企業資料質量。 從資料接入、資料加工、資料匯出、指標、資料應用實現全鏈路血緣跟蹤、提前預判資料是否能夠準時產出、瞭解任務失敗後影響分析以及快速地修復。做到事前控制,事中處理,事後追蹤。

資料質量評估的標準:

  • 準確性: 描述資料是否與其對應客觀實體的特徵一致。
  • 完整性: 描述資料是否存在缺失記錄或缺失欄位。
  • 一致性: 描述同一實體同一屬性的值在不同的系統中是否一致。
  • 有效性: 描述資料是否滿足使用者定義的條件或在一定的取值範圍內。
  • 唯一性: 描述資料是否存在重複記錄。
  • 及時性: 描述資料的產生和供應是否及時。
  • 穩定性: 描述資料的波動是否穩定,是否在其有效範圍內。
  • 連續性: 描述資料的編號是否連續。
  • 合理性: 描述兩個欄位之間邏輯關係是否合理。

要提升資料質量,需要以問題資料為切入點,注重問題的分析、解決、跟蹤、持續優化、知識積累,形成資料質量持續提升的閉環。

  • 首先需要梳理和分析資料質量問題,摸清資料質量的現狀。在這個過程中,需要用到資料質量評估標準和評估工具,對業務資料進行全部或抽樣掃描,找出不符合質量要求的資料,形成資料質量報告,提供給使用者參考。
  • 然後針對不同的質量問題選擇合適的解決辦法,制訂詳細的解決方案。
  • 接著是問題的認責,追蹤方案執行的效果,監督檢查,持續優化。
  • 最後形成資料質量問題解決方案的知識庫,以供後來者參考。
  • 不斷迭代上述步驟,形成資料質量管理的閉環。

6.資料安全管理

詳情見資料中臺(安全篇)

7.資料價值管理

資料價值管理是對資料內在價值的度量,可以從資料成本和資料應用價值兩方面來開展。

資料成本一般包括採集、儲存和計算的費用(人工費用、IT 裝置等直接費用和間接費用等)和運維費用(業務操
作費、技術操作費等)。

資料成本管理從度量成本的維度出發,通過定義資料成本核算指標、監控資料成本產生等步驟,確定資料成本優化方案,實現資料成本的有效控制。資料價值(收益)主要從資料資產的分類、使用頻次、使用物件、使用效果和共享流通等方面計量。

資料價值(收益)管理從度量價值的維度出發,選擇各維度下有效的衡量指標,對針對資料連線度的活性評估、資料質量價值評估、資料稀缺性和時效性評估、資料應用場景經濟性評估,並優化資料服務應用的方式,最大可能性的提高資料的應用價值。比如可以選擇資料熱度、廣度等作為資料價值的參考指標,通過 ROI 評估,高效管控和合理應用資料資產。

資料資產價值評估方法:市場法、成本法和收益法三種,三種方法的優缺點如表所示:

進行資料價值管理的關鍵性活動包括:

  • 確定企業資料整合度水平;
  • 確定企業資料的應用場景;
  • 確定資料儲存、計算和運維的成本預算;
  • 明確資料成本和收益的具體計量指標;
  • 計算資料在不同應用場景下的成本和收益;
  • 計算企業資料資產的總體成本和收益;
  • 制定資料成本優化方案和提升資料增值方案;
  • 稽核、改進方案。

8.資料共享管理

資料共享管理主要是指開展資料共享和交換,實現資料內外部價值的一系列活動。資料共享管理包括資料內部共享(企業內部跨組織、部門的資料交換)、外部流通(企業之間的資料交換)、對外開放。

資料內部共享的關鍵步驟是打通企業內部各部門間的資料共享瓶頸,建立統一規範的資料標準與資料共享制度,資料外部流通和對外開放可以通過資料直接交易與提供資料分析資訊的兩種方式實現,將資料中符合共享開放層級的資訊作為應用商品,以合規安全的形式完成共享交換或開放釋出。

資料共享管理的關鍵活動包括:

  • 定義資料資產內部共享和運營流通監控指標;
  • 設計資料資產內部共享和運營流通管理方案;
  • 制定資料資產內部共享和運營流通管理辦法和實施
    流程要求;
  • 監控資料資產內部共享和運營實施;
  • 監督落實資料內部共享與外部流通等合規性管理要求;
  • 分析內部共享與運營流通指標,評價運營效果並改進。

9.生命週期管理

資料資產管理過程中,生命週期的管理也是非常重要的部分,每一類資料都有其價值週期,要設定一個合理的資料生命週期需要考慮各方面的因素。在資料中臺的實踐過程中,首先會將資料分成兩類:不可恢復的資料與可恢復的資料。一般涉及原始資料的,都會被定義為不可恢復資料,即清除後沒辦法找回來;而一些中間過程或者結果資料,只要原始資料在並且相關的加工邏輯在,都可以被重新加工恢復。因此在生命週期的管理策略上,也需要區別對待。

1.不可恢復資料
一般建議策略為永久儲存,在實際實施過程中可以根據企業各方面因素來綜合考慮。資料當前沒價值不代表未來沒有價值,只是當前的技術、認知和場景沒有辦法使用其中的價值。當然也需要從企業成本考慮,如果什麼資料都存,成本部分又無法承受,那反而會將資料變成一種負債,拖累企業發展。在實施過程中,可以考慮冷資料用低價儲存的方式,未來需要使用時再進行恢復,雖然可能會有一些效率上的浪費,但和實際的資金成本平衡後也是常常會選擇的方式。

2.可恢復的資料
這類資料只需要有原始資料和加工模型在,就可以通過平臺的排程策略進行恢復,因此這類資料的生命週期一般會根據實際使用情況來靈活調整。平臺側可以根據資料使用情況,推薦具體的生命週期保留時長,使用者也可以自主選擇設定,讓生命週期的設定符合實際企業需要。

生命週期管理提供生命週期的設定和自動清理功能,還提供了生命週期建議的功能,即結合資料的熱度、儲存量變化情況給使用者建議的生命週期,幫助使用者合理配置。

10.標籤管理

標籤是一類重要的資料資產。把標籤定義為物件的一種描述方法,成為更容易被理解、被識別的一種分類及描述的組織形式。業界常見的標籤一般分成兩類:

  • 一類是資料的分類方式,如根據資料的來源、更新頻率、歸屬部門等進行標識和分;
  • 一類是對資料的內容進行重新描述甚至是重新組織的方式,如根據行為特點組織的還貸能力、某個屬性從業務視角的重新定義等。

標籤管理一般包含標籤體系的管理、標籤與資料對映關係、標籤的應用管理。

11.資料資產門戶

1.資料資產地圖

資料資產地圖為使用者提供多層次、多視角的資料資產圖形化呈現形式。資料資產地圖讓使用者用最直觀的方式,掌握資料資產的概況,如資料總量、每日資料增量、資料資產質量的整體狀況、資料資產的分類情況、資料資產的分佈情況、資料資產的冷熱度排名、各個業務域及系統之間的資料流動關係等。

2.資料資產目錄

資料資產目錄通過對資料資產良好地組織,為使用者帶來直觀的體驗,可以使使用者花較少的時間查詢到自己關心的資料資產。

資料資產目錄的組織方式靈活多樣,常見的有按業務域組織、按資料來源組織、按資料型別組織。

3.資料資產檢索

資料資產檢索服務為使用者提供了一鍵式的資產檢索服務,通過對關鍵字的匹配,資料資產門戶檢索出相關的資料資產集,使用者可以根據需要找到相關的資料資產,可以檢視資料資產的名稱、建立者、業務語義、加工過程等詳情,幫助自己理解和使用資料。

參考:

基於Apache doris怎麼構建資料中臺(三)-資料資產管理
基於Apache doris怎麼構建資料中臺(五)-資料質量管理
《資料中臺:讓資料用起來》
《資料資產管理實踐白皮書4.0》

相關文章