一、後設資料管理概述
什麼是後設資料
後設資料的3種型別
業務後設資料
技術後設資料
操作後設資料
後設資料的作用
什麼是後設資料管理
後設資料管理的目標
建立指標解釋體系
提高資料溯源能力
資料質量稽核體系
後設資料管理的階段
二、後設資料管理方法
業務目標理解
建立企業資料資產目錄
消除冗餘加強資料複用
降低因人員流動而導致知識流失的風險
提供資料血緣探查能力, 提高資料分析的質量
三、後設資料管理技術
後設資料採集
後設資料管理
後設資料應用
資料資產地圖
後設資料血緣分析
後設資料介面
一、後設資料管理概述
什麼是後設資料
後設資料是關於資料的組織、 資料域及其關係的資訊, 簡言之, 後設資料就是描述資料的資料。
舉例:圖書館中的圖書目錄,或者一本書的目錄。
後設資料的3種型別
業務後設資料
業務後設資料描述資料的業務含義、 業務規則等。 明確業務後設資料可以讓人們更容易理解和使用業務後設資料。 後設資料消除了資料二義性, 讓人們對資料有一致的認知, 避免“自說自話”, 進而為資料分析和應用提供支撐。
常見的業務後設資料有:
業務定義、 業務術語解釋等;業務指標名稱、 計算口徑、 衍生指標等;
業務引擎的規則、 資料質量檢測規則、 資料探勘演算法等;
**資料的安全或敏感級別等 **
技術後設資料
技術後設資料是結構化處理後的資料, 方便計算機或資料庫對資料進行識別、 儲存、 傳輸和交換。 技術後設資料可以服務於開發人員, 讓開發人員更加明確資料的儲存、 結構, 從而為應用開發和系統整合奠定基礎。 技術後設資料也可服務於業務人員, 透過後設資料釐清資料關係, 讓業務人員更快速地找到想要的資料, 進而對資料的來源和去向進行分析, 支援資料血緣追溯和影響分析。
常見的技術後設資料有:
物理資料庫表名稱、 列名稱、 欄位長度、 欄位型別、 約束資訊、 資料依賴關係等;
資料儲存型別、 位置、 資料儲存檔案格式或資料壓縮型別等;
**欄位級血緣關係、 SQL指令碼資訊、 ETL資訊、 介面程式等;排程依賴關係、 進度和資料更新頻率等。 **
操作後設資料
操作後設資料描述資料的操作屬性, 包括管理部門、 管理責任人等。 明確管理屬性有利於將資料管理責任落實到部門和個人, 是資料安全管理的基礎。
常見的操作後設資料有:
資料所有者、 使用者等;
資料的訪問方式、 訪問時間、 訪問限制等;資料訪問許可權、 組和角色等;
**資料處理作業的結果、 系統執行日誌等; **
**資料備份、 歸檔人、 歸檔時間等。 **
後設資料的作用
描述: 對資料物件的內容、 屬性的描述, 這是後設資料的基本功能, 是各組織、 各部門之間達成共識的基礎。
定位: 有關資料資源位置方面的資訊描述, 如資料儲存位置、 URL等記錄, 可以幫助使用者快速找到資料資源, 有利於資訊的發現和檢索。
檢索: 在描述資料的過程中, 將資訊物件中的重要資訊抽出標引並加以組織, 建立它們之間的關係, 為使用者提供多層次、 多途徑的檢索體系, 幫助使用者找到想要的資訊。
管理: 對資料物件的版本、 管理和使用許可權的描述, 方面資訊物件管理和使用。
評估: 由於有後設資料描述, 使用者在不瀏覽具體資料物件的情況下也能對資料物件有個直觀的認識, 方便使用者的使用。
互動: 後設資料對資料結構、 資料關係的描述方便了資料物件在不同部門、不同系統之間進行流通和流轉, 並確保流轉過程中資料標準的一致性。
什麼是後設資料管理
後設資料管理是對涉及的業務後設資料、 技術後設資料、 操作後設資料進行盤點、整合和管理。 採用科學有效的機制對後設資料進行管理, 並面向開發人員、 業務使用者提供後設資料服務, 可以滿足使用者的業務需求, 為企業業務系統和資料分析的開發、 維護等過程提供支援。
可以從技術、 業務和應用三個角度理解後設資料管理。
技術角度: 後設資料管理著企業的資料來源系統、 資料平臺、 資料倉儲、 資料模型、 資料庫、 表、 欄位以及欄位間的資料關係等技術後設資料。
業務角度: 後設資料管理著企業的業務術語表、 業務規則、 質量規則、 安全策略以及表的加工策略、 表的生命週期資訊等業務後設資料。
**應用角度: 後設資料管理為資料提供了完整的加工處理全鏈路跟蹤, 方便資料的溯源和審計, 這對於資料的合規使用越來越重要。 透過資料血緣分析, 追溯發生資料質量問題和其他錯誤的根本原因, 並對更改後的後設資料進行影響分析。 **
後設資料管理的目標
建立指標解釋體系
滿足使用者對業務和資料理解的需求, 建立標準的企業內部知識傳承的資訊承載平臺, 建立業務分析知識庫, 實現知識共享。
** 能夠回答以下問題:企業有哪些資料?什麼是企業有效客戶? 有效客戶和客戶有何區別?什麼是產品的生命週期?這個資料還叫什麼名字?資料倉儲中的儲存過程是誰寫的? 它用來幹什麼? 現在還在用嗎?**
**典型應用有資料資源目錄和業務術語表。 **
提高資料溯源能力
讓使用者能夠清晰地瞭解資料倉儲中資料流的來龍去脈、 業務處理規則、 轉換情況等, 提高資料的溯源能力, 支援資料倉儲的成長需求, 降低因員工換崗造成的影響。 後設資料有助於回答以下問題:這張表是從哪個業務系統中抽取過來的?ETL過程是否對資料進行過加工處理? 進行了哪些處理?指標資料是從哪些表彙總計算出來的?
**典型應用有血緣分析、 影響分析、 全鏈路分析。 **
資料質量稽核體系
透過非冗餘、 非重複的後設資料資訊提高資料完整性、 準確性。 後設資料管理解決的問題是如何將業務系統中的資料分門別類地進行管理, 建立報警、 監控機制, 出現故障時能及時發現問題, 為資料倉儲的資料質量監控提供基礎素材。
能夠回答以下問題:今天的線上使用者數為什麼是0?為什麼A報表中的本月收入值與B報表中的不同?
**典型應用有指標標準和資料質量規則。 **
後設資料管理的階段
二、後設資料管理方法
業務目標理解
建立企業資料資產目錄
資料即資產的理念已經得到企業的廣泛認可。 面對不斷增長、 不斷變化、日益複雜的資料環境, 企業需要資料資產的簡單發現和跟蹤能力。 透過管理後設資料, 企業能夠快速發現資料資產的分佈和關係, 形成企業資料資產目錄。
消除冗餘加強資料複用
透過後設資料管理, 建立基於CWM的後設資料倉庫, 實現企業後設資料的統一管理, 並將後設資料倉庫作為“單一資料來源”, 為企業的應用開發提供可複用的資料模型和後設資料標準, 以實現後設資料的重複利用, 減少冗餘或未使用資料, 從而提高工作效率, 降低軟體開發成本, 縮短專案交付時間。
降低因人員流動而導致知識流失的風險
企業重要的資料資產常常因關鍵員工的調離或離職而“消失”, 這裡所謂的“消失”通常並不是因為員工將資料惡意刪除或拿走, 而是企業資料資產的存放方式、 儲存位置等關鍵資料都只留在關鍵員工的大腦中, 一旦該員工離開公司, 資料資產也就隱沒在“茫茫數海”中了! 而統一的後設資料管理能夠降低企業這種資料“消失”的風險。
提供資料血緣探查能力, 提高資料分析的質量
資料來自什麼地方以及如何產生、 處理和交付資料, 這為使用者提供了重要的背景知識。 探查源系統中的資料可以暴露和解決資料的不準確、 不一致問題, 從而提升資料的質量。此外, 後設資料的統一管理, 提供變更管理、 版本控制等能力為不斷變更的業務需求所帶來的影響提供了支撐, 並加快了新應用開發專案和資料整合專案的開發速度。 開發人員可以依賴統一、 標準的後設資料來輕鬆、 準確地確定他們的專案所需的資料, 從而節約專案開發成本, 提升專案交付效率。
三、後設資料管理技術
後設資料採集
在資料治理專案中, 常見的後設資料有資料來源的後設資料、 資料加工處理過程的後設資料、 資料倉儲或資料主題庫的後設資料、 資料應用層的後設資料、 資料介面服務的後設資料等。
後設資料採集內容:
後設資料管理
從技術的角度看, 後設資料管理一般包括元模型管理、 後設資料稽核、 後設資料維護、 後設資料版本管理、 後設資料變更管理等功能。
後設資料應用
資料資產地圖
按資料域對企業資料資源進行全面盤點和分類, 並根據後設資料字典自動生成企業資料資產的全景地圖。 該地圖可以告訴你有哪些資料, 在哪裡可以找到這些資料, 能用這些資料幹什麼。 資料資產地圖支援以拓撲圖的形式視覺化展示各類後設資料和資料處理過程, 透過不同層次的圖形展現粒度控制, 滿足業務上不同應用場景的圖形查詢和輔助分析需要。
後設資料血緣分析
後設資料血緣分析會告訴你資料來自哪裡, 經過了哪些加工。 其價值在於當發現資料問題時可以透過資料的血緣關係追根溯源, 快速定位到問題資料的來源和加工過程, 減少資料問題排查分析的時間和難度。
後設資料介面
建立後設資料查詢、 訪問的統一介面規範, 以將企業核心後設資料完整、 準確地提取到後設資料倉庫中進行集中管理和統一共享。後設資料介面規範主要包括介面編碼方式、 介面響應格式、 介面協議、 介面安全、 連線方式、 介面地址等方面的內容。