資料資產管理:模型後設資料需要包含哪些要素?

qing_yun發表於2024-03-08

在設計資料地圖功能時,需要確定哪些後設資料資訊對於資料資產管理者以及使用者是有價值和意義,可以提高資料檢索效率、提高資料複用度的,一般來說,資料模型的後設資料需要包含以下幾個方面:

1.資料模型基本資訊:

  • 模型名稱:資料模型的唯一識別符號,如“銷售資料模型”。

  • 模型描述:對資料模型的簡短描述,如“包含公司銷售相關的所有資料”。

  • 所屬層級:基於數倉建設分級分類的標準,模型所屬的層級ODS、DWD、DWA還是DIM

  • 業務主題或域:如外賣業務,訂單域

  • 標籤:模型管理時,可以給模型打上一些標籤,一個模型只屬於一個層級或主題,但可以有多個標籤,方便透過標籤檢索模型

  • 建立者:建立資料模型的人員或團隊名稱,最好可以複製或連線內部IM,一鍵喚起聊天視窗,有問題直接諮詢

  • 建立時間:資料模型的建立日期和時間。

  • 最後修改時間:資料模型最後一次被修改的日期和時間。

2.資料來源資訊:

  • 資料來源名稱:原始資料的來源系統或資料庫名稱,如“CRM系統”。

  • 資料來源型別:資料來源的型別,如關係型資料庫、NoSQL資料庫、API等。

  • 連線資訊:用於連線到資料來源的必要資訊,如URL、埠、使用者名稱和密碼等(這些資訊通常會被加密或隱藏以保護安全性)。

3.資料表欄位元資訊:

  • 欄位列表:表中每個欄位的名稱、資料型別、長度、是否允許為空等屬性。

  • 欄位名(英文):如“ID”、“date”。

  • 欄位描述:對欄位含義的說明,如“客戶ID是客戶的唯一識別符號”。

  • 資料型別:如整數、字串、日期等。

  • 統計邏輯:欄位的加工邏輯,如訂單數限定狀態為成功,1,2,3等

  • 主鍵和外來鍵:定義表之間的關係,如哪個欄位是主鍵,哪些欄位是外來鍵,它們與哪些表的哪些欄位相關聯。

  • 分割槽欄位:一般date分割槽資訊居多

  • 術語定義:資料模型中使用的專業術語和縮寫的解釋,以確保使用者正確理解資料的含義。

  • 程式碼值對映:對於某些欄位中使用的程式碼值(如狀態碼、類別碼等),提供程式碼到實際含義的對映表。例如,狀態碼“01”可能代表“活躍”,“02”代表“非活躍”。

4.資料質量資訊:

  • 資料完整性:說明資料是否完整,是否存在缺失值或異常值。

  • 資料準確性:描述資料的準確程度,可能包括驗證規則和錯誤檢測機制。

  • 資料時效性:資料的更新頻率和最後更新時間,以確保使用者瞭解資料的最新狀態。

5.資料安全資訊:

  • 訪問許可權:定義哪些使用者或角色可以訪問資料模型,以及他們的訪問級別(如只讀、編輯、管理等)。

  • 加密資訊:如果資料被加密儲存或傳輸,提供加密方法和金鑰管理資訊。

  • 審計日誌:記錄對資料模型的訪問和操作歷史,以確保資料的安全性和可追溯性。

6.資料模型版本資訊:

  • 版本號:用於區分不同版本的資料模型。

  • 版本描述:說明每個版本的變化內容和目的。

  • 版本建立時間:每個版本的建立日期和時間。

7.資料血緣資訊

  • 產出任務ID:生產當前表的任務ID資訊,可以跳轉大資料開發排程系統檢視任務詳情

  • 產出任務名稱:生產當前表的任務名稱

  • 下游表:依賴當前表的下游表

  • 上游表:當前表依賴的上游表及任務,方便資料異常時追根溯源和資料重跑

這些是常見的一些後設資料資訊,實際進行資料地圖產品設計時,需要和資料倉儲開發、業務人員(資料分析師)進行調研,結合行業競品(如阿里dataworks),設計完整的後設資料資訊和相關產品功能。不僅幫助資料開發人員理解和維護資料模型,還使業務使用者和資料分析師能夠更容易地找到他們需要的資料並正確使用它。在資料地圖中展示這些後設資料時,通常會採用圖形化和文字相結合的方式,以便使用者能夠直觀地瀏覽和搜尋資訊。

來自 “ 資料乾飯人 ”, 原文作者:千冰儀;原文連結:https://mp.weixin.qq.com/s/shE2AcbyjNXSk7MNpcfC9g,如有侵權,請聯絡管理員刪除。

相關文章