談談主動式後設資料管理

碼農談IT發表於2023-12-25

來源:資料驅動智慧

組織是否需要後設資料管理平臺?現有的後設資料管理平臺是否無法滿足企業日益增長的需求?如何開展後設資料管理?讓我們研究一下後設資料管理的基本概念。有了這個基礎,我們就能瞭解企業當前面臨的挑戰以及如何應對。

一什麼是後設資料

自1990年以來,我們知道後設資料的基本形式意味著“關於資料的資料”。關於企業中的關鍵資料資產的見解,捕獲它們的屬性以及以譜系表示的它們的關聯。後設資料模型不儲存實際的行或資料值,例如客戶姓名;但是,後設資料側重於資料結構及其儲存這些資料值的資訊,例如表名及其列。

後設資料模型旨在捕獲資料資產並啟用檢視將其顯示為後設資料目錄(通常稱為資料目錄)。在資料目錄的幫助下,組織可以與終端使用者共享有關這些資料資產的後設資料資訊。此外,它還可以防止未經授權的使用者檢視敏感或機密屬性值。這種做法可以在組織中傳播對企業資料的深入理解和意識,並遵守資料安全、治理和隱私準則,從而實現“資料素養”。

可用於實施後設資料解決方案的後設資料管理工具主要管理企業資料環境的以下方面:

  • 後設資料模型:定義一個模型來捕獲關鍵資料資產及其屬性,以識別所有權和關聯。有關關鍵屬性(例如PII個人身份資訊或資料物件中的其他敏感資料)的其他使用者定義文件/詳細資訊,以確保正確使用此類資料。後設資料模型中的實體可能引用組織中的其他資料模型,比如概念、邏輯或物理模型。這種血緣關係,即它們的起源和消費目標,有助於將模型有機地擴充套件為企業後設資料模型。

  • 後設資料過程:後設資料模型中定義的資料資產的生命週期、其狀態(例如活動或已存檔)以及歷史資訊,例如建立、更新或刪除這些資料資產的使用者和時間。有關從企業安全終止這些資料資產的歸檔和資料清除流程的資訊。與關鍵、敏感或機密資料資產的連結,以分析影響、風險或級聯終止策略。捕獲有關後設資料資產的此類資訊的後設資料管理工具對於組織瞭解如何尊重地使用和處理資料資產非常重要。

  • 業務術語表:定義策略、術語以及對每個屬性在企業環境中的含義的一般理解以及同義詞庫資訊。業務術語表是有用的知識庫,可在組織中建立通用語義,以便每個資料使用者都能理解並使用業務術語表中定義的通用術語進行協作。

  • 分類法:然後可以使用後設資料模型中定義的資料資產的分類法或分類法以層次結構來表示業務術語。它們是簡單的表示,例如類或組。分類法有助於理解業務術語及其分類的軟關聯。

  • 本體:每個術語或分類法都可以使用本體進一步連結到關係模型中。每個層次關係可以具有規則或附加分類資訊。本體是知識圖譜的最佳表示。

  • 安全與合規性:合規性資訊,例如GDPR或個人資訊保護法以及對映附加到這些合規性要求的關鍵資料元素。這有助於資料使用者快速做出反應以管理風險暴露並避免不合規。

二常見的後設資料型別

  1. 業務後設資料:捕獲業務功能(例如用於管理資料生命週期的已定義流程)、組織方面(例如角色、協議、所有者)以及語義方面(例如業務規則或定義)。

  2. 操作後設資料:捕獲關鍵資料質量方面,如指標、分數、維度和KPI,以及任何資料監控規則、警報和通知資訊,以報告資料資產的執行狀況和質量。

  3. 技術後設資料:捕獲有關資料資產所源自的系統或應用程式、其連線詳細資訊、支援的協議、技術所有權、聯絡點、執行時間或停機時間表以及平臺資訊的資訊。

  4. 使用者定義的後設資料:捕獲有關資料資產的附加資訊,這些資訊可用於確定使用情況和所有權。

  5. 社交後設資料:捕獲評論、標籤、評級、喜歡、註釋和標籤以用於協作目的。

三後設資料管理的優點

  • 單一事實來源:規模和資料量快速增長的組織需要後設資料管理平臺來幫助管理一個位置的所有企業資料資產,作為單一事實來源,以便它隨著組織的需求而不斷增長。

  • 集中治理:完善的資料資產以及資料資產生命週期、關鍵資料元素標記和沿襲資訊等關鍵功能的啟用,可以幫助負責任的資料治理團隊自信地做出資料決策。

  • 可信資料:增值知識庫和有關資料資產的更新文件可幫助終端使用者花更少的時間查詢正確的資訊,而將更多的時間用於分析和利用資料驅動價值。

  • 安全性和合規性:需要執行定期合規性審計的組織可以透過在流程中帶來可重用性和最佳化以及端到端可見性和跟蹤的功能來滿足此類要求。

四當今後設資料管理流程的缺點

  • 隨著組織開始在分析方面取得進步,後設資料管理流程現在變得被動且不足。他們只需透過併購獲取新資源,就具備了擴充套件資料科學和機器學習模型的能力。

  • 此外,隨著NoSQL、向量或圖形資料庫等替代技術的快速出現,隨著資料資產開始在本地和雲中增長,後設資料變得更加動態和多樣化。簡而言之,它正在遍佈整個生態系統,而不是傳統的關聯式資料庫和資料模型。它現在不僅僅存在於傳統資料庫中,還存在於更多技術中,例如應用程式、資料整合工具、MDM工具、雲服務、基礎設施等。

  • 後設資料元素及其沿襲的陳舊性質無法捕獲整體企業檢視後設資料,不足以實現資料驅動的業務成果。

  • 大多數傳統的後設資料管理工具都採用孤立的方法來編目資料,這種方法的共享功能有限,將後設資料上下文限制為本地或域後設資料而不是企業後設資料。

因此,後設資料管理流程需要超越無法在整個企業生態系統中廣泛共享的陳舊文件系統。

談談主動式後設資料管理

五從被動後設資料管理轉變為主動後設資料管理

  • 主動後設資料透過在整個企業環境中收集後設資料來提升後設資料的上下文。這是透過收集的不僅僅是技術後設資料來完成的,還包括來自提供商和消費者的後設資料的操作、業務和社會方面。此外,它還從提供資料可訪問性並執行資料轉換的層獲取這些資訊。

  • 透過擴充套件被動後設資料模型的企業範圍後設資料檢視,主動後設資料的概念可以幫助消除資料孤島。當團隊在其孤立的邊界內工作或瞭解其他資料資產時,就會出現資料孤島。這是組織中資料問題的主要原因。

  • 隨著新資產的發現或獲取,主動後設資料的功能有助於後設資料模型的持續增長。這有助於改進資料分析,以瞭解以前未探索的資料。此外,它還可以根據執行結果獲取規範性建議,並且可以報告持續的健康評分分析、KPI或實現的結果。

  • 主動後設資料正處於資料支援技術發展的轉型階段。

對主動後設資料的需求是確保增強的資料管理能力,以始終自動化和最佳化資料。

六開展主動後設資料的挑戰

根據整個組織對其後設資料管理的成熟度,挑戰可能會有所不同。然而,假設組織擁有符合上述被動概念的後設資料管理平臺,則此類組織可能會遇到以下挑戰。

分散的後設資料:後設資料分散在組織中的各個地方。由於對這些邊界之外的特定領域知識的瞭解有限,因此很難理解後設資料資訊在本地或域邊界內的儲存方式。

互操作性:缺乏通用的後設資料標準,這使得後設資料共享和互操作性成為市場上多種後設資料管理解決方案的主要挑戰。由於組織中的孤島,也會出現此類互操作性問題。

可訪問性:資料庫、資料整合、資料質量和資料治理工具等資料管理平臺不斷增強其訪問和管理資料的能力。大多數資料管理解決方案中嵌入的後設資料功能無法為業務使用者提供自助服務門戶來訪問後設資料以從任何平臺分析所有型別的後設資料類別。

克服挑戰的主要目標

以下是開始構建現有後設資料管理平臺成熟度以實現主動後設資料概念的基本要素。

統一模型:關鍵是從後設資料模型的企業範圍檢視的定義開始。能夠擴充套件現有被動後設資料模型的組織可以有機地成長為跨所有工具、技術和實踐的企業模型。請注意,此處參考的是概念模型,而不是邏輯或物理模型。重點更多地是確定以下內容:

  • 跨平臺資料屬性對於組織至關重要,因此需要在可供組織中的所有終端使用者使用的中央後設資料位置對它們進行建模。不太重要的資料屬性可以保留在當前狀態架構中,並在需要時透過本地後設資料儲存庫進行共享或訪問。後設資料共享是主動後設資料支援的關鍵和推薦方法。各種架構模式可以進一步提供實現這些功能的深入見解;然而,這些架構模式是未來文章中討論的範圍。

  • 一旦企業後設資料模型開始形成,重點就可以是關聯譜系。譜系有兩種型別——水平世系和垂直世系。源系統或資料提供者和目標系統或資料消費者代表水平譜系,而一個資料資產與另一個資料資產的關聯定義垂直譜系。這兩種型別的譜系都可以透過圖最佳化資料庫或知識圖來很好地表示。

  • 其他關鍵重點領域是定義管理資料生命週期及其依賴關係的流程,以持續管理沿襲。有多種方法可以自動執行此操作,以便資料資產的更改由系統驅動,並透過工作流程來批准這些更改作為連續後設資料收集步驟的一部分。

  • 最後,為了完成此練習,定義與資料相關的模式、結構或模型的所有權以理解和建模這些結構的端到端治理流程非常重要。每個資料團隊都對其資料域承擔聯合責任,透過路線圖推動域內的變化。它有助於清晰和職責分離,並消除導致將每個資料域視為“資料產品”以構建高階資料實踐或“資料網格”架構的資料孤島。

後設資料整合:

這也是確保後設資料模型的互操作性的關鍵,後設資料模型可以作為後設資料資訊的可信來源在企業範圍內使用。眾所周知的整合模式適用於整合後設資料資訊。後設資料可以透過訊息傳遞或流式傳輸的推送機制提供。還可以透過呼叫後設資料層託管的RESTAPI按需拉取它。該層託管必須可供目標系統使用的關鍵資訊;業務或使用者定義的後設資料、標記為共享的技術後設資料、業務詞彙表或業務術語以及社交方面(例如後設資料源評級或基於可用標籤搜尋後設資料)形式的資訊。

自助服務後設資料:

以上兩點對於後設資料管理平臺的設計和實現具有重要意義;然而,重點是讓終端使用者可以使用該平臺來消費後設資料,這是後設資料使用和採用的關鍵。

很大一部分後設資料管理工具或現有後設資料管理實現無法啟用自助後設資料功能。如果後設資料平臺不易於使用,組織就會在採用方面遇到困難,因此此類投資的投資回報率無法合理化。

為了確保後設資料管理層在企業中得到最大程度的採用,需要考慮一些因素。啟用這些功能是關鍵,但何時或如何啟用它們的決定可能取決於組織實踐的成熟度。以下是其他功能注意事項。

  • 具有主動後設資料功能的後設資料層是企業範圍後設資料的統一檢視。資料分析師、資料管理員和整個企業的各種資料從業者將日復一日地利用這個工具。使其成為一個自助服務門戶,可以更輕鬆地實現以下目標:

  • 查詢、搜尋資料目錄、業務術語表、術語、

  • 透過標籤、評級和協作評論等社交方面與資料進行互動,

  • 做出與資料安全性和合規性相關的重大決策識別資料風險、影響和緩解決策。

  • 另一個關鍵方面是資料的自助服務配置。後設資料層透過治理流程啟用。這是識別新需求並根據需要提供新資料檢視和目錄以解決新業務需求並將其釋出以供企業使用的重要來源。

採用自助服務功能不僅可以將所有資料參與者聚集在一起在統一平臺上進行協作,而且可以實現共同的理解和語義,這將為“DataOps”等高階資料實踐提供機會,並確保資料民主化的概念。

七開展主動後設資料管理的建議

隨著組織繼續投資資料管理平臺,確保以下功能成為平臺路線圖的持續關注點至關重要:

  • 後設資料共享:相鄰的資料管理工具必須能夠與後設資料管理工具共享內部後設資料資訊,以進行更廣泛的端到端後設資料分析和編排。建議選擇允許後設資料共享且可以輕鬆與後設資料平臺整合的資料管理工具。

  • 執行時後設資料:組織投資於使用者體驗分析,以獲取捕獲使用者和資料互動以及整體資料使用模式的能力。需要這樣的模式來持續分析哪些資料資產是首選及其原因。這是資料探勘中眾所周知的“資料親和力”概念,可以透過自動化和使用者體驗分析來實現,從而進一步挖掘後設資料的價值。

  • 可觀察性:後設資料管理工具的關鍵功能是提供本機支援或與資料可觀察性工具輕鬆整合,以建立有關資料操作方面的規範性建議和見解。

  • 後設資料匯入/匯出:除了後設資料共享之外,還可能需要在整個企業中匯出和匯入後設資料。後設資料管理工具應該能夠收集、處理和最佳化此類後設資料,而無需執行大量轉換。這些通用功能有助於互操作性並實現標準後設資料方法。

  • 後設資料分析和治理:後設資料及其物件的更改是不可避免的。這些變化可以在後設資料工具中確定,或者透過相鄰的資料管理工具隱式請求。無論哪種方式,都應該有一個自動觸發器,透過後設資料治理/工作流模型來編寫、審查和批准這些更改。分析此類變化及其影響和風險將是理解和減輕下游影響的自然下一步。根據建議建立資料團隊,共同負責定義其“資料產品”路線圖,後設資料的治理將得以實現。

八 小結

  • 後設資料管理是幾乎所有資料支援技術和後設資料分析、增強和自動化設計實踐中的一項重要功能,甚至資料管理平臺的部署也將繼續成為資料驅動型業務的一個關鍵方面。

  • Gartner的分析表明,這是一個增長較快的軟體市場,過去2年增長率和採用率最高,達21.6%,達到近20億美元。

  • 具有被動後設資料管理功能的後設資料管理工具將繼續推動資料支援組織的實施,這些組織要麼從後設資料之旅開始,要麼處於較低的後設資料成熟度曲線。

  • 然而,對主動後設資料流程和技術的需求將繼續發展。所討論的主動後設資料管理功能將是在已建立的後設資料管理工具中實施的自然下一步。

  • 主動後設資料管理概念將繼續存在,並將在未來幾年透過“DataFabric”架構實施的採用而加速發展。

來自 “ ITPUB部落格 ” ,連結:https://blog.itpub.net/70024924/viewspace-3001356/,如需轉載,請註明出處,否則將追究法律責任。

相關文章