資料血緣系列(4)—— 資料血緣的特點與相關概念

独孤风發表於2024-08-06

大家好,我是獨孤風。在當今資料驅動的商業環境中,資料治理成為企業成功的關鍵因素之一,而資料血緣正是資料治理成功的一個關鍵。

本文我們詳細探討下資料血緣的特點都有什麼?對比一下資料血緣、資料關係、資料分類、資料出處、知識圖譜相關概念的關係。

本文為《資料血緣分析原理與實踐 》一書讀書筆記,部分觀點參考自書中原文,如需更詳細的瞭解學習,請大家支援原作者的辛苦付出。

本文思維導圖如下所示:

在資料治理領域,資料血緣(Data Lineage)是一個核心概念,描述了資料從源頭到最終用途的整個生命週期,包括資料的來源、變化和去向。理解資料血緣的特徵及其與其他相關概念的關係,對於資料管理和資料治理至關重要。本文將詳細介紹資料血緣的五個主要特徵:穩定性、歸屬性、多源性、可追溯性和層次性,並探討它與資料關係、資料分類、資料出處及知識圖譜之間的聯絡和區別。

一、資料血緣的特徵

  1. 穩定性

穩定性是指資料血緣資訊在資料處理流程中的永續性和一致性。在資料治理中,穩定的資料血緣資訊可以幫助企業追蹤資料變化路徑,確保資料處理過程透明可見,防止資料丟失和錯誤傳遞。這一特徵使得資料血緣成為資料合規和審計的重要工具。穩定性保證了資料血緣資訊在長時間內不受頻繁的系統變更或資料更新影響,始終能夠提供一致可靠的資料流動記錄。

  1. 歸屬性

歸屬性是指資料血緣能夠明確指出資料的來源和去向,包括資料在不同處理階段的變化。歸屬性特徵有助於資料管理者理解資料在整個生命週期中的流動和轉變,確保資料的準確性和完整性,進而提高資料決策的可靠性。歸屬性使得每個資料點都可以被追溯到其源頭,知道資料是如何生成的,經過哪些處理,最終到達何處。這種透明性對於資料治理和資料分析至關重要。

  1. 多源性

多源性反映了資料血緣可以覆蓋多個資料來源和系統。在現代企業中,資料通常來自多個異構系統和資料來源,透過整合和分析這些多源資料,資料血緣可以提供全面的檢視,幫助企業更好地理解和利用資料資源。多源性不僅指資料來源的多樣性,還包括資料在不同系統之間的流動和互動,這對於構建全域性的資料檢視和進行跨系統的資料分析非常重要。

  1. 可追溯性

可追溯性是指資料血緣能夠記錄和追蹤資料的生成、修改和使用過程。這一特徵對於資料質量管理、資料安全和資料合規至關重要。透過可追溯性,企業可以識別和解決資料問題,防止資料篡改和不當使用。可追溯性使得每個資料操作都可以被記錄和查詢,確保在需要時能夠回溯資料處理的每一步,瞭解資料如何從源頭到達當前狀態。

  1. 層次性

層次性特徵表明資料血緣資訊可以分層次展現,從宏觀的系統級別到微觀的欄位級別。這種層次化的檢視幫助資料管理者在不同層面上分析和理解資料流動,提供靈活的查詢和分析能力。層次性允許資料治理工作從全域性視角逐步深入到具體細節,使得資料血緣資訊可以滿足不同層次的需求,從而提供更加精準和全面的資料治理支援。

二、資料血緣相關概念

資料血緣與資料關係

資料關係(Data Relationships)描述了資料實體之間的關聯和相互作用。資料血緣與資料關係密切相關,因為資料血緣記錄了資料在不同實體和系統之間的流動和變更過程。例如,在一個資料處理鏈中,資料血緣可以顯示從一個資料庫表到另一個表的轉換關係,而資料關係則描述這些表之間的關聯性。資料血緣為理解和分析資料關係提供了基礎和支援。

資料關係通常包括實體間的層級關係、引用關係、依賴關係等,這些關係構成了資料在系統中流動和互動的基礎。資料血緣則進一步細化這些關係,描述了資料在這些關係中的具體流動路徑。例如,資料血緣可以顯示某個資料欄位是如何從一個表中派生出來並最終儲存到另一個表中的,這種細緻的記錄幫助企業更好地理解資料關係的具體實現方式。

資料血緣與資料分類

資料分類(Data Classification)是對資料進行組織和分組,以便於管理和使用的過程。資料血緣與資料分類有一定的交集,因為資料血緣資訊有助於識別和標記資料的不同類別和屬性。透過資料血緣,企業可以追蹤特定類別資料的來源和變化路徑,確保資料分類的準確性和一致性。此外,資料分類結果可以為資料血緣提供背景資訊,幫助更好地理解資料流動和轉變。

資料分類通常依據資料的敏感性、使用目的、來源等進行分組,這些分類資訊可以在資料血緣記錄中反映出來。例如,敏感資料的處理路徑可以被特別標記和追蹤,確保在資料處理過程中嚴格遵循隱私和安全規定。資料血緣記錄中的分類資訊還可以幫助企業在資料治理過程中更有針對性地管理和控制不同類別的資料。

資料血緣與資料出處

資料出處(Data Provenance)是指資料的起源和歷史,包括資料的生成、收集、處理和儲存過程。資料血緣與資料出處是緊密相關的概念,因為資料血緣記錄了資料從源頭到最終用途的整個過程,是資料出處的具體體現。透過資料血緣,企業可以詳細瞭解資料的生成和變更歷史,確保資料的可靠性和可信性。

資料出處關注的是資料的“過去”,即資料從何而來、經歷了哪些處理步驟等。資料血緣則既關注資料的“過去”,也關注資料的“現在”和“未來”,即資料當前的狀態和未來的去向。兩者結合,提供了完整的資料生命週期檢視,幫助企業全面瞭解資料的歷史、現狀和預期流向,為資料治理和決策提供堅實基礎。

資料血緣與知識圖譜

知識圖譜(Knowledge Graph)是表示實體及其相互關係的圖結構,用於組織和查詢知識。資料血緣與知識圖譜之間既有聯絡也有區別。兩者都關注資料和資訊的關係和流動,但側重點不同。資料血緣側重於資料的處理和流轉過程,而知識圖譜側重於實體及其關係的組織和表示。然而,資料血緣資訊可以作為構建知識圖譜的重要資料來源,幫助描述資料實體之間的關聯和流動,從而豐富知識圖譜的內容和應用場景。

知識圖譜通常包含豐富的語義資訊,表示實體之間的各種複雜關係。這些關係可以包括上下位關係、關聯關係、因果關係等。資料血緣資訊為知識圖譜提供了關於資料流動和變更的具體記錄,使得知識圖譜不僅能夠表示實體之間的靜態關係,還能夠反映資料在這些關係中的動態流動過程。例如,透過整合資料血緣資訊,知識圖譜可以展示某個資料實體在不同處理階段的變化路徑及其與其他實體的互動方式,提供更加全面和動態的知識表示。

資料血緣自身的概念我們瞭解的差不多,資料血緣與資料治理中的內容又有怎麼樣的關係呢?

下一章開始,我們來了解資料血緣與後設資料、主資料、業務資料、指標資料之間的聯絡。

我們下一章再見!

相關文章