資料資產管理:資料目錄怎麼搞?

qing_yun發表於2022-07-19

經過了站在業務視角的自上而下的資料梳理,以及站在IT視角的自下而上的資料盤點,一套“熱騰騰”的資料資產清單終於新鮮出爐了。

通過資料資產盤點,企業終於知道他們擁有哪些資料、如何使用資料、是否安全以及資料在哪裡。 然而,據筆者觀察,業內大多數的資料資產盤點工作是通過手工作業的方式進行的,使用Excel工具進行記錄。

請不要小瞧這種方式,Excel手工盤點資料資產的方式之所以是主流,證明其簡單易用、方便靈活、協作敏捷的特點是被廣泛認可的。這裡要提醒廣大的資料產品經理們注意了:如果你能涉及出一款比Excel還靈活、好用的資料盤點工具,一定會大受歡迎!

可能有人要問,資料梳理的再好,盤點的再清晰,那輸出的也只不過是一堆Excel,對企業沒有什麼價值啊?

是的。這個時候就需要“資料資產目錄”來發揮他的作用了!

01 資料資產目錄是什麼?

我經常將書的目錄與資料目錄進行類比,翻開一本書的目錄,它會告訴你這本書寫了啥、內容結構、作者的寫作思路等,如果你對某一章節感興趣,通過目錄就可以快速找到這想看的內容。圖書目錄起到提綱挈領,綱舉目張的作用。

資料資產目錄也一樣,它也有都有“字典”的作用,能夠幫助企業相關業務和技術人員快速定位資料,解釋資料,找到資料,並從中提取業務價值。

1、資料資產目錄的本質

資料資產目錄本質上就是一個後設資料的儲存庫,它提供特定範圍內所有資料資產的清單,無論其位置或來源如何。資料目錄包括有關資料資產的關鍵屬性資訊,例如:名稱、業務含義、型別、大小、模式和其他相關屬性。

資料資產目錄支援資料治理,包括:資料的分類分級,資料許可權的管理,識別冗餘和不一致的資料併為資料血緣分析和影響分析奠定了基礎。

2、資料資產目錄與資料目錄

資料資產目錄和資料目錄本質上是一樣的,都是後設資料管理。

在專案實踐中,資料目錄也叫資料資源目錄,一般是指通過後設資料管理工具,對相關資料來源(業務系統資料庫、資料倉儲、資料湖等)的後設資料進行採集,而形成的資料目錄。由於直接採集過來的基本都是資料庫表結構、資料流、ETL指令碼、資料庫操作日誌等技術後設資料,所以資料目錄要有一定的技術基礎才能看懂,而且它的定位就是給技術人員看的。

而資料資產目錄是資料目錄的子集,更多是站在業務的視角,以利益相關者的資料需求為目標對那些預期能夠為企業帶來價值的資料進行分類分級,業務後設資料定義、打標籤,授權等。請參考:《資料資產管理:企業的資料資產怎麼盤?》

02 資料資產目錄為何如此重要?

資料驅動是企業數字化轉型的重要手段,而這一目標的需要業務人員能夠快速定位、充分理解和有效利用資料。隨著企業資料體量的不斷增多和資料結構複雜度的增加,資料資產目錄在企業數字化轉型過程中,將發揮越來越大的作用。

1、資料資產目錄對業務人員至關重要

通常情況下,說到管理資料、準備資料、分析資料,那都是IT的事,業務使用者對 IT 的技術語言和工具感到困惑。然而,只有讓業務人員能夠隨時找到和理解了資料,才能將其轉化為有用的資訊和有價值的業務洞察力,以便指導業務實施改進。如果跨部門的關鍵業務決策者不能信任資料,如果他們無法理解資料,如果他們找不到資料,那麼他們就無法利用資料來發現他們的業務問題,優化他們的業務。

資料資產目錄是一個有組織的資料資產清單,他不僅包含了IT人員擅長的資料庫表、資料結構、資料流等技術後設資料,還包含了資料的資料定義、同義詞、使用方式、儲存位置、資料所有者、資料管理者、資料上架時間等關鍵業務屬性。資料資產目錄為業務人員提供了一個理解資料、集中定位資料、快速訪問和評估資料的入口,以便更快、更有效地進行資料洞察和分析。

資料資產目錄通過識別資料所有者、管理者和主題專家來實現跨部門協作,因此業務人員在遇到緊急的資料問題時知道該去哪裡找。資料資產目錄遮蔽了底層技術複雜性,提供了資料血緣的查詢能力,使業務使用者能夠了解其資料的來源以及資料流轉和加工的全鏈路,而無需或不必瞭解底層的資料採集、加工演算法和過程。藉助資料資產目錄,業務使用者可以輕鬆溝通並確保他們使用正確的資料,以便在正確的時間以正確使用獲得最大的結果。

2、資料資產目錄不只服務於業務人員

除了業務人員,資料資產目錄的使用者還包括資料分析師、資料工程師、資料科學家、資料管理員和CDO等使用者,他們無不希望能夠輕鬆訪問到可靠的資料。

資料分析師可以通過資料資產目錄瞭解和分析現有資料,例如:資料結構、資料安全性和資料質量,極大地增強了資料分析建模能力。

資料科學家可以通過資料資產目錄進行相關資料的探索,通過利用不同的資料集並構建和評估更復雜的資料模型和演算法,從資料中獲取更多的洞察力。

資料工程師可以通過資料資產目錄盤查資料鏈路中的相關問題,判斷某個資料的更改將對整個系統產生哪些影響,分析不同資料集的資料結構,建立業務後設資料和物理庫表欄位的對映等。

資料管理員可以通過資料資產目錄實時檢視資料狀態,監控資料的質量,控制資料訪問許可權,對關鍵資料定義資料標準,並監測貫標情況等。

對於資料所有者,CDO等角色,資料資產目錄可以幫助提高運營效率並降低成本。

最後,資料資產目錄為每個使用者提供了授權和訪問控制機制,讓每個人都在其可訪問的級別更輕鬆地在整個企業中查詢和發現資料。

03 資料資產目錄有哪些功能?

資料資產目錄不是一個單獨的系統,它是資料資產管理的重要組成功能,資料資產目錄需要配合其他資料管理工具使用,才能發揮其重要的價值。根據筆者的實踐和觀察,一個優秀的資料資產目錄,可能與資料管理元件都相關。

1、後設資料採集

資料資產目錄支援連線多個資料來源,從不同結構的資料來源中提取後設資料,包括:本地部署的資料來源,雲中的資料來源,物聯網IoT資料來源,非結構化資料來源等。自動化後設資料採集能夠幫助使用者瞭解整個企業的資料結構和關係,使企業能夠自動分析和發現不哪些不易發現,但卻蘊含價值的資料。

2、後設資料管理

資料資產目錄應支援分類分級、關聯對映,打標籤,使用者自定義註釋,敏感欄位識別等形式,對採集的後設資料進行管理,以便讓使用者更容易理解和查詢資料。這裡的後設資料包括了技術後設資料和業務後設資料。技術後設資料描述了資料的詳細的儲存位置和結構,例如資料庫、欄位和列資訊,使IT人員能夠了解資料的物理儲存。業務後設資料為使用者提供清晰的業務上下文,包括資料定義、同義詞和業務屬性,幫助使用者瞭解資料與其他資料集的關係以及發現資料的流動和依賴關係。

3、資料血緣

資料血緣反義了資料在整個企業中的端到端流動情況,作為資料資產目錄的一部分,它在資料整個生命週期中提供跟蹤和追溯,以瞭解資料的來源、轉換情況以及誰在使用它。通常,資料血緣是後設資料管理的重要功能之一,記錄並展示了系統、表、檢視、欄位等之間的關係,並採用DAG(有向無環圖)的模式進行視覺化展現。簡單地說就是視覺化地展示這個資料是怎麼來的,經過了哪些過程和階段。

4、資料標準

一個資料要從資料資源轉化為資料資產必須要對其進行標準化定義,一個典型的實踐是“業務術語表”。通過資料資產目錄,建立資料標準與技術後設資料的關聯對映,是實現資料標準貫標的重要手段。

5、資料發現

資料資產目錄支援自助服務,允許使用者輕鬆訪問和理解他們的資料,而無需依賴 IT 的支援。通過自動化的資料標記、分類和關係對映,使用者可以使用關鍵字、過濾器、 查詢條件等進行資料搜尋,以定位、訪問和查詢資料。資料發現還提供對資料當前狀態的實時可見性,例如:資料是如何被採集、整合和使用的,是最新的資料、還是過時的資料。

6、資料申請/審批

資料資產目錄為使用者提供了一個基於後設資料的資料資產清單,但是並不是所有使用者都對這個清單擁有全域性許可權。每一個資料資產都是需要經過確權認責後才能納入資料資產目錄的,只有許可權範圍內的使用者才能訪問相關資料。資料資產目錄支援申請/審批功能,為使用者提供了一個訪問更多資料的機會,以提升資料資產的利用率。

7、資料API服務

使用者通過資料資產目錄可以找到所需的資料,資料資產目錄不僅是告訴你:資料是什麼(定義),它在哪裡(位置)以及該如何訪問它(所有者),一般還會提供一個基於資料目錄生成資料服務API的功能,以幫助使用者實現資料的整合共享。

8、資料資產監控

提供資料資產監控功能,以熱力圖的形式展示哪些資料應用價值高,通過使用次數、使用物件、使用效果評價等指標對資料資產應用情況進行評估。根據資料資產使用情況,對資料資產目錄進行重新組織,最大化釋放資料資產價值。

04 資料資產目錄的建設步驟

第 1 步:資料資產盤點

資料資產盤點是使用科學的資料盤點方法,以“摸清家底”為目標,對企業的資料資源進行統籌規劃,全面梳理。一方面,從業務視角對資料資源進行梳理和規劃,包括:制度檔案的解讀、流程表單梳理、關鍵資料的識別等,並定義資料的分類體系和資料資產的業務屬性。另一方面,從技術視角對系統資料進行盤點,包括:資料關係、資料結構、資料存量、資料增量、儲存方式等,梳理資料資產的技術屬性。

資料資產盤點的方法和步驟在《資料資產管理:企業的資料資產怎麼盤?》有詳細的描述,此處不再贅述。

第 2 步:資料資產登記

根據資料盤點結果,在資料資產目錄完成資料資產概要資訊的登記。資料資產登記主要包含三個方面資訊:第一,業務方面,例如:資料資產名稱,所屬資料域,所屬資料分類、資料資產描述等;第二,技術方面,資料資產位置(哪個系統,那張表),資料資產型別(結構化資料/非結構化資料),資料資產方式(資料庫/檔案/API介面)等;第三,管理方面,資料資產所有者(歸口部門),資料資產管理員,資料資產上架時間,資料資產共享條件等。

資料資產登記可以採用人工方式(據筆者觀察目前大多數是採用這種方式)或者基於AI的資料資產識別。

第 3 步:採集後設資料

在登記完資料資產基本資訊後,接下來關鍵一步是採集資料資產的後設資料。資料資產目錄使用後設資料來識別資料表、檔案和資料庫。後設資料採集爬取公司的資料庫並將後設資料(不是實際資料)帶到資料資產目錄中。由於資料資產分佈在不同的位置,後設資料採集的範圍包括:

  • 關聯式資料庫 - Oracle、SQL Server、MySQL、DB2 等。

  • 資料倉儲 - Teradata、Creenplum等。

  • 儲存物件的後設資料。

  • 雲平臺 - 阿里雲、微軟 Azure Data Lake、AWS 的Athena 和 Red Shift。

  • 非關係/NoSQL 資料庫 - Cassandra、MongoDB。

  • Hadoop大資料平臺的相關後設資料採集。

  • BI平臺,Tableau、Power BI、國產BI軟體等。

  • ETL工具,Kettle、DataStage、Informatic等。

第 4 步:標記資料關係

標記關係是管理資料資產的一個重要步驟,通過這一步,使用者可以跨多個資料庫發現相關資料。例如,分析師可能需要整合的客戶資訊。通過資料資產目錄,發現五個不同系統中的都有客戶資料。有了資料目錄的幫助,可以構建一個實驗區域,在那裡可以連線所有資料,清理資料,然後使用合併的客戶資料來實現業務目標。

為表“Accounts”標記的關係示例如下:

第 5 步:建立血緣關係

標記關係後,資料目錄會構建血緣,。資料血緣的視覺化表示有助於跟蹤從源到目的地的資料,它解釋了資料流中涉及的不同過程。資料分析師能夠根據資料血緣追溯分析中錯誤的根本原因。通常,ETL(Extract、Transfer、Load)工具用於從源資料庫中提取資料、轉換和清洗資料並將其載入到目標資料庫中。

一些可以解析血緣關係的ETL工具包括:SQL解析、Alteryx、Informatica、Talend等。

第 6 步:資料資產組織

採集過來的後設資料以技術格式排列,缺少表、列的中文註釋,不利於業務人員理解資料。這時候需要基於這些技術後設資料構建語義層,對相關資料表、列進行中文標記,以便業務人員能夠發現、訪問和理解它們。

  • 標記——建立資料語義層

  • 按使用量組織——資料資產熱力圖

  • 按特定使用者使用情況進行組織——推送至使用者的資料門戶

  • 自動化組織,可以高階演算法來組織資料

寫在最後:資料治理與資料資產目錄

資料治理定義了資料管理的總體策略,規定了資料管理的組織、制度和流程,明確了資料的權屬,定義了資料標準,為資料資產管理指明方向。資料資產目錄是資料治理策略的具體執行,以業務友好的方式展示企業的資料資產和位置,幫助使用者更好地找到、理解和使用他們的資料。

資料資產目錄的建設是資料治理中重要的一環,建立可訪問的資料資產目錄允許非技術人員定位和利用整個企業的資料,並自動發現企業系統中的資料來源,包括業務、技術和流程的資料血緣提供了完整的資料透明度,因此使用者可以瞭解資料的來源、流程和依賴關係,以及資料從源頭到完成和消費的流向。因此,使用者可以快速發現資料的影響,使其適合企業業務流程並做出更明智的資料決策。

資料資產目錄的構建是實現自助資料準備,自助資料分析的前提。基於資料資產目錄,業務資料分析師可以企業有哪些可用資料資源或已更新的資料資產,知道誰是資料所有者,以及這些資料資產位於哪裡、如何處理它。最重要的是,基於資料資產目錄可以提高定位和查詢資料的速度和效率,以推動資料的使用,從資料中獲得洞察力,增強企業競爭力。

參考文獻:

https:/ /

來自 “ 談資料 ”, 原文作者:石秀峰;原文連結:https://mp.weixin.qq.com/s/uRDnrowjwkQ8JpYRTUK4vQ,如有侵權,請聯絡管理員刪除。

相關文章