好的資料目錄的基本特徵

碼農談IT發表於2024-01-30

現代企業是資料驅動的,有效的資料管理成為企業的首要任務之一。資料目錄是資料管理策略的重要組成部分,使使用者能夠輕鬆查詢、理解和信任其組織的資料。

一 資料目錄要點

下面我總結了應該在資料目錄解決方案中尋找的 6 個最重要的基本功能。在本文的後半部分,我將闡述一些“高階”功能,如果想確保該解決方案被所有公司使用者長期使用並喜愛,那麼這些功能是必須的。

資料攝取和資料發現

要實施有效的資料目錄解決方案,需要能夠將其連線到所有或至少大多數公司系統:應用程式、資料庫、檔案,甚至外部 API。好的資料目錄包含許多預構建的介面卡,以便輕鬆連線。它們自動發現系統中的所有後設資料,例如表名稱、屬性名稱、約束等。

重要的是,資料發現不是一項一次性活動。相反,資料發現是一項長期活動,資料目錄應該不斷掃描源以發現新的資料集並保留資料歷史記錄。

搜尋——讓人們找到資料

資料目錄最重要的功能之一是搜尋和查詢功能。資料目錄應該是所有公司資料和後設資料的“百度”。它應該是智慧的,能夠快速為使用者找到相關資料,即使他們並不確切知道自己在搜尋什麼。它應該可以幫助使用者只需單擊一下即可發現新的且最值得信賴的資料集。

業務術語表

僅瞭解哪些系統中有哪些表或欄位還不夠,必須能夠將它們連結到業務術語,以便向終端使用者解釋特定資料的含義。這就是為什麼業務術語表功能也至關重要。

業務術語表是公司的“常見問題解答”,解釋了資料的含義,例如“逾期天數”的含義及其計算方式。即使是像“活躍客戶”這樣看似簡單的術語,其定義也可能不一致:是五年前借過貸款並已經還款的客戶,還是每月主動存款的客戶?員工可以成為活躍客戶嗎?

業務術語表應該在整個資料目錄中使用,但也應該與外部應用程式(例如商業智慧(BI)工具)整合以增強報告。這是一項重要功能,因為它將幫助減少組織中的問題數量和來回次數,無論是不同部門定期使用的業務術語的定義、未知屬性中資料的含義,或如何過濾特定報告。

後設資料管理和模板

良好的資料目錄支援自由新增額外的後設資料,使用資料類別(例如敏感、GDPR、PII 相關、跟蹤企業主)和任何其他重要資訊等內容標記術語。它們還能夠支援管理任何型別的後設資料,不僅涉及資料,還涉及報告、API、伺服器或環境中的其他任何內容。

資料沿襲

資料沿襲幫助使用者瞭解資料目錄中任何資料資產的來源和目的地、資料在獲得最終結果的過程中如何轉換或豐富、不同資料片段如何相互關聯等等。資料沿襲對於滿足計算和資料準備可追溯性的監管要求至關重要。因此,它應該被視為任何資料目錄解決方案的重要組成部分。

資料市場

這是後設資料管理解決方案的最新趨勢。由於資料目錄是使用者查詢資料的中心位置,因此使用者也希望訪問並能夠使用該位置的資料,這是顯而易見且合乎邏輯的。本質上,如果資料目錄工具允許使用者下載資料集或將其連線到他們偏好的 BI 工具或其他應用程式,同時該工具可以確保根據資料域和角色應用訪問策略和限制。對於組織中的個人來說,它成為一種員工可以“購買”或購買公司資料的市場。

二 不太明顯的功能可確保資料目錄的長期使用和壽命

公司擁有資料目錄是一回事。使用者是否成功採用它並開始使用它是另一回事。現在,我將分享我 15 年資料治理專案經驗的一些收穫,以及我認為在確保採用和維持現代資料目錄時“必須”的內容。

始終保持最新狀態:人工智慧將完成手動工作

上面提到的很多事情都是由資料目錄解決方案的使用者手動完成的。這通常是一個耗時的過程,需要公司員工付出巨大的努力,尤其是在解決方案推出時。然而,隨著時間的推移,資料往往會變得過時。然後,使用者停止使用該解決方案,因為目錄不完整——資料丟失或過時。想象一下,在目錄中查詢“營銷許可”一詞,並發現同事張三是所有者,但已經不再在公司工作。或者可能會找到幾年前的資料集。您不太可能再回到該目錄,甚至可能開始阻止同事使用它。

這正是需要自動化的原因。人工智慧和機器學習可以應用於許多領域,幫助使用者:

  • 掃描源系統以獲取新資料;檢測並記錄新資料項

  • 自動分析資料,為使用者提供有關資料內部內容的資訊

  • 自動域檢測(找出資料內部的內容),使資料的合規屬性等內容保持最新、可發現,並根據資料來源的域或系統分配給指定的業務所有者

  • 檢測資料的相似性,並嘗試猜測不同資料來源中資料點之間的關係。這還包括檢測重複資料,並允許使用者加入或合併來自不同源系統的資料。

資料質量監控和異常檢測

使用者可能對使用資料持謹慎態度,尤其是在他們不確定資料來源是否正確或質量是否可疑的情況下。監控資料質量及其隨時間變化的能力可以直接嵌入到資料目錄中,幫助使用者瞭解他們是否以及如何信任或使用特定的資料集。檢測資料的異常或突然變化並通知使用者此類事件非常重要,這樣可以不斷糾正錯誤。

目錄適用於每個使用者,使用者體驗必須成為產品策略的一部分

可以使用 Excel 作為資料目錄。但保證使用者長期使用的關鍵是可用性。我們選擇的工具必須將此作為其核心要求的一部分。

目錄是面向業務和技術使用者的工具。該目錄 必須可供所有人訪問。高階功能應保留給資料管理員和更高階的使用者。

以“社交功能”結束

使用者體驗是透過微妙而簡單的事情建立的,例如對資料集進行評分、評論、與同事共享等的能力。雖然簡單,但這些功能是資料目錄採用的關鍵。

重要的是要了解,雖然公司中只有 1% 的人員會建立和更新目錄內容,但 99% 的使用者都會使用它。

內容製作者看到的“贊”越多,他們就越能看到保持內容活力的價值。使用者看到的點贊越多,他們就越會明白自己正在尋找有用的東西。

不要僅僅依賴人工,自動化可以使目錄保持最新狀態,並且是資料治理計劃長期生存的必要條件。

來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/1oqV9UNMNlmc7PgRX-L-Ww,如有侵權,請聯絡管理員刪除。

相關文章