資料治理的興與衰,如何進行資料治理?

qing_yun發表於2022-05-25

資料治理在炒作週期中迎來翻轉。90年代末,後設資料管理作為使資料可操作和可信賴的銀彈,突然乍現。

十幾年後,這個行業充斥著失敗的、由高層領導推動的計劃,他們曾試圖編目每一項資料資產。如此多的資料團隊被淹沒,以至於無法想象還有人敢再次踏上這凶險的征程。

然而,許多資料團隊相信,今天的潮水已經轉向了!

資料治理仍然是至關重要的,也許隨著資料量的增加和GDPR等資料監管的顛覆性浪潮席捲整個行業,資料治理變得更加重要了。

在這些外部力量的推動下,資料團隊已經開始說服自己,也許,只是也許,機器學習自動化可以馴服風暴,使這次的資料資產編目成為可能。

不幸的是,許多新的資料治理計劃因為專注於技術而忽略了文化和流程,註定會沉淪。

實際上,對於團隊來說,要改善資料治理狀況,他們不僅需要對資料有可見性,還需要像對待產品一樣對待資料治理,以領域為先,並將資料質量作為先決條件。

像對待產品一樣對待資料治理 - 不要像對待資料治理一樣對待產品

資料治理是一個巨大的挑戰,因此,試圖用一個大的解決方案來解決它是很誘人的。

通常情況下,資料治理計劃將從一個資料領導者開始,該領導者宣佈了一個似乎可以接受的目標:“我們將對所有的東西進行編目,併為我們所有的資料資產端到端分配所有者,這樣它就可以被訪問,有意義,合規並可靠。”

該舉措的首要問題是它是如何產生的。就像成功的公司以客戶為中心一樣,資料團隊也必須關注他們的資料消費者和內部客戶。

我保證市場部沒有人要求你提供一個資料目錄。他們要求的是有用的報告和更可靠的儀表盤。

合規部門也沒有人要求你提供資料目錄。他們要求瞭解受管制和個人可識別資訊的位置以及誰有訪問權。

但是,一些資料團隊並沒有為這些可實現的目標設定路線,而是在沒有看到業務需求的情況下,將目光投向了地平線以外。沒有最小可行的產品,沒有客戶反饋和迭代只有偉大的想法和破碎的承諾。

不要誤會我的意思:編目仍然有重要的作用。但是,即使是最好的技術也不能替代良好的流程。

人們過多地強調戰術(對資料資產進行編目),而對目標(可訪問的、有意義的、合規的、可靠的資料)重視不夠。一旦團隊意識到他們需要更具體的座標,就難怪資料治理的船帆開始癟下去了。

讓我們重新審視一下領導層先前的命令。“我們將對所有的東西進行編目,併為我們所有的資料資產指定所有者,使其能夠被訪問、有意義、合規和可靠。”

· “編目”是什麼意思?資料將如何被組織?它將為誰而建?它將包括什麼級別的細節?是否需要實時?在哪個層面上?

·究竟什麼是“所有的東西”?什麼是“資料資產”?它僅僅是表,還是指SQL查詢和下游報告?

·“所有者”是什麼意思?誰擁有目錄?他們將如何被分配?以及他們負責什麼?我們是否在談論過去的集中式資料管理人?

·什麼是“端到端”?目錄的範圍是什麼?它是否包括結構化和非結構化的資料?如果是的話,在非結構化資料被處理成具有意圖、意義和目的的形式之前,如何對其進行編目?

如果沒有這些問題的答案,對資料進行編目就像對水進行編目一樣,其不斷移動和變化的狀態,使其幾乎無法記錄。

以領域為先

這些要點之所以如此難以確定,是因為團隊沒有指南針導航:企業的需求。具體來說,就是實際使用這些資料的不同業務領域的需求。

沒有業務背景,就沒有一個正確的答案,更不用說確定優先次序了。緩解治理漏洞是一項艱鉅的任務,如果沒有充分了解哪些資料資產被你的公司實際訪問,以及出於什麼目的,就不可能對這些資料進行優先排序。

正如我們已經轉向雲優先和移動優先的方法,資料團隊開始採用領域優先的方法,通常被稱為資料網路(data mesh)。這種分散的方法將資料所有權分配給開發和維護資料產品的不同部門的資料團隊。而在這個過程中,讓資料團隊更貼近業務。

資料網路由三個獨立的元件組成:資料來源、資料基礎設施和麵向領域的資料管道,由功能所有者管理。資料網路架構的基礎是一個通用的互操作層,反映了域未知(domain-agnostic)標準,以及可觀測性和治理。(圖片來源:Monte Carlo)。

現代資料治理方法需要結合資料在領域中的意義。瞭解這些資料域之間的關係以及聚合檢視的哪些方面是重要的,這一點很重要。

這種型別的資料發現可以根據一組特定消費者對資料的攝取、儲存、聚合和使用情況,提供一個特定領域的動態理解。

資料治理還必須超越對資料的描述,瞭解其目的。資料生產者對資產的描述與資料消費者對其功能的理解大相徑庭,甚至在一個資料消費者與另一個消費者之間,在理解賦予資料的意義方面也可能存在巨大差異。

領域優先的方法可以在企業業務工作流程中共享資料的含義和要求。

資料質量是資料治理的先決條件

沒有技術可以解決馬虎的資料流程或組織文化。即使更多的資料資產被自動記錄和編目,更多的問題也會暗自滋生。如果你吸收的水多於你要排出的水,你就會沉沒。

軟體工程和網站可靠性工程的學科的SLA已經發展到了5個9可用性標準(如99.999%)。不幸的是,大多數資料團隊沒有任何內部的SLA,詳細說明他們的資料產品的預期效能,並且可能難以設定和記錄資料質量指標(如資料停機時間)。

當資料的速度太快,混亂的資料產生的後果太小,資料工程師太少時,很難責怪資料團隊有一些馬虎的習慣。然而,實行任何資料治理計劃,資料可靠性工程必須被優先考慮,如此資料治理才可能成功。

它(資料可靠性)也必須是治理計劃走向成功的第一步。簡單地說,如果你對一個壞掉的系統進行編目、記錄和組織,那麼一旦它被修復,你就不得不再做一次。

貫徹良好的資料質量實踐也可以讓團隊在實現資料治理目標方面取得先機,將資料可觀測性從一個想法變成現實,變成當前(實時)狀態。

例如,如果沒有實時血統,就不可能知道PII或其他受監管的資料是如何蔓延的。想一想:即使你使用的是市場上最先進的資料目錄,你的治理也只能達到和你對資料去向的瞭解一樣好。如果你的管道不可靠,你的資料目錄也不可靠。

有目的的資料治理

我對資料團隊的建議是,將資料治理的任務打散。啟動多個較小的計劃,每個計劃都集中在一個特定的目標上,即讓資料更容易訪問、更有意義、更合規、更可靠。

把你的資料治理計劃當作一個產品,傾聽你的消費者的意見,以瞭解優先事項、工作流程和目標。航行和迭代。

資料治理已經使許多資料團隊陷入困境,但通過使業務驅動的流程成為你的北極星,你可以找到平靜的水域。

關於作者:Barr Moses是資料可靠性公司Monte Carlo的執行長和聯合創始人。

來自 “ https://www.datanami.com/2022/05/24/the-rise-and-f ”,原文連結:http://blog.itpub.net/69925873/viewspace-2896988/,如需轉載,請註明出處,否則將追究法律責任。

相關文章