談談現代組織如何構建資料治理
一 傳統的資料治理策略不再有效
隨著現代資料堆疊的興起,所有業務資料現在都集中到雲資料湖和資料倉儲中。這使得團隊可以更輕鬆地連線和分析不同的資料集,無論是產品、營銷、銷售還是財務資料。但它也可能給組織中負責制定資料治理策略的人員帶來挑戰。
隨著訪問資料的需求擴充套件到工程團隊之外,一些趨勢開始佔據主導地位。
1.去中心化的資料所有權
分散的資料所有權使每個部門都有權建立自己的資料集和報告,而不必依賴集中的 BI 團隊。一些組織透過實施資料網格來實現這一目標,鼓勵域所有者獨立建立資料轉換和分析。
在這種結構下,不同部門可以自由地利用公司的核心資料集(“資料集市”),以及從他們直接使用的工具中收集的資料。目前可用的業務和運營軟體(例如 Salesforce、Google Ads 和 Zuora)透過 API 提供所有資料和活動日誌。這使得在包含生產資料的資料倉儲之間傳輸資料變得容易。
通常,該工具成為使用該工具的任何團體的事實來源,因為所有分析都在該工具中。但這意味著兩個不同的業務部門,例如銷售部門和財務部門最終可能會以不同的方式計算相同的指標來代表“每月活躍使用者”,並得出不同的結論。
“為什麼我的號碼和你的不一樣”?
不同的群體也很容易對同一資料集產生不同的理解。儀表板可能具有相同的名稱,但由於資料轉換方式不同,因此看起來會略有不同。
那麼我們如何讓每個人都達成共識呢?由於資料所有權分散,將資料轉換控制到每個人都使用一個通用名稱或定義是非常困難且成本高昂的。相反,目標應該是使領域上下文和差異更加明顯,以便使用者可以找到已建立和正在使用的相關定義。
為了有效地管理整個資料,重要的是提供所有資料使用者都可以訪問的不同團隊如何轉換和使用資料的可見性。
2. 資料民主化
作為資料民主化的副產品,許多使用者包括非技術使用者現在可以直接透過 BI 工具訪問和執行資料分析。資料民主化使組織中的每個人都能訪問相關資料並幫助他們瞭解如何使用這些資料。不同的業務部門通常會管理他們使用的資料,並可能嘗試跟蹤在其工具中建立的資料的語義。
傳統的資料治理思維假設資料倉儲只能由資料平臺團隊訪問,並且構建在資料倉儲之上的分析層由審批流程控制。這一瓶頸可能仍然存在,並且可能期望以能夠跟蹤資料的方式控制新資料集的建立。然而,將 BI 工具連線到資料倉儲意味著人們將更容易訪問一般資料。
透過 Tableau 等 BI 工具訪問資料通常比直接訪問資料庫受到的限制更少。許多 BI 工具也有自己的訪問控制層。當今的資料治理需要在消費層進行更多整合,以支援組織中的資料民主化。
3.新興資料角色影響資料控制
隨著“分析工程師”和“資料科學家”等新角色的建立,營銷、運營和其他非工程團隊可以做出資料驅動的決策,公司在這些部門內面臨著更大的資料孤島潛力。負責資料治理合規性的工程團隊很難跟蹤資料訪問,因為具有這些新角色的人員可以根據需要建立自己的資料集、分析和報告。
這些人建立、訪問和探索資料的速度可能會導致需要管理的資料量不受控制地增加。雖然每個人都同意資料在記錄下來後更有用,但很少有人願意自己負責建立所有這些文件。
公司通常嘗試透過在團隊之間分配記錄和維護資料集的工作來解決資料治理問題,但這種解決方案是不可持續的。資料的建立速度太快,任何人都無法手動管理。
二 資料發現是資料治理的關鍵
那麼,在資料量不可控且不斷增長的環境下,我們如何實施資料治理呢?自動化資料目錄可以在這裡發揮重要作用。
去中心化的資料治理、資料民主化和新的嵌入式資料角色使領域專家能夠自由探索資料並快速取得進展。這些趨勢是人們認識到資料可以從工程以外的更多角度推動業務增長的自然反應。這些趨勢的目的是在組織內實現資料發現,讓任何人都可以更輕鬆地檢視可用資料並瞭解如何使用這些資料。資料發現是必要的,這樣我們就可以相應地規劃資料治理。為了使每個人都可以發現資料,並允許資料以受控但有組織的方式增長,我們還必須考慮資料目錄。
隨著去中心化資料所有權、資料民主化和新的嵌入式資料角色的興起,資料越來越受到關注,而且越來越失控。世界逐漸認識到資料可以改善業務的任何部分,但儘管技術已經進步以支援這一點,但流程卻落後了。現在資料很容易製作,但很難找到和控制。
為了在現代資料堆疊中建立更好的資料治理,公司需要獲得資料發現。透過建立組織中每個人都參與貢獻的中央資料目錄並在頂部構建自動化層,資料發現和資料治理成為可持續且可擴充套件的流程。
三 如何整合去中心化資料治理模型
資料目錄是整合去中心化資料治理模型的關鍵。使用資料目錄作為單一事實來源可以讓不同的團隊就公司 KPI 和指標定義達成一致。資料目錄不僅可以確保一致性,而且當貢獻者是主題專家時,它還可以提供準確資料的直接來源。採取以下步驟,建立和維護資料目錄的過程可以使資料治理更加順暢:
1 更好地瞭解資料消費方式
為了構建資料目錄,需要了解當今組織中如何使用資料。這可以從每個資料資產、使用者和團隊的使用統計資料中得出。當知道正在訪問哪些資料以及何時訪問、正在使用或未使用哪些儀表板以及誰在積極參與現有資料以及如何參與時,可以確定以下內容:
-
哪些資料集需要首先分類或記錄?
-
哪些資料管道或模型對於監控其質量最關鍵?
-
哪些資料集或儀表板可以存檔?
瞭解資料表、列和儀表板的受歡迎程度可以更好地識別需要棄用、記錄和組織的內容。當企業擁有大量資料時,可以透過檢視最常使用或最少使用的資料來確定首先關注的優先順序。
探索組織中不同人員如何使用資料的趨勢可以更輕鬆地委派和分配所需的任何資料管理工作。此外,當語義上下文丟失或過時時,對資料操作有很好的理解可以消除大量噪音和無休止的資料管理手動工作。
2 構建高層框架以開始組織資料
為了在多個團隊之間分配工作或記錄和分類資料,定義一個每個人都可以遵循的框架非常重要。我們建議在該框架中包含三件事——標籤、所有權和標準化文件。
A、標籤
標籤是為資料建立組織系統的簡單方法。透過將標籤應用到資料集,可以附加語義,從而更輕鬆、更頻繁、更正確地使用資料集。
可以透過建立兩種主要型別的標籤,類別標籤和狀態標籤來獲得靈活性和覆蓋範圍。類別標籤定義組織內的銷售、營銷、運營或產品線等業務單位。它們可以被視為單獨的工作區,其中可以在工作區之間共享相同的資料集。
狀態標籤定義資料集或欄位應如何分類。狀態標籤的示例包括To be deprecated、Certified、Sensitive、L0/L1/L2、Gold/Silver/Bronze或PII。標籤名稱應該足夠清晰,以便任何人都可以理解應用標籤意味著如何使用或訪問資料。
我們建議透過減少標籤來保持簡單。從治理的角度來看,這也可以讓事情變得更容易。透過類別標籤與狀態標籤等簡單的標籤框架,無論使用者屬於哪個團隊,他們都可以很容易地對資料集有一個高層次的理解。
B 資料所有權
透過為每個資料集分配所有者,可以分配記錄和維護資料集的工作。資料所有權或管理權的概念似乎對資料團隊來說是一項額外的責任,但鼓勵資料的頂級使用者參與標記和記錄可以建立一個更具協作性的環境。
我們發現每個資料集都有業務和技術所有者是最有用的。企業主是典型的資料管理員,負責維護資料及其定義的正確性。他們通常是設計表格的技術產品經理或資料分析師。技術所有者負責維護資料管道和質量。一些公司也採用合法所有者來擁有資料所有權。
C 標準化檔案
為資料字典或指標定義建立文件模板是確保資料得到良好維護的另一種方法。如果顯示操作後設資料,例如熱門使用者、熱門查詢或過去 30 天內資料集的使用次數,可以立即向任何想要了解該資料集及其使用方式的人提供大量資訊。
擁有一個基於標籤、所有權和標準化文件的簡單、易於應用的框架可以讓不同的團隊更輕鬆地協作並確保資料得到適當的管理。
3 自動化資料治理工作流程
為了使資料治理策略具有可擴充套件性和可維護性,有必要找到自動化資料治理工作流程的方法。以下是自動化的一些目標領域:
A. 通知系統
通知系統可以幫助所有者和頂級使用者即使用該表的其他分析師或工程師自動了解其資料是否需要關注,從而掌握資料集的問題或更改。通知還可以讓某人知道他們何時被指定為所有者,以及他們負責記錄資料集、確保其正確性或確保其正常執行。
B 跟蹤後設資料更改
建立一個可以自動識別後設資料更改的系統,例如建立新資料集、新增原始資料集或資料描述或載入狀態發生更改時。識別與團隊或個人相關的資料集或顯示可能包含 PII 的資料,尤其是帶有明確且簡單的內容,例如標籤可以傳達有關如何以簡單有效的方式使用資料的資訊。如果實施得當,這可以顯著減輕資料治理和合規性的負擔。
跟蹤後設資料更改,然後自動通知使用者這些更改可以幫助您保持井井有條。例如,您可能希望在描述更改時通知表的所有者,以便他們批准這些更改。
C 批次更新
在構建資料目錄或更新資料時,我們希望能夠批次應用更改以節省時間。如果資料已經具有命名約定或共性,並且可以找到與專案或團隊相關的大塊,則可以輕鬆地將標籤和所有者應用於該資料。輕鬆批次更新資料集的所有者不僅在首次建立所有權時有用,而且在專案狀態更改或業務組重組時也有用。
四 採用聯合、去中心化的資料消費模型
現代資料治理的核心困難之一是誰應該訪問哪些資料。我們已經提到,一些公司透過向組織中的每個人授予對所有資料的訪問許可權來解決此問題,但這會帶來嚴重的安全問題。如果資料訪問過於受限而不允許使用者工作,反之亦然也是一個問題。
可以根據共享知識和對目錄的貢獻來組織資料,從而形成更易於管理的資料模型。建立一個系統,讓整個組織共同貢獻描述、標籤、所有權和其他後設資料,並分擔維護它的任務,使資料目錄更容易實現。透過自動化部分流程,可以更好地讓個人和團隊同意在建立可擴充套件、可持續的資料模型中發揮一小部分作用。
允許所有使用者搜尋後設資料意味著他們可以瞭解存在哪些資料以及如何使用這些資料,而無需訪問後設資料本身。使用者可以更清楚地瞭解他們實際需要訪問哪些資料,從而減少資料治理和資料驅動決策之間的緊張關係。如果組織透過構建有效的資料目錄來採用聯合、去中心化的資料訪問模型,那麼他們實際上可以在資料治理方面表現更加有效。
來自 “ 資料驅動智慧 ”, 原文作者:曉曉;原文連結:https://mp.weixin.qq.com/s/63ygMjZWb1POiRNg5mlkJg,如有侵權,請聯絡管理員刪除。
相關文章
- 談談構建有效資料治理策略的10條建議
- 談談構建資料治理業務場景的8步法
- 談談如何透過主資料MDM 開啟資料治理之旅
- 談談如何透過構建資料產品釋放資料價值
- 談談如何構建企業級資料市場啟用資料要素
- 談一談常見的資料治理怪象
- 談談如何使用資料產品畫布構建高價值資料產品
- 資料治理組織架構如何有效執行和落地?_光點科技架構
- 談談2023年資料治理的5大趨勢
- 談談華為資料治理的五點啟示
- 談談如何構建有效的資料供應鏈
- 談談中國資料治理的五大特點
- CDGA|淺談金融機構資料治理的五個短板
- 談談工業企業如何將資料編織與傳統資料倉儲結合
- 談談關於設計資料管理/治理角色的問題
- 談談資料治理角色和職責:資料管理的關鍵參與者
- 談談如何從資料湖(Data Lake)架構轉向資料網格(Data Mesh)架構架構
- 談一談資料域層次結構
- 談談資料編織(Data Fabric)和資料網格(Data Mesh)的關係
- 談談資料湖分散式資料治理的資料目錄應具備的四大能力分散式
- 百億資料,毫秒級返回,如何設計?--淺談實時索引構建之道索引
- 談談2023年10個大資料建設趨勢大資料
- java基礎(二):談談Java基本資料結構Java資料結構
- 談談對資料架構的幾點認識架構
- 淺談 Redis 資料結構Redis資料結構
- 組織架構新型資料結構思考架構資料結構
- 再談:資料治理的長效運營機制!
- 資料治理組織:建起來不易,轉起來太難?
- 【資料結構】淺談主席樹資料結構
- 談談為什麼需要服務治理(Dubbo)
- 談談資料湖和資料倉儲
- 談談資料質量管理
- 【直播預約】如何構建簡單高效的現代化資料棧
- 大資料時代,人人都在談資料視覺化。大資料視覺化
- 談談如何建立價值驅動的資料戰略
- 【虹科乾貨】Lambda資料架構和Kappa資料架構——構建現代資料架構架構APP
- 如何組織構建多檔案 C 語言程式(二)
- 如何組織構建多檔案 C 語言程式(一)