2萬字揭秘阿里資料治理建設實踐

danny_2018發表於2024-02-02

這是一篇很全面的資料治理規劃,文章過長,為了閱讀體驗,專門拆分成多篇,歡迎圍觀。

第一篇:背景介紹。

簡介: 阿里巴巴一直將資料作為自己的核心資產與能力之一,從最早的淘寶、天貓等電商業務,到後續的優酷、高德、菜鳥等板塊,DataWorks、MaxCompute、Hologres等產品用一套技術體系來支援不同業務的發展與創新,為企業帶來整體的“資料繁榮”。資料繁榮為我們帶來了紅利,同時也帶動了各類資料治理需求的井噴,特別是降本等需求的不斷出現,阿里雲DataWorks團隊將13年的產品建設經驗整理成實踐,從資料生產規範性治理、資料生產穩定性治理、資料生產質量治理、資料應用提效治理、資料安全管控治理、資料成本治理、資料治理組織架構及文化建設等7個方面為大家揭秘資料治理平臺建設實踐

作者:阿里雲DataWorks團隊

阿里巴巴一直將資料作為自己的核心資產與能力之一,透過多年的實踐探索建設資料應用,支撐業務發展。在不斷升級和重構的過程中,我們經歷了從分散的資料分析到平臺化能力整合,再到全域性資料智慧化的時代。如今,大資料平臺面臨全新的挑戰,特別是降本等資料治理需求的不斷出現,今天阿里雲DataWorks團隊將其中一些建設經驗與大家進行一些分享。

一、資料繁榮的紅利與挑戰

大資料平臺的建設,到底可以為企業帶來什麼樣的價值?

對於技術同學來說,往往會用一些技術指標來衡量,例如資料量,機器數量,任務數量等等。根據我們往年已經對外公開的資料,我們可以看到大資料計算引擎MaxCompute的單日資料處理量在不斷增長,在2021年雙11的時候,MaxCompute單日資料處理量已經達到了2.79EB。有趣的是,雙11不僅僅意味著當年的波峰,同時也是來年的起點,成為了2022年日常每天的資料處理量,去年的峰值成為了來年的日常。在大資料開發治理平臺 DataWorks上,單日任務排程例項數也超過了1000萬,其中也包含著業務之間50多種各類複雜的資料處理關係,保障資料正常、有序產出,如果將整個阿里巴巴集團的資料任務依賴全部展開,將會是一副非常廣闊的資料畫卷。

規模當然可以一定程度上反饋我們為業務帶來的支援,特別像雙11這種世界級的場景,對很多技術都是全新的挑戰。但是從大資料平臺到創造價值之間,還有一個很重要的環節是“人”,是大資料平臺的使用者。

對於DataWorks來說,作為大資料平臺最貼近使用者的工具層,可以看到DataWorks集團內的使用者數正在以每年5位數的量級不斷快速增長,當前每月在DataWorks上進行各類資料操作的活躍使用者數超過5萬人,除了資料工程師、演算法、開發等技術人員在上面進行資料同步、開發、治理等工作,同時也服務運營小二、分析師、財務、HR等各類業務人員,進行個性化的找數、取數、用數等分析工作。所以,大資料平臺不僅僅應該停留在資料團隊,我們要有更多的使用者進來,更多地走向業務團隊,提升資料使用的效率,讓平臺、使用者、業務達成正向迴圈,推動企業資料價值不斷釋放。

從最早的淘寶、天貓等電商業務,到後續的優酷、高德、菜鳥等板塊,DataWorks與MaxCompute等產品用一套技術體系來支援不同業務的發展與創新。因此我們認為大資料平臺的價值體現,不僅僅是資料量的增長,同時也是使用者數的增長,資料應用(業務)的增長,人人參與資料建設,為企業帶來整體的“資料繁榮”。

資料繁榮為我們帶來了紅利,同時也帶動了各類資料治理需求的井噴。從2009年算起,我們做DataWorks已經15年了,對於一款發展瞭如此之久的產品,我們走過了阿里巴巴集團幾乎所有外部知名的資料架構進化的時代,同時在當前也面臨眾多全新挑戰。在大資料平臺的建設過程中,我們經常遇到一些資料治理的問題。

例如:

資料穩定性不足

任務排程隨著規模增大經常掛掉,不穩定,叢集計算資源不足;員工經常起夜處理告警,故障無法快速恢復;突發大流量導致資料服務當機或不可用

資料應用效率低

表數量越來越多,找不到需要的資料;缺少資料規範與標準,每次使用都要溝通;資料需求經常變更,數倉人員壓力巨大

資料管理風險大

資料使用人員多,管理與易用難以平衡;資料出口多,人為洩露行為管控難;法規不斷更新,敏感資料發現難,資料分類分級難度

資料成本壓力大

降本成為大趨勢,技術挑戰大;

不知道成本問題在哪,在哪個部門/人;

資料不敢刪、任務不敢下。

不管是阿里巴巴集團內部,還是我們服務的眾多阿里雲上客戶,和我們溝通的時候都希望聊聊資料治理相關的主題。他們面對眾多資料治理需求,往往感覺無從下手,就像“按下葫蘆浮起瓢”,每天都會冒出新的問題。我們其實沒法一次性解決所有問題,但是可以逐步解決主要問題。基於DataWorks的建設經驗,我們將企業的資料治理需求整理成四個大的階段,每個階段都有不同典型的資料治理問題,應該投入更多的精力來處理這個階段的主要矛盾,並且從這些實踐中,逐步形成企業資料治理各類方法論與規範的沉澱。

一、起步階段-資料量與穩定性的矛盾

起步階段我們最重要的是得保障“有”資料,資料不斷產生,資料量不斷增長,我們需要保證資料產出的時效性,穩定性、資料質量的準確性,這些也是數倉同學最常面對的問題型別之一。在這個時候遇到的資料治理問題主要集中在叢集上,例如任務長時間等待,計算、儲存、排程等各種資源不足,資料無法產出,或者產出髒資料,叢集掛了,運維無法定位問題,問題處理時間長,補資料止血難度大,人肉運維無自動化等等。這個時候,業務將會明顯感受波動,有些故障甚至會造成業務資損。

二、應用階段-資料普惠與使用效率的矛盾

當我們“有”資料的時候,接下來面臨的就是“用”資料,我們想要更多人來使用資料,實現資料普惠,但是用的人越多,需求也會越多,效率反而會受阻。我們的產品滿足50人使用還是5萬人使用,可以說是天差地別。這時遇到的更多資料治理需求主要集中在效率上,例如:各個部門人員找數、查數、用數需求不斷增加,使用資料人員開始增多,數倉人員疲於取數;資料開始賦能業務,各類資料應用需求井噴,資料團隊壓力增大等等。這個時候,數倉建設可能逐步變得有點混亂,甚至有走向失控的節奏。

三、規模階段-靈活便攜與風險管控的矛盾

隨著用資料的人越來越多,前臺也會建設越來越多的資料應用,帶來的各類資料風險就會增大,我們要開始“管資料”,但是各類資料安全的管理動作往往會和效率背道而馳。在這個階段我們解決的資料治理主要問題主要集中在各類安全管控能力上,例如:各類法律法規直指內部各類資料安全風險;不知道誰在什麼時候怎麼使用資料,出現一些資料洩露事件。

四、成熟階段-業務變化與成本治理的矛盾

成熟階段意味著我們能實現資料業務化,但是面對當前的環境,經常會提出“降成本”的需求。

如果業務增長、成本線性增長,我們需要成本治理

如果業務受限,成本冗餘大,我們也需要成本治理

那應該怎麼降、降哪些,對於多企業也是一個難以回答的問題。而且對於一個成熟階段來說,成本治理不應該是一個“運動式”“專案式”的工作,而應該將之前提到的各類公司資料治理的理念深入人心,形成常態化的工作。

可以看到,降本往往是在數字化建設偏後期的需求。很多人一來和我們聊資料治理就說降本,其實在我們看來,對於絕大部分企業來說,降本的需求本身並沒有問題,後面我們也會重點講解下,但不妨可以回顧下前面幾個階段,我們是否做的足夠充分,例如當前的成本高企,或許是因為第一階段堆疊了過多的人肉,又或許是因為第二階段各種人員無序使用資源。

在經歷這麼多資料治理場景和需求之後,阿里巴巴在內部逐漸形成資料模型規範、資料開發規範、資料質量規範、資料安全規範等多種方法論,並且這些實踐經驗我們也會逐步沉澱到DataWorks平臺上,讓規範落地,逐步形成全鏈路資料開發治理平臺。包含資料建模、資料整合、資料開發、資料運維、資料資產、資料治理、資料質量、資料安全、資料分析、資料服務等資料處理全鏈路流程,以一站式的大資料開發治理平臺能力,滿足資料治理中關於規範、穩定、質量、管理、安全、分析、服務等各個方面的訴求,我們在後面的各類實踐場景中還會為大家詳細講解。

小結

面對大資料平臺眾多資料治理問題的挑戰,我們用1套組織架構,1部資料治理方法論,1套全鏈路治理平臺來滿足各類資料治理的需求。在大資料的“起步、應用、規模、成熟”階段,對應“穩定、提效、管控、降本”等不同的目標,將精力投入到主要矛盾上,讓資料治理平臺需要緊密結合各類經驗、場景與方法論。

來自 “ 數倉與大資料 ”, 原文作者:otw30;原文連結:https://mp.weixin.qq.com/s/RsXUXSSRxjs-1-gHgu1nqw,如有侵權,請聯絡管理員刪除。

相關文章