對資料中臺的梳理與思考
本文由PowerData靈魂人物貢獻
姓名:李奇峰
花名:靈魂人物
微信:bigdata_qifeng
年齡:95後
工作經驗:3-5年
工作內容:數倉,數開,資料中臺,後端開發
自我介紹:一個對資料中臺非常感興趣的人
全文共 7693 個字,建議閱讀 13 分鐘
Gartmer:《資料中臺在中國已經接近炒作的頂峰》
PowerData:接近頂峰?那就說明還有上升的空間嘛
本篇文章聊聊資料中臺爆火背後的邏輯。
一、概念篇
1、什麼是中臺
中臺是將系統的通用化能力進行打包整合,透過介面的形式賦能到外部系統,從而達到快速支援業務發展的目的。比如業務中臺,更多的是對業務的支援,比如客戶資訊,組織資訊、產品資訊等,這些都來自某一個系統,且分別支援多個系統的業務。提供給業務中臺使用。
從技術角度,中臺是為了搭建一個靈活快速應對變化的架構,可以快速實現前端提的需求,避免重複建設,這也是符合敏捷開發理念。
2、什麼是資料中臺
業界目前對資料中臺沒有統一的定義,本篇文章僅基於共識給出PowerData的理解。
資料中臺並不是一種技術,更多的是資料整合、管理、應用的體系。本質目的在於透過一系列的整合與管理,提供可以複用的資料能力,提升企業資料資產化能力,從而更好的為業務提供資料支撐,實現資料驅動的目標。
二、業內痛點
1、資料孤島林立,無法有效整合
資料孤島主要由於公司部門以及業務系統之間的割裂導致難以做到資料的互聯互通,各業務的展開無法對資料直接複用和快速迭代。
作為目前資料資產化的首要痛點,也是資料中臺需要打通的首要目標,
其帶來的問題主要有以下幾點:
資訊系統的割裂導致資料的割裂,業務無法複用現有資料,增加開發成本。 資料標準不統一,各部門間各自定義資料指標與標準,導致合作困難,增加溝通成本。 業務功能的重複建設導致業務資料重複,造成了資料的冗餘、無效、不一致等情況。
2、平臺建設週期長,投入成本大
大資料平臺作為企業數字化的基礎平臺,從成本考慮來看,一套完整的平臺需要投入大量的人力物力精力去建設,且更多針對資料部門本身的需求來進行建設,缺少全域性統籌的思想。
3、資料資產無法有效管理
資料資產化作為近兩年資料領域關注的話題,越來越多地被企業所關注。
以往的資料資產管理更多的是依靠人力與手工管理,方式簡單粗暴,管理效率低下,甚至許多公司都沒有資料資產管理的概念,數倉搭建完成即到此為止。
4、資料複用性低,使用成本高
資料層面的複用僅僅只是數倉ods-dim-dwd-dws-ads之間的分層複用,是完全不夠的,數倉分層只是提供了複用的能力,而沒有提供複用的便利。
資料應用的過程,資料本身的後設資料資訊、血緣資訊以及指標體系作為理解資料的重要手段,在數倉中或並不能完全體現,同時數倉僅提供了庫表資料,應用層需要進行編碼讀取後才可使用。
三、為什麼是資料中臺
基於上述痛點,資料中臺所包含的概念與內容給我們提供了一些定向的解決思路。
1、資料整合為先,打通資料孤島
資料整合的意義在於能夠透過打通多資料來源中的資料,將其彙總到一個資料儲存中如數倉/資料湖,為使用者提供統一的查詢出口,並進行集中處理。
在此過程中需要對資料進行清洗、轉換、去重、篩選等操作,確保資料的一致性與規範性。
2、管好才能用好
個人認為,中臺最核心的能力就是資料資產管理能力,透過後設資料管理、資料血緣、指標體系等一系列手段將資料的關聯關係、技術後設資料、業務後設資料、指標相關資訊進行統一展示,並對外賦能業務。同時透過資料質量,將各節點間資料進行監控並提前預警,確保資料的準確性以及可用性。
3、統一資料服務
中臺核心目的就是對外提供便捷、準確、高效的資料服務,前期包括資料整合與資料資產管理均為統一的資料服務提供保障。對外服務的主體包括但不限於數倉資料、指標資訊、後設資料資訊。服務方式包括但不限於:資料介面、SDK開發包、搜尋展示平臺、資料地圖、資料門戶等。
統一服務出口的意義主要有以下幾點:
中臺內部整合與治理後的資料,對外服務過程中可確保公司層面的資料一致性。 透過可複用的資料服務出口,為後續應用開發減少了工作量。
四、資料中臺的邊界
在PowerData社群內部討論資料中臺時,遇到最常見的問題就是:資料中臺到底包含哪些內容,即資料中臺的邊界是什麼
首先需要宣告一點,資料中臺沒有標準架構,更多的是企業資料管理應用體系,各個公司對於中臺的需求與理解都不近相同,以下內容僅為PowerData總結的中臺邊界:
資料整合 資料模型管理 資料倉儲/資料湖 主資料管理 後設資料管理 資料血緣 資料質量 資料生命週期管理 資料安全管理 資料標準管理 統一資料服務
1、資料整合
目前常見的資料整合元件主要包括:離線資料整合、實時(增量)資料整合。
其中離線資料整合主要包括:Sqoop、Datax、Kettle、SeaTunnel【首個國產開源資料整合元件】等
實時(增量)資料整合主要包括:Flink CDC、Canal、Maxwell、Debezium等
資料中臺可以自行開發或結合上述元件,對各異構資料來源進行整合。
2、資料模型管理
1)資料模型概述
資料模型能夠直觀地表達業務邏輯,能夠使用實體、屬性及其關係對企業運營和邏輯規則進行統一的定義、編碼和命名,是業務人員和開發人員之間溝通的一套語言。
關係模型和維度模型是常見的資料模型:
關係模型從全企業的高度設計一個3NF模型的方法,用實體加關係描述的資料模型描述企業業務架構,更多是面向資料的整合和一致性,常用於業務系統資料建模;
維度建模以分析決策的需求為出發點構建模型,直接面向業務,典型的代表是我們比較熟知的星形模型,以及在一些特殊場景下適用的雪花模型,大多資料倉儲均會採用維度模型建模;
2)當前痛點
① 資料建模與數倉建設落地脫離,模型落地很難,更多的還是停留在文件。
② 模型擴充套件性不足,導致煙囪式開發。
③ 模型研發缺少有效的系統工具幫助我們管理好數倉模型。
④ 表間引用關係不易檢索,資料開發不便。
⑤ 模型設計問題導致任務報錯多,給運維帶來很大的挑戰。
⑥ 無線上體系化的指標衡量數倉。
4)管理目標
穩定性:完善我們資料產出時效和資料質量穩定性,以我們的值班起夜次數和基線破線率、資料質量工單主動發現率為目標 。
擴充套件性:提升模型變化的相容性,達到底層業務變動與上層需求變動對模型衝擊最小化,以業務需求支援效率和業務模組新建核心表數量為目標。
時效型:提升資料模型產出時效以及需求響應速度,以值班起夜次數和業務需求及時交付率為目標。
易用性:降低下游使用門檻,複雜邏輯前置,透過冗餘維度和事實表,進行公共計算邏輯下沉,明細與彙總共存等為業務提供靈活性,以數倉豐富度為目標。
成本:避免煙囪式的重複建設以及最佳化不合理任務消耗,節約計算、儲存成本,以成本執行率為目標。
3、資料倉儲/資料湖
數倉/資料湖作為資料中臺中資料資源存放的主要形式。
透過資料整合後的資料,需要進行資料清洗,保證資料的可靠性與一致性,然後根據公司業務需求進行建模。
在此過程中所包含的源資料以及後續操作生成的所有資料,我們需要將其儲存在資料倉儲或資料湖中,以便進行後續的溯源、複用。
主資料管理
主資料指的是企業核心業務物件,且在企業系統內部共享。從維度建模的角度來看,主資料一般存在企業的一致性維度表中,例如客戶維度表、商品維度表、地區維度表等。
主資料具有4個主要特徵:唯一性、有效性、穩定性、共享性。
4、後設資料管理
後設資料透過全域性統一的資料描述資訊及系統化管理,統一資料標準,促進資料整合和共享,打通企業內部資料孤島,提升資料管理和應用效率。
目前常見後設資料分類包括:技術後設資料、業務後設資料、操作後設資料、管理後設資料、行為後設資料、運營後設資料、服務後設資料。
每個分類下面還有繁多的屬性,但是究其本質,我們可以將後設資料根據屬性來源劃分為兩類:
技術後設資料: 資料本身的特定屬性
業務後設資料: 業務賦予的可變屬性
5、主資料管理
1)概述
主資料指的是企業核心業務物件,且在企業系統內部共享。從維度建模的角度來看,主資料一般存在企業的一致性維度表中,例如客戶維度表、商品維度表、地區維度表等。
主資料具有4個主要特徵:唯一性、有效性、穩定性、共享性 。
2)管理意義
主資料管理的主要作用,是幫助企業集中管理資料,保證主資料的一致,從而建立統一檢視,實現資料共享,推動業務發展。
3)如何實施
明確目標範圍,對企業內部資料進行主資料劃分,制定管理目標; 調研企業主資料規則與管理情況,明白現實和目標之間的差距; 搭建制度與流程,從組織,制度,運營層面,對主資料進行管理; 體系建立後需要打通主資料在企業中產生、整合、管理、服務的閉環。 把主資料用於日常企業業務中,在此過程中開展包括主資料運營管理最佳化,主資料推廣,主資料質量提升,主資料價值衡量等。
6 、資料血緣
資料血緣是在資料的加工、流轉過程產生的資料與資料之間的關係。
提供一種探查資料關係的手段,用於跟蹤資料流經路徑。
資料血緣主要由以下內容組成:
1)資料節點
資料血緣中的節點,可以理解為資料流轉中的一個個實體,用於承載資料功能業務。例如資料庫、資料表、資料欄位都是資料節點;從廣義上來說,與資料業務相關的實體都可以作為節點納入血緣圖中,例如指標、報表、業務系統等。
按照血緣關係劃分節點,主要有以下三類:流出節點->中間節點->流入節點
2)節點屬性
當前節點的屬性資訊,例如表名,欄位名,註釋,說明等。
3)流轉路徑
資料流轉路徑透過表現資料流動方向、資料更新量級、資料更新頻率三個維度的資訊,標明瞭資料的流入流出資訊。
資料流動方向:透過箭頭的方式表明資料流動方向 資料更新量級:資料更新的量級越大,血緣線條越粗,說明資料的重要性越高。 資料更新頻率:資料更新的頻率越高,血緣線條越短,變化越頻繁,重要性越高。
4)流轉屬性
流轉屬性體現了資料流轉過程中發生的變化,記錄了當前路徑對資料的操作內容,屬性可以是直接對映關係,也可以是複雜的規則,例如:
資料對映:不對資料做任何變動,直接抽取。 資料清洗:表現資料流轉過程中的篩選標準。例如要求資料不能為空值、符合特定格式等。 資料轉換:資料流轉過程中,流出實體的資料需要進行特殊處理才能接入到資料需求方。 資料排程:體現當前資料的排程依賴關係。 資料應用:為報表與應用提供資料。
7、資料質量
資料質量就是透過一組維度來評價資料的方式,如同判斷商品的好壞一樣,資料也有評價標準。
資料是對現實世界的反映,如果當前資料代表的意義與現實世界不符,則認為資料出了質量問題。
1)質量問題原因
追根溯源,導致資料出現質量問題的原因有很多,總的來看,主要有業務、技術、管理、基礎設施四個方面:
業務端:業務源系統變更(源系統資料庫表結構變更、源系統環境變更)、業務端資料輸入不規範等; 技術端:資料開發任務中各種任務的流程、引數、配置等出錯; 管理端 :認知層面缺乏質量意識、缺乏有效的資料質量問題處理機制等; 基礎設施:物理資源不足、基礎設施不穩定等。
2)評判標準
準確性:
資料描述的資訊與客觀現實是否相符,準確性是資料質量中最重要的評價標準。完整性:
當前資料是否存在丟失、關鍵欄位為空、或者不可用的情況,主要包括:實體完整、屬性完整、記錄完整和欄位值完整。一致性:
多源資料是否遵循了統一的規範,資料集合是否保持了統一的格式。規範性:
資料是否遵循預定的語法規則並符合其定義,例如資料的型別、長度、格式、取值範圍等。唯一性:
當前資料是否有重複,是否存在唯一標識保證資料的唯一性,包括:主鍵唯一,實體唯一,事件唯一及時性:
資料從產生到可以檢視的時間間隔。資料分析對於及時性要求不高,但如果資料分析週期過長,可能導致分析結論失去借鑑意義。
8、生命週期管理
1)概述
資料生命週期管理(Data Life Cycle Management,DLM)是一種基於策略的方法,用於管理資訊系統的資料在整個生命週期內的流動:從建立和初始儲存,到最終過時被刪除,即指某個集合的資料從產生或獲取到銷燬的過程。
2)管理目標
組織透過資料生命週期管理,提高整體資料管理能力,通常來說,資料生命週期管理的目標有以下5個方面:
(1) 高效:提高資料訪問效能
(2) 低成本:降低資料儲存和管理運維成本
(3) 安全保障:結合應用提供資料訪問安全
(4) 綜合管理:採用統一的管理方案
(5) 訪問便捷:所有資料採用一致的介面訪問
9、資料安全管理
1)概述
資料安全是指透過採取必要措施,確保資料處於有效保護和合法利用的狀態,以及具備保障持續安全狀態的能力,包括資料收集、儲存、使用、加工、傳輸、提供、公開等。
2)管理方式
資料分類分級
資料分類分級作為資料安全治理的切入點,是資料安全治理領域的一個專業名詞,從名字上就能看出這個名詞其實包含了兩部分的內容:
資料分類:資料分類是資料資產管理的第一步,不論是對資料資產進行編目、標準化,還是資料的確權、管理,亦或是提供資料資產服務,有效的資料分類都是首要任務。資料分類更多是從業務角度或資料管理的角度出發的,例如:行業維度、業務領域維度、資料來源維度、共享維度、資料開放維度等,根據這些維度,將具有相同屬性或特徵的資料按照一定的原則和方法進行歸類。
資料分級:資料分級是根據資料的敏感程度和資料遭到篡改、破壞、洩露或非法利用後對受害者的影響程度,按照一定的原則和方法進行定義。資料分級更多是從安全合規性要求、資料保護要求的角度出發的,我們稱他為資料敏感度分級似乎更為貼切。資料分級本質上就是資料敏感維度的資料分類。
10、資料標準管理
1)概述
資料標準是指企業為保障資料的內外部使用和交換的一致性和準確性而制定的規範性約束。而資料標準管理則是一套由管理制度、管控流程、技術工具共同組成的體系,是透過這套體系的推廣,應用統一的資料定義、資料分類、記錄格式和轉換、編碼等實現資料的標準化。
資料標準管理是規範資料標準的制定和實施的一系列活動,是資料資產管理的核心活動之一,對於政府和企業提升資料質量、釐清資料構成、打通資料孤島、加快資料流通、釋放資料價值有著至關重要的作用,具體主要體現在以下幾個方面:
資料標準為資料平臺提供統一的資料標準定義和平臺邏輯模型; 資料標準是資料平臺進行資料治理的依據和根本; 資料標準是衡量資料平臺資料資產運營和管理的評估依據; 需要透過資料標準管理的實施,實現對資料平臺全網資料的統一運營管理。
2)管理目標
透過統一的資料標準制定和釋出,結合制度約束、系統控制等手段,實現資料的完整性、有效性、一致性、規範性、開放性和共享性管理,為資料資產管理提供標準依據。
對於大多數企業而言,他們已有各種各樣的資訊規範,如建模規範,但是這些規範只是為了約束開發工作,更多的時候強調的是資料字典表達的規範。而企業級資料標準的目標卻是使企業內部在業務和資料上達成共識,業務共識在先,資料共識在後。從一個IT管理的資料規範變成企業級的資料標準,將是非常大的轉變,這個轉變的核心是以資料標準提高業務的規範性和業務協同能力,同時約束IT系統建設。
11、 統一資料服務
1)意義
中臺核心目的就是對外提供便捷、準確、高效的資料服務,前期包括資料整合與資料資產管理均為統一的資料服務提供保障。對外服務的主體包括但不限於數倉資料、指標資訊、後設資料資訊。服務方式包括但不限於:資料介面、SDK開發包、搜尋展示平臺、資料地圖、資料門戶等。
統一服務出口的意義主要有以下幾點:
中臺內部整合與治理後的資料,對外服務過程中可確保公司層面的資料一致性。 透過可複用的資料服務出口,為後續應用開發減少了工作量。
2)方式
資料介面:透過HTTP介面對外提供資料服務。 視覺化圖表:將資料透過視覺化圖表進行展現。 資料地圖:在後設資料基礎上,透過多層次圖形化的資料資產管理工具,將企業內各類資料進行展示,幫助業務人員、管理人員、開發人員更好更快地查詢、理解、使用和管理資料。 資料門戶:透過配置導航選單,自由組合報表、⼤屏、資料填報、外部連結等資源,形成⼀個可透過自定義地址統一訪問的資源。資料門戶可⽅便使用者對多個關聯⻚⾯進⾏集中檢視。 訊息佇列:將資料傳送至訊息中介軟體中,由下游進行統一消費。
五、未來發展趨勢
1、標準化與市場下沉
資料中臺的核心在於共享和沉澱能力,隨著資料中臺在行業頭部及領先企業逐漸落地,供應商經歷了各類業務場景能力沉澱的過程。
在深度上,資料中臺廠商承載細分行業的各類定製化業務,不斷沉澱業務能力。
在廣度上,隨著不同業務場景的持續輸入,資料中臺廠商產品的能力越來越豐富,覆蓋的領域也越來越廣泛。
完善資料中臺的深度和廣度,提煉和整合資料中臺的服務,尤其是對於對資料中臺能力要求相對簡單的中小企業,為客戶提供標準化的整體解決方案將成為資料中臺服務商的產品方向。
2、精細化
首先,資料中臺所提供的底層技術支撐能力,需要供應商在軟體架構、雲技術、容器編排、DevOps等多方面有充足的技術儲備,還需要具備資本和技術實力的雙重積累。
縱觀中國資料中臺行業,雖然界限並不明晰,但是大致形成了以阿里、騰訊等技術雄厚的頭部企業側重提供底層架構技術,其他中小供應商側重提供行業化服務和產品的競爭格局。
其次,沒有一家供應商可以覆蓋企業龐大的、所有的需求,尤其是多組織、多板塊、跨業務的大型企業,所以在一個領域內已經完成實踐和形成規模的供應商會優先深耕本領域,提供更加細分的場景切入口。
最後,企業也會根據業務需求面向不同領域的資料中臺產品進行選擇,不會侷限於一家中臺服務商。隨著創業公司不斷成長,細小賽道逐漸被填充,愈加激烈的市場競爭會使差異化成為供應商採取的產品戰略。
3、SAAS化
從內部來看,資料中臺不斷沉澱跨行業、跨企業複用的元件、模組,存在朝SaaS和本地部署混合模式發展的趨勢。從外部來看,隨著雲端計算的普及,部分系統SaaS化趨勢較強。因此,作為前臺和後臺的連線,資料中臺與SaaS應用融合對接的 實踐越來越多,市場將逐漸形成一套成熟的中臺+SaaS系統融合閉環方案。
敏捷開發、快速迭代以適應業務需求是資料中臺的基本能力。隨著資料中臺市場滲透率的提高,應對小量應用調整的場景,低程式碼需求在近期興起。允許透過零程式碼或少量程式碼就可以快速建立應用,對企業運維團隊的要求降低,將充分提升資料 中臺的應用性。
六、對資料中臺的思考
1、為什麼資料中臺能這麼火
資料中臺的概念最早可以追溯到阿里在2015年提出的“大中臺,小前臺”戰略,引用阿里巴巴對中臺的定義:
“企業中臺就是,將企業的核心能力隨著業務不斷髮展以數字化形式沉澱到平臺,形成以服務為中心,由業務中臺和資料中臺構建起資料閉環運轉的運營體系,供企業更高效地進行業務探索和創新,實現以數字化資產的形態構建企業核心差異化競爭力。”
阿里的“中臺戰略” 不是一個簡單的組織變革,還有業務變革、機制變革、技術架構變革的一次全面轉型。
在此之後,中臺的概念便快速普及,但是資料中臺火熱的根本,個人認為還是因為其本身的核心理念,完美迎合了目前企業在數字化轉型浪潮下的各項痛點需求,包括資料孤島打通、高效資料服務、資料資產管理等。
可以說資料中臺是企業落地數字化轉型過程中,不可或缺的指導理念與實踐方向。單純的資料開發、資料平臺、資料倉儲等為企業構建了完整的資料流通-儲存-應用的資料底座,但是從企業資料高效整合、治理、應用以及資料資產化的層面來看,單純依靠資料底座無法滿足上述需求,需要結合資料中臺進行落地。
2、對於資料從業者的建議
擁抱中臺,建設中臺
資料中臺作為公司數字化建設的核心,作為資料從業者我們需要積極的去擁抱中臺所帶來的變化,在建設中臺的過程中,包括技術開發、架構調整、理念普及、概念落地,我們都需要盡力的配合,從而打造出一套完整易用的中臺體系。
在整個建設過程中,資料從業者的推動能力、落地能力、以及對於資料的理解與管理能力都會得到很大的提升,從而成為一個全面發展的資料人才。
提高核心競爭力
隨著資料中臺的落地普及,資料管理能力以及資料複用性的提升,導致各公司對於資料從業者的要求也逐步提升。由之前單純的資料開發、資料倉儲、平臺建設能力,逐步轉變為資料管理能力、資料應用能力、資料驅動企業運營的能力。
這就要求我們對於資料不僅僅停留在開發層面,而是要轉為:接-存-管-治-用等全流程的企業數字化轉型過程中的落地能力。提升個人核心競爭力,提高對於資料的理解能力與應用能力,才能夠讓我們在中臺的衝擊下更加遊刃有餘。
[1] 億信華辰:5000字帶你全面瞭解主資料管理
[2] DataFun:數倉規範華-菜鳥資料模型管理實踐
[3] 極盾科技:5000字詳解資料安全治理
[4] Datablau:Datablau資料治理平臺
[5] 艾瑞諮詢:2021年中國資料中臺行業白皮書
[6] Gartner:資料中臺在中國已經逼近炒作的頂峰
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70024922/viewspace-2933387/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 資料中臺的思考與總結
- 資料治理與資料中臺架構架構
- 資料中臺
- 資料中臺即服務——資料中臺的四大支柱
- 【資料中臺商業化】資料中臺微前端實踐前端
- 資料中臺:宜信敏捷資料中臺建設實踐敏捷
- 資料中臺是什麼意思?如何建設資料中臺?
- 資料中臺與資料治理將何去何從?
- 2019,資料中臺元年
- 資料中臺(安全篇)
- 資料庫系列:業內主流MySQL資料中介軟體梳理資料庫MySql
- 民生銀行資料中臺體系的構建與實踐
- 資料中臺中的核心概念解析
- 談一談資料中臺的原罪
- 資料中臺的前世今生 :帶你全面瞭解阿里巴巴做資料中臺的歷史阿里
- 資料中臺(資料整合篇)
- 10張架構圖詳解資料中臺,附全套資料中臺PPT架構
- 資料中臺和平臺區別在哪
- 雲原生資料中臺技術與趨勢解讀
- 資料中臺(方法論篇)
- 資料中臺(介紹篇)
- 資料中臺(架構篇)架構
- 【思考】$nextTick 與 setTimeout 的一點對比!
- 資料平臺、大資料平臺、資料中臺……還分的清不?大資料
- 漫談對大資料的思考大資料
- 奇點雲資料中臺技術匯(七) | 資料智慧模型——資料中臺航母的作戰叢集模型
- 資料中臺以及資料倉儲的介紹
- 資料中臺(資料資產管理篇)
- 為什麼要用資料中臺
- 地產業 X 資料中臺產業
- 資料中臺從何而來
- 到底什麼是資料中臺?
- 對React setState的一些思考與心得React
- Flutter 對狀態管理的認知與思考Flutter
- 談談對IOC及DI的理解與思考
- 宜信資料中臺全揭祕(一)資料中臺整體介紹|分享實錄
- 被阿里帶火的資料中臺,不靠這三個階段絕對失敗阿里
- 資料中臺演進的四個階段