資料中臺(介紹篇)

一寸HUI發表於2022-01-04

公司在弄資料中臺,所以結合實際去理解了下資料中臺,本文歸屬一寸HUI所有。@一寸HUI

資料中臺是什麼?

資料中臺是一套可持續“讓企業的資料用起來”的機制,是一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,通過有形的產品和實施方法論支撐,構建的一套持續不斷把資料變成資產並服務於業務的機制。資料中臺是處於業務前臺和技術後臺的中間層,是對業務提供的資料能力的抽象和共享的過程,資料中臺通過將企業的資料變成資料資產,並提供資料能力元件和執行機制,形成聚合資料接入、整合、清洗加工、建模處理、挖掘分析,並以共享服務的方式將資料提供給業務端使用,從而與業務產生聯動,而後結合業務系統的資料生產能力,最終構建資料生產>消費>再生的閉環,通過這樣持續使用資料、產生智慧、反哺業務從而實現資料變現的系統和機制。

資料來自於業務,並反哺業務,不斷迴圈迭代,實現資料可見、可用、可運營。通過資料中臺把資料變為一種服務能力,既能提升管理、決策水平,又能直接支撐企業業務。資料中臺不僅僅是技術,也不僅僅是產品,而是一套完整的讓資料用起來的機制。既然是“機制”,就需要從企業戰略、組織、人才等方面來全方位地規劃和配合,而不能僅僅停留在工具和產品層面。

資料中臺通過資料技術,對海量資料進行採集、計算、儲存、加工,同時統一標準和口徑。資料中臺把資料統一之後,會形成標準資料,再進行儲存,形成大資料資產層,進而為客戶提供高效服務。這些服務跟企業的業務有較強關聯性,是這個企業獨有且能複用的。

資料中臺VS數倉和大資料平臺

1.資料中臺VS資料倉儲

資料倉儲的主要場景是支援管理決策和業務分析,而資料中臺則是將資料服務化之後提供給業務系統,目標是將資料能力滲透到各個業務環節,不限於決策分析類場景。資料中臺持續不斷地將資料進行資產化、價值化並應用到業務,而且關注資料價值的運營。

資料中臺建設包含資料體系建設,也就是資料中臺包含資料倉儲的完整內容,資料中臺將企業資料倉儲建設的投入價值進行最大化,以加快資料賦能業務的速度,為業務提供速度更快、更多樣的資料服務。資料中臺也可以將已建好的資料倉儲當成資料來源,對接已有資料建設成果,避免重複建設。當然也可以基於資料中臺提供的能力,通過匯聚、加工、治理各類資料來源,構建全新的離線或實時資料倉儲。

2.資料中臺vs大資料平臺

大資料基礎能力層:Hadoop、Spark、Hive、HBase、Flume、Sqoop、Kafka、Elasticsearch等。在大資料元件上搭建的ETL流水線,包括資料分析、機器學習程式。資料治理系統。資料倉儲系統。資料視覺化系統。

資料中臺應該是大資料平臺的一個超集。在大資料平臺的基礎之上,資料中臺還應該提供下面的系統功能:

  • 全域性的資料應用資產管理
  • 全域性的資料治理機制
  • 自助的、多租戶的資料應用開發及釋出
  • 資料應用運維
  • 資料應用整合
  • 資料即服務,模型即服務
  • 資料能力共享管理
  • 完善的運營指標

資料中臺的價值是什麼?

1.資料中臺是企業資料化建設的基礎設施

資料中臺解決了企業全域資料匯聚的問題,打通以往的資料孤島,沉澱資料資產,實現資料之間的價值共通,可基於資料中臺滿足複雜的資料應用場景。

2.提升資料質量

資料中臺基於Onedata方法論構建統一的公共層,保證了源頭資料的一致性,且實現資料按照統一口徑只加工一次,實現全域性指標、標籤的統一,大大提高資料質量。

3.建立資料標準

資料中臺建設會促使企業還要建設資料標準或規範,比如資料接入規範、資料整合規範、資料儲存規範、資料處理規範、資料使用許可權規範、資料共享規範、資料銷燬規範、資料安全規範等。

這些標準都是資料中臺建設階段也需要建設的體系。有資料標準/規範體系護航,資料中臺才能更好的運轉;也只有依託資料中臺,資料標準才能更好的執行和落地。

4.節約企業資料應用成本

基於資料中臺的後設資料管理的資料血緣,可以實現資料投入產出比的評估,及時發現並下線低ROI的資料,也避免資料重複加工。由此降低資料的研發、儲存和計算成本,降低企業資料應用成本。

下面分別從兩個角度去闡述所產生的降本和增效價值:

  • 降本:資料中臺通過複用資料能力組建,快速完成資料鏈路的搭建,減少重複研發的人力和維護成本;
  • 增效:通過快速複用組建完成資料鏈路搭建,讓資料從接入>加工>使用的整個週期縮短,減少業務端的資料獲取等待時延,為業務方贏得更多的展業時間和機會。

通過提供賦能於具體業務場景的資料應用,幫助業務端更精準的發現客戶、分析客戶等,用資料滋養各線業務,使整個業務運營過程體驗更友好和高效,並縮短運營週期。

5.健全各部門協作機制

資料中臺承擔著一定的實現企業戰略目標的使命,資料中臺的建設過程勢必需要對應的組織和制度來支撐中臺的建設和運營。資料中臺這種體系化工程將橫向拉通企業資料的相關方,包括中臺建設團隊、中臺運維團隊、資料產品經理團隊、資料運營團隊等,形成企業真正的資料組織。利用系統化的解決方案配合一定的管理機制,實現業務人員、資料研發、產品經理、資料分析師等角色的高效協同,提升各角色之間的協作效率。

資料中臺要解決什麼問題?

1.指標口徑不一致

通常表現在3各方面:業務口徑不一致、計算邏輯不一致、資料來源不一致。

業務口徑不一致:業務口徑不一致的指標,應該要有不同的標識去區分,比如上面提到的銷售額這一指標,明明口徑是不一致的,但卻沒有區分,容易讓業務誤解。

計算邏輯不一致:業務口徑的描述往往是一段話,但對於一些計算邏輯比價複雜的指標,一段話通常是描述不清楚的,如果碰巧兩個相同業務口徑的指標是不同的資料研發實現的,極有可能會出現計算邏輯不一致的情況。

資料來源不一致:對於部分指標,有多個資料來源可供選擇,如果資料來源正好有些細微差異不被發現時,即使加工邏輯一樣,也有可能結果不一致。另外,實時資料和離線資料也會有一定差異。

因此,要實現一致性,就要確保對同一個指標,只有一個業務口徑,只加工一次,且資料來源必須一致。

2.煙囪式建設資料平臺,大量源被浪費,響應速度慢

主要在於煙囪式的開發模式,使得資料複用性低,導致大量重複邏輯程式碼的研發,影響需求響應速度。

比如,兩個指標都需要對同一份原始資料進行清洗,原則上來說,只用一個任務對原始資料做清洗,產出一張明細表,另一個指標開發時,便可直接引用已經清洗好的明細表,這樣便可節省一個清洗邏輯的研發工作量。但現實往往是對同一份原始資料做了兩次清洗。因此,要解決需求響應速度慢的問題,就要提升資料的複用性,確保相同資料只加工一次,實現資料的共享。

3.取數效率低

主要表現在兩個方面,一方面是找不到資料,另一方面是取不到資料。要解決找不到資料的問題,就要構建企業資料資產目錄,讓資料使用者快速找到並理解資料。取不到資料的主要是非技術人員不會寫SQL去提取資料,所以可以為其提供自助取數工具,使其簡單快速的獲取資料。

4.資料質量低

面對業務已經沉澱的大量資料,逐步形成了企業的資料資產。而這些資料資產如何成為可持續使用的,為企業帶來價值的資料,需要資料治理進行提升資料質量,比如設計資料質量校驗的規則和使用流程,設計資料管控許可權,資料如何安全輸出及共享的設計等,如何在整體上發揮出資料的協同效應,為業務提供更高價值的資料服務鏈路,資料中臺可以將這些資料能力整合到一起,對業務端提供穩定的持續的服務能力。

根據上面的問題分析,資料中臺就是要解決找資料,理解資料、問題評估、取數及視覺化展現這五個問題。整個平臺的故事也是圍繞這個五個點。從根本上解決:

找數:資料從什麼地方來到什麼地方去,將資料和業務過程結合起來,實現資料的快速查詢

理解資料:通過資料的血緣關係,資料關聯關係及資料的說明資訊,讓資料開發人員,業務人員快速理解資料

問題評估:資料分析人員拿到需求,可以通過該平臺實現問題的自動評估,大大提高資料分析效率

取數:使用者可以不再關心資料的來源,不再擔心資料的一致性,不再依賴RD的排期開發。通過所選即所得的方式,滿足了使用者對業務核心指標的二次加工、報表和取數訴求

資料視覺化:依託於我們的BI視覺化系統和資料中臺的打通,資料分析人員可以快速的將資料中臺建立的資料模型快速的轉換成視覺化報表。

資料中臺要做什麼?

資料中臺是企業數字化運營的統一資料能力平臺,能夠按照規範匯聚和治理全域性資料,為各個業務部門提供標準的資料能力和資料工具,同時在公司層面管理資料能力的抽象、共享和複用。資料中臺與傳統資料倉儲和大資料平臺的最根本差異,就是強調從工具和機制上支援對資料能力的全域性抽象、共享和複用。應該說,資料中臺是建立在資料倉儲和大資料平臺之上的,讓業務部門可以更好、更有效率地使用資料的運營管理層。

資料中臺通過提供工具、流程和方法論,實現資料能力的全域性抽象、共享和複用,賦能業務部門,提高實現資料價值的效率。資料中臺需要具備資料匯聚整合、資料提純加工、資料服務視覺化、資料價值變現4個核心能力,讓企業員工、客戶、夥伴能夠方便地應用資料。

第一,實現這些目標必須有相應的資料能力,也就是從資料中產生價值的能力。

第二,要實現這些目標,必須完成全域性的資料匯聚和治理。

第三,企業必須高效完成從彙總好的資料到價值的轉換,需要進行資料能力的抽象,然後實現能力的共享和複用。

第四,在實現資料能力的共享和複用的過程中,需要協調複用和效率的矛盾。

針對資料中臺需要構建的目標,資料中臺需要實現如下功能和服務:

1.構建服務和系統

1.構建全域性一致的指標詞典,實現指標體系化管理

按照數倉主題域的方式對所有指標統一命名、分類,明確指標口徑、資料來源、計算邏輯,產出企業的指標詞典,由專門團隊來負責指標口徑的管控;

設計上線方便業務人員查詢的指標詞典管理系統,所有的資料產品、資料包表都引用指標系統的口徑,當滑鼠Hover到某個指標上時,浮現該指標的指標口徑定義。

2.統一數倉建模,構建全域性一直的公共層,提升資料複用性

制定統一的數倉建模規範,在模型設計階段,強制相同聚合粒度的模型,度量不能重複,保證相同粒度的指標、度量只加工一次;建設資料地圖,方便資料研發能快速查詢並準確理解資料。

3.提供企業資料地圖和自助取數系統

資料中臺構建了企業資料地圖,資料使用者可通過資料地圖快速瞭解企業當前有哪些資料,在哪張表裡可以看到,關聯了哪些指標和維度;

非技術人員可通過自主取數工具,選取指標,勾選指標的可分析維度,新增篩選條件,點選查詢,就可以方便獲取資料。

4.配置資料質量稽核規則和資料預警

通過配置資料質量稽核規則和資料預警,對資料一致性、完整性、正確性和及時性進行監控,確保第一時間發現、恢復、通知資料問題。

5.上線資料成本治理系統

資料治理系統可實現表維度、任務維度、應用維度的全面資料治理。比如一個30天內沒有被訪問的報表,我們認為其產出價值較低,這時我們可以結合這個報表的所有上游表和下游表產出任務,計算這張表的加工成本,有了價值和成本,便可計算出ROI,根據RO評估,實現低價值報表的及時發現和下線。

針對如上的一些功能和服務,資料中臺需要整合四個核心的功能:

2.整合資料中臺核心功能

1.匯聚整合

資料中臺需要對資料進行整合和完善,提供適用、適配、成熟、完善的一站式大資料平臺工具,在簡便有效的基礎上,實現資料採集、交換等任務配置以及監控管理。資料中臺必須具備資料整合與運營方面的能力,能夠接入、轉換、寫入或快取企業內外部多種來源的資料,協助不同部門和團隊的資料使用者更好地定位資料、理解資料。

2.提純加工

資料就像石油,需要經過提純加工才能使用,這個過程就是資料資產化。企業需要完整的資料資產體系,圍繞著能給業務帶來價值的資料資產進行建設,推動業務資料向資料資產的轉化。

資料中臺必須連通全域資料,通過統一的資料標準和質量體系,建設提純加工後的標準資料資產體系,以滿足企業業務對資料的需求。

3.服務視覺化

為了儘快讓資料用起來,資料中臺必須提供便捷、快速的資料服務能力,讓相關人員能夠迅速開發資料應用,支援資料資產場景化能力的快速輸出,以響應客戶的動態需求。多數企業還期待資料中臺可以提供資料化運營平臺,幫助企業快速實現資料資產的視覺化分析,提供包括實時流資料分析、預測分析、機器學習等更為高階的服務,為企業資料化運營賦能。資料資產必須服務於業務分析才能解決企業在資料洞察方面的短板,實現與業務的緊密結合。

4.價值變現

資料中臺通過打通企業資料,提供以前單個部門或者單個業務單元無法提供的資料服務能力,以實現資料的更大價值變現。企業期待資料中臺能提升跨部門的普適性業務價值能力,更好地管理資料應用,將資料洞察變成直接驅動業務行動的核心動能,跨業務場景推進資料實踐。

什麼企業合適構建資料中臺?

資料中臺不是萬能的,也不是所有的企業都合適構建資料中臺,有興趣可以看看這篇文章迷信中臺是一種病,得治

企業在選擇是否構建資料中臺的時,可以從以下幾個方面思考:

首先,看企業是否有一定的資訊基礎,是否實現了業務資料化的過程,有了一定的資料沉澱,資料中臺,顧名思義,資料是基礎,畢竟巧婦難為無米之炊;

其次,企業是否存在業務資料孤島,是否有需要整合各個業務系統的資料,進行關聯分析的需求,如果有,需要通過構建資料中臺,打通資料孤島,整合各業務系統資料,滿足關聯分析的需求。

最後,在日常的資料使用過程中是否遇到指標口徑不一致、需求響應速度慢、資料質量差、資料成本高等痛點。

如果滿足前兩個條件,且在資料應用中存在以上所述的一些痛點,那建議你可以考慮將資料中臺專案提上日程了。

參考:

資料中臺建設系列篇:什麼樣的企業適合建設資料中臺
資料中臺建設系列篇:什麼是資料中臺?
資料中臺建設(規劃篇)
基於Apache doris怎麼構建資料中臺(一)-什麼是資料中臺
《雲原生資料中臺:架構、方法論與實踐》
《資料中臺:讓資料用起來》

相關文章