資料中臺(方法論篇)

一寸HUI發表於2022-01-06

從上一篇文章資料中臺(介紹篇)我們知道資料中臺是什麼,解決什麼問題,有什麼價值,要做些什麼,接下來我們去了解下通過什麼方法來指導實施資料中臺。

資料中臺既不是一項技術,也不是一款產品,而是一套方法論,或者說是企業的一套戰略,其本質是企業運營思路和模式的轉變。資料中臺並不是購買一套產品就能實現的,成功的資料中臺戰略的實施不僅需要工具和產品的支援,更需要公司架構和流程層面的配合。

資料中臺建設過程本身需要一整套的方法論來指導,包括實施路線、技術架構、組織方式、人員協作等各個方面的指導方針。這一套方法論的核心原則是:業務驅動,使用可衡量的成果激發自主積極性;敏捷式的實施和迭代,快速落地和見效;強調規範的制定和工具的使用,可持續發展。

資料中臺本質上是符合一定規範的大資料平臺和資料倉儲體系。這些規範總結為OneID、OneModel、OneService、TotalPlatform和TotalInsight。建設符合這些規範的資料中臺,最重要的是建設時遵循一個合理的方法論,採用一個合理的體系架構。在方法論中,最主要的思想是業務驅動,資料賦能,快速落地,小步快跑。

在說資料方法論之前,我們看看阿里巴巴的資料中臺。

阿里資料中臺OneData

1.阿里資料中臺


從阿里巴巴資料中臺全景圖中我們看到,阿里的資料中臺主要由四個部分組成:資料資產管理IPaaS、資料中臺DaaS、資料研發平臺IPaaS、計算與儲存平臺IaaS。

(1)資料資產管理IPaaS

資料資產管理其核心是基於後設資料管理技術實現資料資產的“可看、可找、可用”,主要提供資產地圖、資產分析、資產管理、資產應用、資產運營等功能。通過資料地圖讓資料管理和使用者,清楚的知道企業都有哪些資料,這些資料存在什麼地方,資料被誰管理,如何獲取等等;資產分析是利用BI技術對資料資產進行統計分析,並提供視覺化服務,例如:按主題、型別的統計資料資產數量、資料資產的質量和資料資產的使用情況等;資產管理可以理解為對後設資料的管理,包括後設資料的增刪改查;資產應用可以理解為通過後設資料管理提升資料資產的利用率,比如:資料資產的熱度分析、全鏈分析、影響分析等;而資產運營嚴格意義上說不能是一個功能,而是為了提升資料資產質量和使用效率的一系列措施,可能涉及組織、制度、績效考核等等方面。通過資料資產管理啟用企業的沉睡的資料,從而促進資料的使用。

(2)資料研發平臺IPaaS

資料研發平臺包括了數倉規劃、模型構建、指標規範、資料同步、資料開發、任務排程、監控告警等功能,可以理解為資料倉儲建設過程中所用到的相關技術與工具,而在這方面阿里有一個核心的產品Dataphin(智慧資料構建與管理)是一款用於大資料平臺建設的智慧引擎,提供數倉規劃、資料引入、規範定義、資料建模研發、資料資產管理、資料服務等的全鏈路智慧資料構建及管理服務。

(3)計算與儲存平臺IaaS

計算與與儲存平臺主要提供計算和儲存元件,包括實時計算和離線計算元件

(4)資料中臺DaaS

資料中臺DaaS主要包含了垂直資料中心:面向各垂直行業應用的統一資料接入平臺OneClick;公共資料中心:面向公共資料中心以業務板塊+業務過程+分析維度架構的Onedata體系;萃取資料中心:面向業務物件+資料標籤的OneID體系;資料開放共享中心:面向應用及開放的統一資料服務中介軟體OneService。這四個“One”構成了阿里巴巴資料中臺的核心!

2.OneData體系

阿里巴巴就提出了"大中臺,小前臺",倡導資料中臺建設,核心方法論:OneData 。阿里雲 OneData 資料中臺解決方案基於大資料儲存和計算平臺為載體,以 OneModel 統一資料構建及管理方法論為主幹,OneID 核心商業要素資產化為核心,實現全域連結、標籤萃取、立體畫像,以資料資產管理為皮,資料應用服務為枝葉的鬆耦性整體解決方案。其資料服務理念根植於心,強調業務模式,在推進數字化轉型中實現價值。

資料中臺到如今的建設成果主要體現在兩方面:一個是資料的技術能力,另一個是資料的資產。

今天阿里的各個業務都在共享同一套資料技術和資產。阿里內部為這個統一化的資料體系命名為 “OneData”。OneData 又主要抽象成三個部分,分別是:OneID、OneModel、OneService。

  • 第一部分:OneModel 致力於實現資料的標準與統一;
  • 第二部分:OneID 致力於實現實體的統一,讓資料融通而非以孤島存在。
  • 第三部分:OneService 致力於實現資料服務統一,讓資料複用而非複製。

(1)OneModel

OneModel方法論是以維度建模為理論基礎,構建匯流排矩陣,劃分和定義業務板塊、資料域、業務過程、維度、度量/原子指標、業務限定、時間週期、派生指標,設計出維度表、明細事實表、彙總事實表的過程。


OneModel 即建立企業統一的資料公共層,從設計、開發、部署和使用上保障了資料口徑規範和統一,實現資料資產全鏈路管理,提供標準資料輸出。OneModel方法論可以幫準企業建設標準的、穩定的資料中臺,但再好的方法論如果不能規模化、產品化,對於客戶而言,開發、管理都是更多的開發投入,以及對更多的資料技術專家的依賴。通過規範定義,定義維度、業務過程、業務限定、原子指標、派生指標,通過定義、配置以後,自動生成維度邏輯表、事實邏輯表、彙總邏輯表,幫助企業建設高效、標準的資料中臺。

資料劃分主題進行管理:表的命名,欄位的命名等規範統一,做到見名知義資料格式和欄位命名和定義規範化:具體參考離線數倉專案講解的表和欄位命名規範:數倉分層- 業務主題域-業務過程-基礎資訊-分割槽規則指標一致,不存在二義性:提供全域性資料字典確保意義一致。
資料模型複用:推薦採用分層的設計方式,通常包括:ODS 原始資料層,DWD 明細資料層, DWS 輕度彙總資料層,ADS應用資料層 / DM資料集市層,DIM 公共維度層。
資料完善:資料中臺儘可能的覆蓋到所有業務過程,使用者和系統的一切行為都被記錄下來永久儲存 OneData 體系的目標是構建統一的資料規範標準,讓資料成為一種資產,而不是成本。資產和成本的差別在於資產是可以沉澱的,是可以被複用的。成本是消耗性質的、是臨時的、無法被複用的。

(2)OneID

OneID 指統一資料萃取,是一套解決資料孤島問題的思想和方法。即建立業務實體要素資產化為核心,實現全域連結、標籤萃取、立體畫像,其資料服務理念根植於心,強調業務模式。

資料孤島是企業發展到一定階段後普遍遇到的問題。各個部門、業務、產品,各自定義和儲存其資料,使得這些資料間難以關聯,變成孤島一般的存在。OneID的做法是通過統一的實體識別和連線,打破資料孤島,實現資料通融。簡單來說,使用者、裝置等業務實體,在對應的業務資料中,會被對映為唯一識別(UID)上,其各個維度的資料通過這個UID進行關聯。各個部門、業務、產品對業務實體的UID的定義和實現不一樣,使得資料間無法直接關聯,成為了資料孤島。

基於手機號、身份證、郵箱、裝置ID等資訊,結合業務規則、機器學習、圖演算法等演算法,進行 ID-Mapping,將各種 UID 都對映到統一ID上。通過這個統一ID,便可關聯起各個資料孤島的資料,實現資料通融,以確保業務分析、使用者畫像等資料應用的準確和全面。

(3)OneService

OneService,資料即服務,強調資料中臺中的資料應該是通過 API 介面的方式被訪問。即資料被整合和計算好之後,需要提供給產品和應用進行資料消費,為了更好的效能和體驗,需要構建資料服務層,通過統一的介面服務化方式對外提供資料服務。
從不同的系統取資料,應用開發需要定製不同的訪問介面。而且如果資料發生異常,還不能查出 影響到下游應用的那些應用或者報表。所以當你想下線一張表的時候,就無法實施,造成了上線容易, 下線難的囧狀。而 API 介面一方面對應用開發遮蔽了底層資料儲存,使用統一標準的 API 介面查詢資料,提高了資料接 入的速度。另一方面,對於資料開發,提高了資料應用的管理效率,建立了表到應用的鏈路關係。

資料中臺方法論

看完上面的阿里資料中臺,發現中臺的建設涉及到很多的東西:基礎平臺計算和儲存,開發工具,業務驅動,不同部門,資料規範,資料融合,資料建模,資料資產等,根據這些要建設的內容,《資料中臺:讓資料用起來》這本書中提出了資料中臺的建設方法論。


1種戰略行動:把用資料中臺驅動業務發展定位為企業級戰略,全域性謀劃。

2項保障條件:通過宣導統一組織間的資料認知,通過流程加速組織變革。

3條目標準則:將資料的可見、可用、可運營3個核心準則始終貫穿於中臺建設的全過程,保障建設在正確軌道上。

4套建設內容:通過技術體系、資料體系、服務體系、運營體系建設保證中臺建設的全面性和可持續性。

5個關鍵步驟:通過理現狀、立架構、建資產、用資料、做運營5個關鍵行動控制中臺建設關鍵節點的質量。

1種戰略行動

建設資料中臺是為了支撐企業數字化、智慧化升級,通過全域性的維度支撐業務,讓企業在市場上更具競爭優勢,因此需要從公司戰略層面來規劃。在中臺建設過程中,會涉及所有相關業態、各塊資源的協調和推進,這都需要站在更高的層面來考慮。當然,具體在實施過程中,為了能快速迭代推進,也會採取從點到面的突破方法,從某個業務或者某個部門開始,初步構建看到成效再逐步推廣,但不影響其作為核心戰略的定位。

1種戰略行動建設資料中臺是為了支撐企業數字化、智慧化升級,通過全域性的維度支撐業務,讓企業在市場上更具競爭優勢,因此需要從公司戰略層面來規劃。在中臺建設過程中,會涉及所有相關業態、各塊資源的協調和推進,這都需要站在更高的層面來考慮。當然,具體在實施過程中,為了能快速迭代推進,也會採取從點到面的突破方法,從某個業務或者某個部門開始,初步構建看到成效再逐步推廣,但不影響其作為核心戰略的定位。

2種保障條件

資料中臺是企業級戰略,支撐企業數字化轉型,涉及企業的方方面面,資料中臺戰略的執行必然伴隨著企業組織保障以及整個企業資料意識的提升。

首先,中臺戰略的實施需要有組織保障。與組織對應的是資源與責任,資料中臺由誰來建、誰來維護、誰來經營、業務需求怎麼承接、效果怎麼衡量等問題,已經超出IT的範疇,需要企業更高層面對應的組織來保障。圖所示為中颱組織架構。企業實施資料中臺戰略,必須首先建立起資料中臺團隊,讓他們負責中臺的建設、維護、運營以及業務的承接和中臺服務的推廣等。另外,有了中臺,企業的運轉模式發生了變化,業務、後臺、管理等團隊也需要有對應的組織人員與中臺團隊對接。


其次,中臺戰略的實施需要提升全企業的資料意識(資料採集意識,資料標準化意識,資料使用意識,資料安全意識)。資料文化是資料中臺戰略不可或缺的部分,資料中臺的推進依賴於資料文化的建立,反過來,企業資料文化的沉澱又是資料中臺建設的產出。大家談論大資料比較多,但經常對什麼是大資料感到困惑,在筆者們看來,大資料和當年提的“網際網路+”一樣,是一種考慮問題的思維方式,用網際網路思維、資料思維來發現問題,解決問題。因此,用一句話來概括資料文化:用資料說話

3專案標準則

資料中臺的3專案標準則——可見、可用、可運營,不僅可作為企業在資料中臺建設中的具體建設指引,也可用來客觀評估目前建設內容的完整度。

資料可見:(指標管理,後設資料管理,資料資產目錄管理,資料來源,資料整合,資料ETL,資料消費,資料建模,演算法建模通通進行視覺化)

資料可用:(資料內容,資料服務,資料任務,資料指標,資料標籤,資料資產通通可用)

資料可運營:(質量量化管理,價值量化管理,資料運營角色)

4套建設內容

建設內容是資料中臺建設的核心,是可呈現的產出物,也是資料中臺價值所在,前面的戰略措施、保障條件、目標準則都是為了建設內容能夠順利產出並且可以持續發揮價值。資料中臺的建設內容包含技術體系、資料體系、服務體系、運營體系四大體系,通過這四套體系的建設實現資料中臺讓資料持續用起來的目標。技術體系是基礎支撐,就像是骨架一樣撐起整個資料中臺。資料體系就像是資料中臺的血肉,資料中臺對外呈現的主要內容就是資料體系。服務體系是資料中臺的價值所在,就像資料中臺的靈魂一樣,啟用靜止的骨架、血肉,讓中臺動起來,發揮價值。運營體系是資料中臺的守護者,通過運營體系保證整個中臺的健康、持續運轉。

(1)技術體系

技術體系分兩個層面:大資料儲存計算技術和資料中臺工具技術元件,技術體系主要關注點是工具技術元件。大資料儲存計算技術,比如Hadoop、Spark、Flink、Greenplum、Elasticsearch、Redis、Phoenix等,相對標準,企業只需要進行合理選型即可,並不需要自己建設,而且技術難度很大,企業也不太可能自己建設。資料中臺工具技術元件包括資料匯聚、資料開發、資料資產管理、資料服務管控等。資料中臺是企業制定和實施資料匯聚、建模和加工規範的場所,也是企業資料體系儲存管理的工具平臺。通過工具化、產品化、視覺化降低技術門檻,讓資料能夠被更方便地加工使用。對於平臺有不同的使用者對應到不同的技術:

  • 面向資料運維,包括叢集運維。
  • 面向資料開發,包括ETL。
  • 面向資料管理,比如資料治理的具體的管理人員,後設資料的管理人員,還有資料標準的相關管理人員。
  • 面向應用開發。IT團隊的應用開發也是資料中臺的一個使用者,我們後面在服務體系裡邊會給大家重點闡述。
  • 面向資料分析。因為我們看到部分的企業裡面把一些BI或者一些大屏也當作資料中臺的平臺工具類。

(2)資料體系

資料體系是資料中臺建設、管理、使用的核心要素,全企業的資料通過各種方式匯聚到資料中臺,在資料中臺按照一定的建模方式進行加工,形成企業的資料資產體系。資料中臺始終圍繞著資料體系的建設和使用,讓資料體系儘可能完整、準確、使用廣泛。不同企業的業務不同、資料不同,資料體系的內容不同,但是建設的方法和對工具的要求是相似的,需要在中臺工具和建設方法的基礎上針對不同的企業建設不同的資料體系。

(3)服務體系

資料中臺與大資料平臺的最主要區別是資料能更方便地以服務化的方式支撐業務,而這是通過資料中臺服務體系實現的。服務體系是通過資料中臺的服務元件能力,把資料變為一種服務能力,比如客戶微觀畫像服務、信用評估服務、風險預警服務等,讓資料能夠方便地參與到業務中併為業務帶去價值。筆者經常聽到的數字化轉型、資料化經營,就是讓業務決策通過資料而不是僅憑經驗,需要的正是資料服務能力。每家企業的業務不同,對資料服務的訴求也不同,資料中臺無法產品化地提供企業所需的所有資料服務能力。資料中臺通過提供資料服務生成、釋出、監控、管理功能,幫助企業逐個建立屬於自己的每一個資料服務,逐步完成企業資料服務體系的構建

(4)運營體系

運營體系是資料中臺得以健康、持續運轉的基礎。運營體系包括平臺流程規範執行監督、平臺資源佔用的監管及優化推動、資料質量的監督及改進推動、資料價值的評估、資料服務的推廣、稽查排名等。其目標是讓平臺可以持續健康運轉,產生持續價值。資料中臺是個複雜工程,資料的匯聚、開發、管理、服務都是要持續進行的工作,如果沒有運營體系的保障,可能會導致後期的參與者無從下手,隨著時間的推移,資料的質量、服務的效率也會持續下降,進而導致中臺無法使用。資料中臺是一個持續的過程,一旦啟動,就不能暫停,更不能停止,而保障資料中臺持續高效運轉的就是這套運營體系。

5個關鍵步驟

資料中臺在具體落地實施時,要結合技術、產品、資料、服務、運營等5個方面,逐步開展相關的工作,在構建閉環時會多考慮基礎設施部分的能力。一旦閉環建設完成,就可以在各個環節不斷豐富能力,逐步成為資料應用的完整體系。根據筆者的實踐經驗,資料中臺的建設過程主要通過5個關鍵步驟來完成,如圖所示。

(1)理現狀

梳理企業的系統建設、已經擁有的資料以及業務特點等現狀,瞭解企業對資料中臺的認知,以及相應的資料文化建設情況。點對點地與業務部門、IT部門進行溝通,獲取企業的產品和服務資訊,形成業務現狀調研報告,同時瞭解目前企業以怎樣的組織形態來保證客戶的服務能力。詳細調研目前企業的IT建設情況和業務資料沉澱情況,比如採用的什麼資料庫、資料量、資料欄位和更新週期等,以便後續更好地設計技術架構。

(2)立架構

根據現狀形成整體的規劃藍圖,形成技術產品、資料體系、服務方式以及運營重點等相關的方案,梳理並確立各塊架構。企業資訊架構經常談到的4A,即業務架構、技術架構、應用架構和資料架構都需要在這個階段進行確認。這4個架構具體介紹如下:

  • 業務架構:保障資料中臺能夠適用於企業的業務運管模型和流程體系。
  • 技術架構:主要是指技術體系中的資料基座,主要根據業務架構近遠期規劃,對資料的儲存和計算進行統一的選型
  • 應用架構:特指資料中臺應用架構,後面幾個關鍵步驟的內容所依賴的工具主要由資料中臺作為平臺應用來承接。
  • 組織架構:主要是保證中臺專案的順利落地需要企業考慮的整體組織保障,其中的角色有業務人員、IT人員、供應商和相關負責人。

(3)建資產

結合資料架構的整體設計,通過資料資產體系建設方法,幫助企業構建既符合場景需求又滿足資料架構要求的資料資產體系並實施落地。這個步驟涉及資料匯聚、資料倉儲建設、標籤體系建設以及應用資料建設,其中最關鍵的是標籤體系建設。所謂標籤體系是面向具體物件構建的全維度資料標籤,通過標籤體系可以方便地支撐應用,大資料的核心魅力和服務能力主要就體現在標籤體系的服務能力上。

(4)用資料

從應用場景出發,將已經構建的資料資產通過服務化方式,應用到具體的業務中,發揮資料價值。將資料資產快速形成服務能力並與業務進行對接,在業務中產生資料價值,實現資料的服務化、業務化。在服務過程中,資料安全是不得不考慮的問題,哪些人能看到什麼數字資產,能選擇什麼型別的服務都是需要嚴格稽核的

(5)做運營

資料應用於業務後,其產生的價值通過運營的能力不斷優化迭代,並讓更多的人感知到資料的價值點。資料中臺建設是一個持續建設和運營的過程,所謂持續建設和運營是指在架構基本穩定的情況下,不斷迴圈第3~5步,多方角色會圍繞核心KPI不斷挖掘資料和業務場景的結合點,不斷根據質量和價值兩個點來運營優化。企業通過多個組織之間的配合推進,會逐步形成企業特有的資料文化和認知,這是企業在數字化轉型中非常重要但很難跨越的點。

參考:

OneData之OneID

什麼是One Data體系?阿里資料中臺解讀

什麼是 OneData?阿里資料中臺實施方法論解讀

多圖詳解資料中臺建設框架

《雲原生資料中臺:架構、方法論與實踐》

《資料中臺:讓資料用起來》

相關文章