阿里資料中臺建設過程、方法論、主要核心的產品、技術架構等等,對技術圈來說一直非常神祕。並且,阿里已經將中臺建設方法論形成了解決方案,向行業輸出,這也導致了阿里中臺相關資料、對外界的分享,都趨於嚴格控制。

本文,講解阿里資料中臺建設之道,透過 10 張圖,全面細緻解讀阿里資料中臺建設原理、實踐。

0 1

阿里資料中臺賦能業務全景圖

在架構圖中,看到最下面的內容主要是資料採集和接入,按照業態接入資料(比如淘寶、天貓、盒馬等),把這些資料抽取到計算平臺;通過 OneData 體系,以「業務板塊+分析維度」為架構去構建「公共資料中心」。

基於公共資料中心在上層根據業務需求進行建設:消費者資料體系、企業資料體系、內容資料體系等。

經過深度加工後,資料就可以發揮其價值被產品、業務所用;最後通過統一的資料服務中介軟體「OneService」提供統一資料服務。

0 2

阿里資料中臺三大體系

經過多年實戰,沉澱出了阿里雲上資料中臺核心能力框架體系:產品+技術+方法論。

歷經阿里生態內各種實戰歷練後,雲上資料中臺從業務視角而非純技術視角出發,智慧化構建資料、管理資料資產,並提供數椐呼叫、資料監控、資料分析與資料展現等多種服務。

承技術啟業務,是建設智慧資料和催生資料智慧的引擎。在 OneData、OneEntity、OneService 三大體系,特別是其方法論的指導下,雲上資料中臺本身的核心能力在不斷積累和沉澱。在阿里巴巴,幾乎所有人都知道雲上資料中臺的三大體系,如上圖所示。

OneData 致力於統一資料標準,讓資料成為資產而非成本;OneEntity 致力於統一實體,讓資料融通而以非孤島存在;OneService 致力於統一資料服務,讓資料複用而非複製。

這三大體系不僅有方法論,還有深刻的技術沉澱和不斷優化的產品沉澱,從而形成了阿里巴巴雲上資料中臺核心能力框架體系。

0 3

阿里資料中臺及賦能業務模式支撐

阿里資料中臺,經歷了所有阿里生態內業務的考驗,包括新零售、金融、物流、營銷、旅遊、健康、大文娛、社交等領域。

資料中臺除了建立起自已的核心能力之外,向上賦能業務前臺,向下與統一計算後臺連線,融為一體。

0 4

資料中臺技術的數字表現

今天,阿里處理的資料量已達 EB 級,相當於 10 億部高清電影的儲存量。在 2016 年雙十一當天,實時計算處理的資料量達到 9400 萬條/秒。而從使用者產生資料來源頭採集、整合並構資料、提供資料服務,到前臺展現完成僅需 2.5 秒。

「友盟+」是阿里把收購的幾家資料公司整合升級後,組成的一家資料公司。這裡僅以 2017 年「友盟+」對外公開的部分指標為例,其中的資料覆蓋 14 億部活躍裝置、685 萬家網站、135 萬個應用程式,日均處理約 280 億條資料,這一切都建立在阿里強大的資料處理技術底座之上。

0 5

資料中臺六大資料技術領域

前文提到,在建設阿里資料公共層之初,規劃了六大資料技術領域,即資料模型領域、儲存治理領域、資料質量領域、安全許可權領域、平臺運維領域、研發工程領域。

而在阿里資料公共層建設專案第二階段完成儲存治理領域,已經被擴大到資源治理領域,進而升級到資料資產管理領域,安全許可權領域,升級到資料信任領域,因為很多工作已經在產品中實現,平臺運維領域不再作為一個資料技術領域被推進,資料模型領域與資料質量領域還在持續推進中,不過增加了許多新的內涵,智慧黑盒領域則是新起之秀。

由此可見,資料技術領域不是一成不變的,而是隨著業務的發展和技術的突破不斷擴大、 昇華的。

0 6

資料中臺建設方法論

一、資料中臺建設方法論體系的全域性

(1)全流程一體化:即從資料採集到資料服務實現全鏈路通。在產品層面,不會讓使用者在不同使用階段來回切換於不同產品。

例如,使用者要做實體識別、使用者標籤畫像等,如果要依賴的資料在另外一個產品中, 甚至需要使用風格迥異的產品來完成,則使用者會不知所措。所以,以資料建設為例,要實現資料從採集到標準化、實體識別、標籤畫像及最終面向應用的一站式服務。

(2)向上多樣化賦能場景:不僅要有通用產品,還要有行業產品及尊享產品。應向不同的應用場景和使用者,提供差異化服務。

例如,阿里資料中臺向使用者提供的資料產品,就包括資料工具、專題分析、 應用分析、資料決策這四個層次的產品和服務。

(3) 向下遮蔽多計算引擎:不管是哪裡的雲端計算服務,都應該儘可能相容甚至遮蔽的,讓使用者在應用時感覺簡單。

在阿里 10 年大資料建設歷程中,資料建設的底座依賴至少經歷了 Oracle— GP-Hadoop —阿里雲端計算平臺的變化過程。很多大資料應用與創新者也一定會面臨類似的變化。

所以,對於產品和服務,需要連同生態合作伙伴一起努力實現遮蔽多種計算引擎,不管底座是阿里雲公共雲,還是阿里雲專有云,還是自建的私有云,都可以在此之上構建資料並實現平滑切換。

(4) 雙向聯動:在構建大資料及服務業務應用與創新的過程中,業務和技術是需要協同互動的,而不是一方是另一方的資源這種單向關係。

一般來說,對於業務需要技術的協同這一點,人們很容易理解,但對於技術同樣也需要業務的協同這一點,人們可能就不太容易理解。例如,要對消費者進行識別、刻畫、觸達和服務,則需要業務部門在業務前臺按照數裾技術規範和標準進行布點,以便採集到資料,以及需要業務人員與技術人員一起討論刻畫消費者標籤的關鍵因素,並確定哪些標籤符合業務線的價值訴求。

二、OneData體系方法論

OneData 體系方法論至少包括:資料標準化、技術核心工具化、後設資料驅動智慧化 3 個方面。

(1)資料標準化。要從源頭實施資料標準化,而非在資料研發之後,基於資料指標梳理的資料字典實施資料標準化。因為,只有每一個資料都是唯一的,資料模型才能穩定、可靠,資料服務才是靠譜、可信的。

(2)技術核心產品化。所有的規範、標準等,如果沒有一個全流程的工具作為保障, 則無法實現真正意義上的全鏈路通,因此,我們首先推進技術核心全面工具化。

(3)後設資料驅動智慧化。前文提到,阿里正在持續努力實現資料建模後的自動化程式碼生成,以及保障其實現和執行的智慧計算與儲存框架。為什麼阿里能做這件事情?其中一個重要原因就是,在源頭對每個後設資料進行了規範定義,儘可能實現資料的原子化和結構化,並將其全部存在後設資料中心裡。這些後設資料對於計算、排程、儲存等意義非凡,因此有望實現從人工到半自動化,進而實現智慧化。

三、OneEntity體系方法論

OneEntity 體系方法論至少包括:技術驅動資料連線、技術核心工具化、業務驅動技術價值化 3 個方面。

(1)技術驅動資料連線。OneEntity 要實現實體識別,首先依賴很強的實體識別技術,所以要用技術來驅動資料連線。

(2)技術核心產品化。產品化是目標,其發展過程不是一蹴而就的。一定要往這個方向努力,否則每一次進行標籤畫像(哪怕是類似的標籤),都要通過人力重複做一次,這實在是一件讓人非常痛苦的事情。所以,要高效地進行實體識別、使用者畫像,工具化是一條必由之路。當然,全部工具化總是很難實現的,一定還有工具無法替代人腦的部分,所以,努力追求的是將人腦智慧儘可能沉澱在工具型產品中。

(3)業務驅動技術價值化。正如前文所述,將資料從孤島變得融通,進而實現高價值,是需要業務來驅動的。在此過程中,再一次體現了業務和技術要「背靠背」「你情我願」地進行雙向聯動的。

四、OneService體系方法論

OneService 體系方法論至少包括:主題式資料服務、統一但多樣化的資料服務、跨源資料服務 3 個方面。

(1)主題式資料服務。舉一個例子,假設使用者想要看的是「會員」這個主題下的資料,至於「會員」主題背後有 1000 張物理表還是 2000 張物理表,他都不關心。而主題式資料服務要做的是,從方便使用者的視角出發,從邏輯層面遮蔽這 1000 張甚至是 2000 張物理表,以邏輯模型的方式構建而非物理表方式。

(2)統一但多樣化的資料服務。例如,雙十一當天上百億次的呼叫服務是統一的,但獲取形式可以是多樣化的,可以通過 API 提供自主的 SQL 查洵資料服務,也可以通過 API 提供線上直接呼叫數椐服務。

(3)跨源資料服務。不管資料服務的源頭在哪裡,從資料服務的角度出發,都不應該將這些複雜的情況暴露給使用者,而是儘可能地遮蔽多種異構資料來源。

業務在發展,技術在迭代,方法論也必然不斷升級,在實戰中沉澱、豐富雲上資料中臺建設方法論。

0 7

資料中臺產品化服務

在推進阿里資料公共層建設之初,就意識到業務與技術「背靠背」、雙向聯動的重要性。

在推進阿里巴巴資料公共層建設時,雖然當時在業務上雖然有了幾個月的緩衝時間,但維穩業務支援並不是停止業務支援,基本等同於“開著飛機換高能引擎”,雖然有時間和機會,但要快、很、準。

0 8

資料中臺核心產品Dataphin

Dataphin 是一款 PaaS 產品,致力於一站式解決智慧資料構建與管理的全鏈路訴求。具體來說,Dataphin 向各行各業的大資料建設、管理及應用訴求,一站式提供從資料接入到資料消費的全鏈路的大資料能力,包括產品、技術和方法論等,助力客戶打造智慧大資料體系,以驅動創新。

智慧大資料體系的建設,極大地豐富和完善了阿里巴巴大資料中心,OneData、 OneEntity、OneService 三大體系也漸趨成熟,併成為阿里巴巴中上至 CEO、下至一線員工共識的三大體系。

Dataphin 將指導解決所有與大資料體系建設有關的 OneData、OneEntity、OneService 體系方法論,及其在解決阿里巴巴資料公共層建設,及後續資料體系建設中的實際問題的具體做法全部沉澱下來。

0 9

Dataphin的PaaS服務

Dataphin 在賦能阿里生態內外的驅動力下,到底要關注哪些痛點與核心訴求?在 Dataphin 沉澱過程中,還要考慮哪些因素?Dataphin 在解決這些問題的過程中,提供了哪些獨樹一幟的核心能力?上圖所示的正是 Dataphin 在沉澱過程中考慮的各種因素,以及相應的核心能力輸出。

阿里生態內遇到的很多痛點和訴求,阿里生態外的各行業客戶也會面臨,具體介紹如下。

(1)CEO關心資料對公司的戰略意義及現實意義:這份資料是準確的嗎?早上一起床就能看到資料嗎?在資料上的投入產出比是怎樣的?……

(2)CCO/CFO關心資料對業務的意義和價值,以及如何考量:大資料能助力全域性監控,進而輔助投資決策嗎?每一條業務線運營都能用同一份資料嗎?大資料如何助力資料化運營並無處不在地深入業務?大資料是否會提升業務運營的效率和效果,以及如何考量?……

(3)CTO/CFO關心如何讓資料又準又快又成本可控:成本消耗是否在可控範圍內?在技術資源上還有多少優化、提升的空間?技術人才的研發、維護投入是否有改進和提升空間?……

(4)—線業務人員關心資料對自己達成業務目標的作用:我能又準又快地看資料和用資料嗎?我的資料需求能否得到快速、無差異的響應?這些資料能否幫助我提升業績,及時反映業務的完成進度?……

(5)—線技術人員關心如何既優又超前地提供服務:計算是否夠快,儲存是否夠優?程式碼開發是否可以提速,線上任務是否可維護?技術是否有可能在滿足業務的同時主動賦能業務?……

10

資料中臺核心產品Quick BI

大資料構建與管理完畢之後,需要利用 Quick BI 這一智慧資料與視覺化元件將資料背後的價值展現在人們面前。

Quick BI 扭轉了當初重度依賴專業資料分析人才的局面,能夠賦予一線業務人員智慧化的分析工具,真正的做到了「資料化運營」讓資料產生價值。