資料中臺

studywell發表於2019-05-13

1. 資料中臺

1.1.   資料中臺 簡介

作者:傅一平
連結:
來源:簡書
簡書著作權歸作者所有,任何形式的轉載都請聯絡作者獲得授權並註明出處。

 

阿里提出了“大中臺,小前臺”,其中臺事業部包括搜尋事業部、共享業務平臺、資料技術及產品部,資料技術及產品部應是資料中臺建設的核心部門。

 

所謂資料中臺,即實現資料的分層與水平解耦,沉澱公共的資料能力。可分為三層,資料模型、資料服務與資料開發,透過資料建模實現跨域資料整合和知識沉澱,透過資料服務實現對於資料的封裝和開放,快速、靈活滿足上層應用的要求,透過資料開發工具滿足個性化資料和應用的需要,見下圖(以某運營商為例):

1、資料模型

資料模型是分層次的,以前叫作資料倉儲模型,筆者這裡概括為三層,基礎模型一般是關係建模,主要實現資料的標準化,我們叫作“書同文、車同軌”,融合模型一般是維度建模,主要實現跨越資料的整合,整合的形式可以是彙總、關聯,也包括解析,挖掘模型其實是偏應用的,但如果用的人多了,你也可以把挖掘模型作為企業的知識沉澱到中臺,比如離網挽留的模型具有很大的共性,就應該有人把它規整到中臺模型,以便開放給其它人使用,中臺的中是相對的,沒有絕對的標準。

2、資料服務

將資料模型按照應用要求做了服務封裝,就構成了資料服務,這個跟業務中臺中的服務概念是完全相同的,只是資料封裝比一般的功能封裝要難一點,畢竟OLTP功能的變化有限,而資料分析受市場因素的影響很大,變化更快,導致服務封裝的難度變大。

隨著企業大資料運營的深入,各類大資料應用層出不窮,對於資料服務的需求非常迫切,大資料如果不服務化,就無法規模化,比如浙江移動封裝了客戶洞察、位置洞察、營銷管理、終端洞察、金融徵信等各種服務共計幾百個,每月呼叫量超過億次,靈活的滿足了內外大資料服務的要求。

3、資料開發

但有資料模型和資料服務還是遠遠不夠的,因為再好的現成資料和服務也往往無法滿足前端個性化的要求,這時候就得授人以魚不如授人以漁了,資料中臺的最後一層就是資料開發,其按照開發難度也分為三個層次,最簡單的是提供標籤庫(DMP),使用者可以基於標籤的組裝快速形成營銷客戶群,一般面向業務人員,其次是提供資料開發平臺,使用者可以基於該平臺訪問到所有的資料並進行視覺化開發,一般面向SQL開發人員,最後就是提供應用環境和元件,讓技術人員可以自主打造個性化資料產品,以上層層遞進,滿足不同層次人員的要求。

對於標籤庫(DMP)到底是屬於SaaS還是PaaS是有爭議的,但標籤庫這類平臺顯然較生意參謀類產品更中臺一點,因為其通用性更強,專有業務的特性不是非常明顯,筆者還是認為可以歸為中颱。

應該來講,資料開發中的元件,比如頁面元件、視覺化元件什麼的,歸屬到業務中臺似乎更合理,但其實也要看企業的實際情況,哪裡用的多就可以歸屬到哪裡,沒有絕對的標準了。

以上劃分方式在邏輯上還是說得通的,但還有很多沒有考慮進來,比如演算法服務、機器學習引擎、hadoop、MPP等等,筆者覺得演算法服務應該屬於資料服務的一種型別,但h a d o o p、MPP、機器學習引擎更底層一點,應屬於私有云或公有云的範疇了,比如筆者看到阿里雲就提供了MaxCompute這類機器學習服務。

 

 

1.2.   資料中臺和資料創庫區別

作者:袋鼠雲
連結:
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。

資料中臺從某個意義來說屬於數倉的一種,都是要把資料抽進來建立一個資料倉儲。但是兩者的資料來源和建立數倉的目標以及資料應用的方向都存在很大差異。

首先,從資料來源來說,資料中臺的資料來源期望是全域資料包括業務資料庫,日誌資料,埋點資料,爬蟲資料,外部資料等。
資料的來源可以是結構化資料或者非結構化的資料。而傳統數倉的資料來源主要是業務資料庫,資料格式也是以結構化資料為主。

其次,建立資料中臺的目標是為了融合整個企業的全部資料,打通資料之間的隔閡,消除資料標準和口徑不一致的問題。資料中臺通常會對來自多方面的的基礎資料進行清洗,按照主題域概念建立多個以事物為主的主題域比如使用者主題域,商品主題域,渠道主題域,門店主題域等等。資料中臺遵循三個one的概念: One Data, One ID, One Service,就是說資料中臺不僅僅是匯聚企業各種資料,而且讓這些資料遵循相同的標準和口徑,對事物的標識能統一或者相互關聯,並且提供統一的資料服務介面。就像做菜一樣,按照標準化的菜名,先把所有可能用到的材料都準備好。而傳統的數倉主要用來做BI的報表,目的性很單一,只抽取和清洗該相關分析報表用到基礎資料,新增一張報表,就要從底層到上層再做一次。

然後,在資料應用方面,建立在資料中臺上的資料應用不僅僅只是面向於BI報表,更多面向營銷推薦,使用者畫像,AI決策分析,風險評估等。而且這些應用的特點是比較輕,容易快速開發出來,因為重要的資料分析工作在資料中臺已經完成並且沉澱,之前工作成果都能被多個應用共享。
而傳統的資料倉儲主要是面向報表,資料應用的建設就是傳統煙囪式建設,每次都從頭再來的開發方式。

最後,資料中臺是建立在分散式計算平臺和儲存平臺,理論上可以無限擴充平臺的計算和儲存能力。而多數的傳統數倉工具都是建立的單機的基礎上,一旦資料量變大,會受單機容量的限制。

 


作者:靳勇
連結:
來源:知乎
著作權歸作者所有。商業轉載請聯絡作者獲得授權,非商業轉載請註明出處。

資料中臺面向全域資料採集的管理,資料倉儲通常採集某個主題域的資料。

1,資產化的角度看,資料中臺和資料倉儲都能算是資料資產化,區別是資料中臺能夠進行全域資料的整體規劃和資料全生命週期管理,資料倉儲就很難實現;

2,從資料能力服務化的角度來看,資料中臺透過One Data、One ID、One Service的理念,以及儲存治理,計算治理的方式,可以讓更多的前臺應用共享資料中臺提供的資料能力(比如資料API,資料標籤,資料監控等等);資料倉儲通常是為了分析某些業務指標,或分析某個主題資料而搭建,目標更明確,輸出更多的是資料結果,而不是資料能力;

3,從投資回報率來看,資料中臺輸出的是資料能力,在建設資料中臺的時候,是 預估 使用方對資料能力的需求,所以需要考慮ROI;資料倉儲通常是有明確需求才會建設,一般不會考慮ROI;




來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29519108/viewspace-2644090/,如需轉載,請註明出處,否則將追究法律責任。

相關文章