IT老兵告訴你資料中臺和大資料平臺有啥不一樣?

qing_yun發表於2020-09-09

前幾日一篇《中臺是怎麼臭了大街的》把中臺這個風口又推到了浪尖,自2018 年中臺火了以後,冰火兩重天,讚美和質疑之聲從未間斷。資料中臺是什麼?資料中臺和大資料平臺有啥不一樣?相信是很多人的困惑。

ITPUB 技術棧在疫情期間推出一系列線上沙龍活動主題包含大資料應用架構、儲存與計算、資料治理與資料中臺的建設、雲端計算的實踐與探索,本期邀請到了 IT 老兵王保強,結合自身經驗探討大資料平臺和資料中臺的建設之道。

目前在南方電網旗下某IT 公司任職的王保強主要負責資料治理工作,擁有 21 IT 工作經驗,曾在 海南 移動負責資料倉儲、大資料平臺等專案,見證了從傳統資料倉儲轉型到大資料平臺的全歷程,見證了大資料平臺從0 1 的全部過程,對資料中臺也有自己獨特的思考。

什麼是資料中臺?

現在各種新名詞層出不窮,頂層的有智慧地球、智慧城市、城市大腦;企業層面的有數字化轉型、網際網路經濟,數字經濟、數字平臺;平臺層面的有物聯網,雲端計算,大資料,5G ,人工智慧,機器智慧,深度學習,知識圖譜;技術層面的有資料倉儲、資料集市、大資料平臺、資料湖、資料中臺、業務中臺、技術中臺等等,總之是你方唱罷他登場,各種概念滿天飛

關於資料中臺,王保強總結了市場的幾個主要概念和描述:

1 、資料中臺是聚合和治理跨域資料,將資料抽象封裝成服務,提供給前臺以業務價值的邏輯概念。

2 、資料中臺是一套可持續 讓企業的資料用起來 的機制,一種戰略選擇和組織形式,是依據企業特有的業務模式和組織架構,透過有形的產品和實施方法論支撐,構建一套持續不斷把資料變成資產並服務於業務的機制。

3 、資料中臺連線資料前臺和後臺,突破資料侷限,為企業提供更靈活、高效、低成本的資料分析挖掘服務,避免企業為滿足具體某部門某種資料分析需求而投放大量高成本、重複性的資料開發成本。

4 、資料中臺是指透過資料技術,對海量資料進行採集、計算、儲存、加工,同時統一標準和口徑。資料中臺把資料統一之後,會形成標準資料,再進行儲存,形成大資料資產層,進而為客戶提供高效服務。

5 、資料中臺,包括平臺、工具、資料、組織、流程、規範等一切與企業資料資產如何用起來所相關的。

資料中臺就是資料服務化,服務化的核心是資料模型化和服務元件化,服務化的基礎是大資料平臺 或資料倉儲 王保強認為能夠提供高效的資料服務化,是資料中臺的特徵。

結合王保強的實踐經驗,從資料倉儲到大資料平臺再到大熱的資料中臺,是一脈相承的。

資料倉儲VS 大資料平臺 VS 資料中臺

資料倉儲

從傳統概念來看,資料倉儲是一個面向主題的、整合的、相對穩定的、反映歷史變化的資料集合,用於支援管理決策和全域性資訊共享。

王保強認為資料倉儲的主題建模思想是資料倉儲的核心。面向主題,採用正規化模型理論中的主題劃分方法對業務資料進行分類。一致性保證方面,採用維度模型理論中的匯流排結構思想,建立統一的一致性維度表和一致性事實表來保證一致性。而無論正規化建模還是維度建模都非常重視資料質量問題,綜合使用兩個理論中的方法保證資料質量。合理採取維度退化、變化維、增加冗餘等方法,則保證了資料的計算和查詢效率。

 

中國移動省級經營分析系統(以下簡稱:經營分析系統)的基礎資料主要包括參與人、事件、服務、資源、賬務、營銷和財務七大主題域,並依據實體- 關係理論,遵照第三正規化進行建模。

資料倉儲一般採用分層架構,最底層是來自各業務系統的基礎資料,上層是彙總資料,彙總資料來源於對基礎資料中的常用指標資料進行輕量彙總,並對關鍵業務實體進行標準化處理。彙總資料邏輯模型的設計採用自底而上和自頂向下兩種方法相結合,首先將清單等彙總形成清單彙總,然後對應資訊子層的資料需求,設計個人客戶、集團客戶、他網客戶等主題的彙總。

王保強認為彙總表很關鍵, 彙總資料服務於資訊子層,用以減少資料轉換步驟,提高資料提供的效率。資訊子層是經營分析系統加工後的結果資料,透過資料封裝服務,對外提供統一的資訊檢視。

在中國移動,資訊子層邏輯模型的設計採用自頂向下方法,透過分析資料封裝和業務規範的需求,形成基礎資料檢視(如KPI 、報表)、個人客戶、集團客戶、家庭客戶、他網客戶、產品、渠道、終端、校園客戶、垃圾簡訊客戶、網路和營銷資源統一檢視。這形成了企業資料模型的基礎,是資料倉儲的一個核心,後續所做的資料探勘等很大程度上來源於該模型本身的資料質量和資料唯一性、全域性性。

資料集市

資料集市通常是資料倉儲的子集,將資料倉儲中的資料按照不同角度進行組織和儲存,主要面向地市分公司或者特定業務部門、特定需求的業務,建立相應的應用專題,例如財務分析。中國移動的資料集市細分為地市資料集市和專業資料集市,其中專業資料集市又分為增值業務資料集市、集團客戶資料集市和網際網路資料集市。

2012 年中國移動的流量業務等增值業務飛速發展,其經營分析系統壓力較大,單獨構建了增值業務資料集市為經營分析系統減負。資料集市其資料粒度較粗,資料採取星型或雪花型結構,較少保留歷史資料,便於訪問分析和快速查詢。

大資料平臺

2013 4G 飛速發展,流量業務在中國移動佔比也水漲船高,為了爭奪使用者,需要加強對使用者使用流量和軌跡的分析,暴增的流量和分析需求使得原有資料倉儲不堪重負,在擴充套件性和計算能力方面都捉襟見肘,開始逐步構建大資料平臺,王保強強調大資料平臺是並非一步到位,而是一步一步構建 和演進過來的

隨著業務的發展需要, 海南 移動先後構建了Hadoop 平臺和流處理平臺,為了避免形成資料煙囪和資料孤島,最終決定統一規劃構建一個大資料平臺。  

2014 年底 海南 移動搭建了12 臺的 Hadoop 節點,叢集較簡單, 2015 海南 移動每天接入5T 上網信令,彼時傳統架構的弊端更為明顯,小機 + 資料庫計算儲存能力不足,擴容成本太高,單機檔案採集吞吐量不足。為了解決以上弊端, 海南 移動構建了Hadoop 管理和儲存叢集,包括分散式檔案採集叢集、分散式 ETL 排程叢集、應用伺服器、 MySQL 伺服器,第一個 Hadoop 平臺就此成型。

隨後整個通訊行業對使用者的爭奪異常激烈,需要快速定位使用者進行精準營銷。彼時 海南 移動的系統 每天 接入7T 上網信令和 5T 位置信令,需要對信令實時採集、實時計算、實時事件捕捉,於是搭建了第一個流處理平臺。

 

乍看Hadoop 平臺和流處理平臺很相似,後者在前者基礎上加了 Kafka 訊息叢集、實時事件處理叢集、實時服務叢集,兩個系統在硬體層面整合到一起,但實際上各個系統獨自處理各自的事務。團隊認為如果繼續採用原有方式構建,會形成煙囪資料。考慮到幾個平臺的技術棧較為相似,決定統一構建一個大資料平臺。

王保強強調構建大資料平臺的核心關鍵在於規劃。在技術架構層面,包括硬體規劃、磁碟規劃、平臺軟體規劃、記憶體庫規劃、資料流向規劃、平臺監控規劃等都要做到位。當然除了規劃還要在探索中實踐,其最終的技術棧和功能檢視如下:

 

企業級大資料平臺實現結構化、半結構化和非結構化資料統一儲存計算功能,透過資料封裝提供服務功能,提供自助報表工具,面向市場、網路以及企業外部提供服務。

大資料平臺構建好以後,為了實現資料價值,團隊以資料應用為中心構建企業資料模型,為實現內外部應用支撐,又建設了開放共享平臺,提供資料服務和Open API 服務,為了支援多應用廠家協作開發,又提供了多租戶管理,安全管理、資料目錄管理。

 

王保強認為大資料平臺、經營分析、資料中臺的發展都是一脈相承,都是以企業資料模型的開發為基礎與核心,為資料中臺的資料服務化做好了準備。在他看來,當初大資料平臺的建設實際在向著資料中臺的方向構建。

資料中臺:生產資料到資料生產力

王保強認為資料中臺是資料服務工廠,對於業務的價值是加速資料到價值的過程,提高企業的響應能力。 是聚合和治理跨域資料,將資料封裝成服務,提供給前臺業務價值的一個邏輯概念。從這個角度上,與大資料平臺的發展一脈相承。

如今在瞬息萬變競爭更為激烈的市場,客戶需要更準確的觸達和更快速的響應,這一切都離不開資料的治理和應用,王保強認為建設資料中臺要考慮如何支援業務創新形成核心壁壘。同時也考慮其成本低、能力多、應用廣的技術價值,有豐富的標籤、支援跨主題域訪問資料,且資料可以複用。總結來看,資料中臺是把生產資料轉換成資料生產力的一個過程,讓資料驅動決策和運營。

王保強總結資料中臺需要必備匯聚整合、提純加工、服務視覺化和價值變現四個能力,大資料平可以認為是資料原材料採集到加工和儲存的企業模型構建的地方,資料中臺是資料服務,更多提供服務化方面的能力,讓使用者快速發現企業現有的資料資產,然後快速開發訪問,實現資料資產的視覺化,瞭解企業資料的來龍去脈,快速構建應用實現價值變現。

資料中臺自誕生以來便伴隨著讚美與爭議,上圖為王保強提出的資料中臺架構,令筆者印象深刻的是他在課程直播時比較謙虛地說這個中臺架構不一定對。總體來看在中國資料中臺還處在一個探索階段,希望企業能夠結合自身業務做更多有益的嘗試,多一些參考,也許就少一些試錯成本,讓中臺有價值地落地。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69925873/viewspace-2718130/,如需轉載,請註明出處,否則將追究法律責任。

相關文章