資料平臺、大資料平臺、資料中臺……還分的清不?

qwer1030274531發表於2020-09-08

  造概念,在IT行業可不是一件陌生的事兒,中文博大精深,新名詞、新概念往往簡單準確,既可以被大眾接受,又可以被專家把玩,真正做到雅俗共賞、各有趣味。近年來,資料中臺之火爆,什麼資料平臺、資料中臺、資料湖、資料集市等等,不同的叫法把大家繞的雲裡霧裡,概念混淆不清,著實讓人摸不著頭腦……

  正如我們清楚的知道企業要進行數字化驅動架構之前,必須要建立統一的資料標準和規範,用統一的、大家都瞭解的語言描述一件事情是多麼重要。同樣的道理,在理解“大資料”“資料中臺”相關知識之前,我們有必要先將常遇到的包括資料倉儲、資料集市、數倉湖、大資料平臺、資料中臺等概念一次性說清,以便在今後的學習與建設中能夠清楚的區別開來。

  在回答上述問題之前,我們先來看看資料中臺應該怎麼理解?阿里認為資料中臺其三項核心能力分別為:OneModel負責統一資料構建及管理,OneID負責將核心商業要素資產化,OneService負責向上提供統一的資料服務。

  小編認為,資料中臺的核心能力是資料能力的抽象、共享與複用,兩者對資料中臺的定義看似差異巨大,但仔細分析,相差無幾。換言之,“抽象”是為了達成“OneModel”、“共享”則是為了“OneID”、“複用”才能讓“OneService”更有意義。

  數字化運營不同階段,運營手段各盡所能

  隨著大資料技術的不斷更新與迭代,資料管理工具得到了飛速的發展,從資料庫、資料倉儲、資料集市與資料湖,再到大資料平臺與如今的資料中臺,其實將它們比喻成一場“資料的旅程”就不難理解在數字化運營的不同階段,各運營手段並不一定是誰替代了誰,準確的講,它們都有自己的功能、特點所在,技術之間的互補,每個手段都各盡所能的為自己的用例服務。下面我們就來簡明扼要的歸納一下數字化運營不同階段中各運營手段的功能與亮點。

  1、資料庫:傳統的關係型資料庫的主要應用,主要是基本的、日常的事務處理,例如銀行交易。

  2、資料倉儲:資料倉儲系統的主要應用是OLAP,支援複雜的資料分析,側重決策支援,並且提供直觀易懂的查詢結果,可做到業務的歷史快照,總結性資料以及高緯度分析。

  3、資料集市:可以理解為是一種"小型資料倉儲",只包含單個主題,且關注範圍也非全域性,資料從企業範圍的資料庫、資料倉儲中抽取出來,迎合專業使用者群體的特殊需求,其面向部門級業務或某一個特定的主題,良好地解決了靈活性和效能之間的矛盾。

  4、資料湖:儲存企業各種各樣原始資料的大型倉庫,其中的資料可供存取、處理、分析及傳輸,主要解決的是“看見資料”的問題,作為全域性資料彙總及處理的一個核心功能,資料湖在資料中臺建設中必不可少,除了為資料倉儲提供原始資料之外,資料湖也可以直接為上層的資料應用提供服務。

  5、大資料平臺:個性化、多樣化資料,以處理海量資料儲存、計算及流資料實時計算等場景為主的一套基礎設施,使用大資料平臺,企業可以比競爭對手更快地作出資料驅動的決策,更快地推出適應客戶需求的產品。

  6、資料中臺:我們知道所有關於資料工具的建設,其目的都是為了從資料中提取價值來支援更有效的資料運營,那麼不能指導實際行動,創造實際價值的資料以及從資料中產生的知識是無用的,那花大價錢來做這個系統也沒有必要。

  說到底,資料工具的建設還是要以 ROI(Return On Investment)來支援,資料中臺概念的出現,很大程度上是原來的大資料系統建設的ROI 不如人意,企業投入了大量的物力、財力和人力建設了大資料平臺,卻發現並沒有給企業帶來應用的價值,大資料平臺更多的淪為“形象工程“,甚至產生了新的資料孤島,更不用說實現資料能力的全域性抽象、複用和共享了,而資料中臺可以說是為此類大資料平臺了個“補丁”,其全域性的資料倉儲、大資料協調共享等能力,真正解決了重複開發、資料標準不統一、資料孤島等問題,從而提高了資料價值實現效率和ROI。

  常見混淆概念梳理:傳統大資料平臺、矽谷大資料平臺、資料中臺

  其實,數字化運營不同階段的運營手段相對來說是比較好理解的,但是我們常常能聽到一些字面意思相近的概念,尤其是當我們瞭解到原來在美國矽谷“中臺”其實早已有之,只不過這種方法論在被引入到國內之後,被冠以“中臺”之名時混淆的概念常常讓我們不知所措。

  那麼,在矽谷所謂的“中臺”叫什麼?國外的大資料平臺與國內的大資料平臺又有什麼區別?接下來就讓我們統一相關概念並梳理其關係,一次性說清讓大家一目瞭然。

  1、大資料平臺1.0

  大資料平臺1.0=傳統大資料平臺

  大資料平臺1.0時期,其實就是我們通常所看到的國內“傳統大資料平臺”的概念,此時的大資料平臺是以處理海量資料儲存、計算及流資料實時計算等場景為主的一套基礎設施,以Hadoop、Spark、Hive等作為大資料基礎能力層,在大資料元件上搭建包括資料分析,機器學習程式等ETL流水線,以及包括資料治理系統、資料倉儲系統、資料視覺化系統等核心功能。

  但是在大資料平臺1.0時期,硬體投資與軟體開發投入量巨大,極大增加了研發的難度、除錯部署的週期、運維的複雜度,且經常由於架構的缺陷,資料應用開發運維的困難,多租戶資源隔離的複雜度等原因造成資料孤島、應用孤島的問題。

  傳統大資料平臺

  2、大資料平臺2.0

  大資料平臺2.0=新一代大資料平臺=大資料平臺1.0+資料中臺的功能+資料運營的功能

  大資料平臺2.0時期充分詮釋了矽谷“中臺”早已有之的說法,但為什麼矽谷沒有“資料中臺”概念?原因是矽谷公司從起步開始,管理層就將打造資料驅動需要的基礎架構作為必須的功課之一,公司內部都有一個 Data Platform(資料平臺)部門負責建設公司的資料平臺,其大資料平臺建設絕大多數是需求驅動,且後續發展都是由這個大資料平臺能產生多少價值來決定的。

  也就是說,在矽谷大家其實也並沒有刻意的去打造什麼中臺,但是“避免重複造輪子”“快速迭代”“資料驅動”“業務驅動”是矽谷工程師文化的一些核心概念,也是矽谷高效創新的一個核心,大部分公司在起始架構設計時,就將“資料中臺”所包括的資料抽象、複用與共享的能力,以及一些資料運營的功能設計在內了,其建設目的是一樣的,所以沒有必要在概念上過度糾結。

  3、資料中臺

  資料中臺建設的目標可簡單歸納為透過提供工具、流程和方法論,實現資料能力的抽象、複用和共享,賦能業務部門,提高實現資料價值的效率。阿里提出資料中臺的概念,只是為了強調和國內現有的大資料平臺加以區別,強調解決資料孤島、重複開發的問題,突出資料共享和複用的概念。

  

  深入探究:資料中臺與Ta的關係

  想必現在你已經從傻傻分不清的狀態中走出來,接下來,我們再深入具體地瞭解下資料中臺與之相對應的關係,看看你是不是已經遊刃有餘的掌握了相關概念呢?

  資料中臺與傳統資料倉儲、資料集市、資料湖的關係

  資料倉儲與資料集市的出現,就是為了解決資訊化階段OLTP(聯機事務處理過程)在分析場景下的侷限性,它們將OLTP中的資料採集過來,做成面向歷史、主題、分析的一些資料集,從而可以輕鬆地做出OLTP難以做出的分析。

  但是,隨著網際網路時代的到來,資料倉儲的資料來源只在業務系統功能中,提供一些匯聚的業務資訊,無法提供個性化的資訊以及一些非傳統業務資料來源的資訊。另外,一些非傳統業務資料來源的資訊一般儲存在伺服器日誌中,那麼大量且無效的資料如果都儲存到資料倉儲中,其效率之低和限制是無法想象的。

  此時,資料湖和大資料平臺的出現改變了上述局面,在這個階段的資料倉儲和資料集市,則基於大資料技術取得了進化,也就是說資料倉儲不能解決的問題,我們用大資料數倉(基於大資料技術實現的資料倉儲)來解決,大資料數倉解決不了的,我們用大資料平臺來解決,大資料平臺解決不了的問題,就需要資料中臺來解決。

  應該說資料中臺是建立在資料倉儲和資料平臺之上的,讓業務部門可以更好,更有效率的使用資料的運營管理層,並強調從工具和機制上支援對資料能力的抽象、共享和複用。

  資料中臺與大資料平臺1.0、2.0的關係

  很多人會疑惑大資料平臺1.0與資料中臺的差別在哪裡呢?其實,兩者的建設目的都是發掘資料價值,高效實現數字化運營,區別則在於資料中臺是具備業務屬性的,輸入的是原始資料,輸出的是業務部門可以直接使用的資料能力。如果必須要將資料中臺和大資料平臺1.0區分開來,可以說資料中臺是建立在大資料平臺1.0的基礎層之上,強調提供相應的工具和機制來實現資料能力的全域性抽象、共享和複用。

  在國內,為什麼很多企業面臨著資料孤島與應用孤島的困局?而在矽谷,大多數企業並沒有資料孤島、應用孤島的煩惱?因為矽谷每個公司在建設大資料平臺的時候,大資料平臺的運營效率和使用效率,都是必須要考慮的關鍵問題。在起始架構設計與後續迭代的時候,如何最大化投入產出比,並讓業務部門真正發揮資料的作用都是關鍵所在。在這個過程中,也有很多的嘗試和迭代,但是最終的結果是,絕大部分的大資料平臺自然的就會提供所謂的“資料中臺”的功能,成為公司內部的一個核心價值驅動引擎。

  

  大資料平臺1.0與2.0關係圖

  而大資料平臺2.0作為新一代大資料平臺,則是在大資料平臺1.0基礎上,增加了資料中臺的功能,以及資料運營的功能。對於“各個部門資料重複開發,浪費儲存與計算資源”、“資料標準不統一,資料使用成本高”、“業務資料孤島問題嚴重,資料利用效率低”,這些需要在大資料平臺1.0階段解決的問題,並沒有在國內企業的大資料平臺階段得到考慮和解決。因此,需要一個新的平臺來為這個大資料平臺“打補丁”,而這個新平臺,就是所謂的“資料中臺”。

  總結:本文從數字化運營不同階段對資料倉儲、資料湖、大資料平臺、資料中臺等內涵作了詳細說明,便於讀者更好的理解和掌握資料領域相關概念,並幫助大家更好地瞭解大資料帶給我們的能力與作用。需要強調的是,除了瞭解資料中臺的概念外,其方法論更為重要,資料中臺建設為我們企業資料服務和共享奠定了重要的基礎,是企業從“資料”邁向“價值”的強大助推器。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/30239065/viewspace-2717921/,如需轉載,請註明出處,否則將追究法律責任。

相關文章