資料中臺演進的四個階段

奇點雲StartDT發表於2019-04-24

口述者行在(張金銀),奇點雲CEO阿里巴巴第一個資料倉儲的建立者,阿里巴巴第一個消費者資料平臺TCIF的建立者,阿里雲資料智慧平臺數加的創始人,2004年以資料技術專家身份加入阿里巴巴以來,12年來一直投身於大資料事業。2016年離開阿里巴巴,創立奇點雲,旨在用「AI驅動的資料中臺」賦能線下,讓商業更智慧。

資料中臺演進的四個階段

(奇點雲CEO-行在)

2009年,阿里雲開啟了中國的雲時代。

十年市場教育,中國的公有云市場也已經從無到有,邁過了300億元大關,預計到2021年更是能達到900億元的規模。

「資料中臺」已經從一個技術詞彙,慢慢轉變成為企業界的共識:如果想要在資訊商業中擁有一席之地,就必須要藉助雲端計算和資料的力量,完成企業的數字化轉型。

只是,資料到底在轉型中扮演什麼樣的角色,要如何利用好資料,資料上雲後如何支援業務,企業需要哪些核心能力?這些問題,對於大多數的非技術業者而言,仍然是知其然不知其所以然。

一般而言,「資料上雲」更多強調的是資料的儲存和計算,而要讓資料能夠賦能業務,則更需要「資料中臺」來進行資料處理,進而支援業務決策和優化運營。

這是「資料中臺」和「資料上雲」最大的不同。

資料中臺最終要幫助企業降本增效

作為資料業務領域的先行者,阿里雲總裁張建鋒,在最新的演講中,把資料智慧作為資料處理的核心能力:

今天處理資料絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智慧化的演算法,演算法跟各行各業的業務有密切相關,所以阿里巴巴通過與各行各業合作,沉澱了一個完整的智慧化平臺。我們認為在基礎設施的雲化、核心技術的網際網路化以及在之上疊加大資料+智慧化的平臺和能力,完整地組成了阿里雲智慧的整體能力框架。這是我們核心的能力。

這裡面傳達出了幾個核心資訊:

1.雲端計算為資料智慧提供了基礎算力;

2.行業(經驗轉化而來的)演算法是智慧處理資料的主要工具;

3.資料+智慧的平臺和能力,前提是基礎設施的雲化和核心技術的網際網路化;

這是阿里雲所認為的資料處理的能力框架,而在目前的市場上,我們通常把這種能力框架稱為「資料中臺」。

輿論往往會更強調技術的作用,強調技術對業務的推動作用,但事實上,在商業領域,更多的時候,技術發展都是跟著業務走,技術的發展常常來自於業務需求和業務場景的倒逼。

例如,隨著越來越多的企業把業務流程上雲,日益增長的資料儲存和仍然稀缺的資料應用就成為了企業的主要矛盾之一,而且,這種矛盾不是一天就能夠解決,需要從業務、技術、組織幾個不同的領域一起來探尋資料的解決方案。

簡單來說,「資料中臺」就是這一系列解決方案的基礎設施。

資料中臺不是一套軟體系統,也不是一個標準化產品,站在企業的角度上,資料中臺更多地指向企業的業務目標,也即幫助企業沉澱業務能力,提升業務效率,最終完成數字化轉型。直白點說,中臺只講技術,不講業務,都是大忽悠。

這麼多年來,網際網路的發展都建立在更低成本、更高效率的連線之上,線下也一定會複製線上的發展邏輯,用更多連線帶來更多的資料。

比如,通過攝像頭,我們就可以低成本建立顧客的Face ID檔案,從而豐富人和店鋪的關係資料,店鋪進而可以根據資料分析結果,給顧客提供更有針對性的服務專案。

更多連線,更低成本,更高效率——所有跟流通相關的線下生意,資料中臺的意義就在於降本增效,別無其他。

資料中臺發展經歷了四個階段

在資料史上,2015年是一個重要的關口:2015年全年產生的資料量等於歷史上所有人類產生資料的總和,這是資料從乘數型增長全面轉向了指數型增長的方向標,海量資料處理成為全人類的挑戰;

同一時間,阿里巴巴向外釋出了DT時代的提法,用Data Technology(DT,資料技術)替代了Information Technology(IT,資訊科技),強調資料技術將成為未來商業的驅動力。

一個標誌性的事件是:阿里巴巴用幾百人的運營團隊支撐了幾萬億的GMV,其中60%-70%來源於資料支援的機器決策,機器智慧賦能業務,用更低的成本,更高的效率去服務顧客,提供千人乾麵的個性化體驗。

未來學家認為,機器智慧最終會超越人的智慧,而這兩者的臨界點就被稱為「奇點」。從這點來說,我們可以認為,阿里巴巴已經跨越了奇點,真正成為一家資料公司。

下面我們從資料的角度來梳理下這個過程。

阿里巴巴的資料處理經歷了四個階段,分別是:

一、資料庫階段,主要是OLTP(聯機事務處理)的需求;

二、資料倉儲階段,OLAP(聯機分析處理)成為主要需求;

三、資料平臺階段,主要解決BI和報表需求的技術問題;

四、資料中臺階段,通過系統來對接OLTP(事務處理)和OLAP(報表分析)的需求,強調資料業務化的能力。

資料中臺演進的四個階段(資料中臺演進的四個階段)

第一個階段是資料庫階段。

淘寶還只是一個簡單的網站,淘寶的整個結構就是前端的一些頁面,加上後端的DB(DataBase,資料庫),只是個簡單的OLTP系統,主要就是交易的事務處理。

這個階段,網際網路黃頁才剛剛出現,資料來源大部分還是傳統商業的ERP/CRM的結構化資料,資料量並不大,也就是GB的級別。簡單的DB就能滿足需求。

這裡要說明的是,OLTP的交易場景和OLAP的分析場景區別在於,前者強調高併發、單條資料簡單提取和展示(增刪改查),後者對併發的要求不高,但是需要打通不同的資料庫,比如ERP、CRM、行為資料等等,並且能夠進行批量的資料處理,也就是通常說的低併發,大批量(批處理)、面向分析(query+計算,用於製作報表)。

隨著淘寶使用者超過100萬,分析需求的比重就越來越大。淘寶需要知道它的交易來自於哪些地區,來自於哪些人,誰在買淘寶的東西等等,於是,就進入了資料處理的第二個階段。

第二個階段是資料倉儲階段。

正如前文所述,OLTP和OLAP對資料儲存和計算的需求非常不一樣,前者處理的是結構化的交易資料,而OLAP對應的是網際網路資料,而網際網路裡面資料量最大的是網頁日誌,90%以上的資料都是點選(log)什麼的非結構化的資料,而且資料量已經達到了TB的級別。

針對分析需求,就誕生了資料倉儲(DW,DataWarehouse),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一個DW,解決大量資料的儲存和計算需求,也就是去把非結構化的資料轉化成結構化資料,儲存下來。

這個階段,DW支援的主要就是BI和報表需求。

順帶提一下,資料庫(DB)這時也在從傳統DB轉向分散式DB。主要原因是以前交易穩定,併發可控,傳統DB能滿足需求,但是後來隨著交易量的增長,併發越來越不可控,對分散式DB的需求也就出來了。

隨著資料量越來越大,從TB進入了PB級別,原來的技術架構越來越不能支援海量資料處理,這時候就進入了第三個階段。

第三個階段是資料平臺階段,這個階段解決的還是BI和報表需求,但是主要是在解決底層的技術問題,也就是資料庫架構設計的問題。

這在資料庫技術領域被概括為「Shared Everything、Shared Nothing、或Shared Disk」,說的就是資料庫架構設計本身的不同技術思路之爭。

Shared Everything一般是針對單個主機,完全透明共享CPU/MEMORY/IO,並行處理能力是最差的,典型的代表SQLServer。

Shared Disk的代表是Oracle RAC,使用者訪問RAC就像訪問一個資料庫,但是這背後是一個叢集,RAC來保證這個叢集的資料一致性。

問題在於,Oracle RAC是基於IOE架構的,所有資料用同一個EMC儲存。在海量資料處理上,IOE架構有天然的限制,不適合未來的發展。阿里巴巴的第一個資料倉儲就是建立在Oracle RAC上,由於資料量增長太快,所以很快就到達20個節點,當時是全亞洲最大的Oracle RAC叢集,但阿里巴巴早年算過一筆賬,如果仍然沿用IOE架構,那麼幾年後,阿里的預計營收還遠遠趕不上伺服器的支出費用,就是說,如果不去IOE,阿里會破產。

Shared Nothing的代表就是Hadoop。Hadoop的各個處理單元都有自己私有的儲存單元和處理單元,

各處理單元之間通過協議通訊,並行處理和擴充套件能力更好。中間有一個分散式排程系統,會把表從物理儲存上水平分割,分配給多臺伺服器。

Hadoop的好處是要增加資料處理的能力和容量,只需要增加伺服器就好,成本不高,在海量資料處理和大規模並行處理上有很大優勢。

綜上,用一個關鍵詞來概括第三階段就是「去IOE」,建立Shared Nothing的海量資料處理平臺來解決資料儲存成本增長過快的問題。在阿里巴巴,前期是Hadoop,後期轉向自研的ODPS。

第四階段是資料中臺階段。

這個階段的特徵是資料量的指數級增長,從PB邁向了EB級別,未來會到什麼量級,我也說不清楚。

主要是因為,2015年之後,IOT(物聯網)發展起來,帶動了檢視聲(視訊、影像、聲音)資料的增長,未來90%的資料可能都來自於檢視聲的非結構化資料,這些資料需要視覺計算技術、影像解析的引擎+視訊解析的引擎+音訊解析的引擎來轉換成結構化資料。5G技術的發展,可能會進一步放大檢視聲資料的重要性。

線下要想和線上一樣,通過資料來改善業務,就要和線上一樣能做到行為可監測,資料可收集,這是前提。線下最大量的就是檢視聲資料,而這些資料靠人來手工收集,肯定是不靠譜的,依靠IOT技術和演算法的進步,最終會通過智慧端來自動化獲取資料。

要使用這些資料,光有視覺演算法和智慧端也不行,要有云來儲存和處理這些資料,以及打通其他領域的資料。

另一方面,從業務來看,資料也好,資料分析也好,最終都是要為業務服務的。也就是說,要在系統層面能把OLAP和OLTP去做對接,這個對接不能靠人來完成,要靠智慧演算法。

目前的資料中臺,最底下的資料平臺還是偏技術的,是中臺技術方案的其中一個元件,主要解決資料儲存和計算的問題;在上面就是一層資料服務層,資料服務層通過服務化API能夠把資料平臺和前臺的業務層對接;資料中臺裡面就沒有人的事情,直接系統去做對接,通過智慧演算法,能把前臺的分析需求和交易需求去做對接,最終賦能業務。

綜合上述兩個方面,我認為未來要做好資料中臺,只做雲或者只做端都不靠譜,需要把兩者合起來做。智慧端負責資料的收集,雲負責資料的儲存、計算、賦能。端能夠豐富雲,雲能夠賦能端。

未來的資料中臺,一定是「AI驅動的資料中臺」,這個中臺包括「計算平臺+演算法模型+智慧硬體」,不僅要在端上具備視覺資料的收集和分析能力,而且還要能通過Face ID,幫助企業去打通業務資料,最終建立線上線下觸達和服務消費者的能力。

真正做到「一切業務資料化,一切資料業務化」。

資料中臺需要具備三大能力

那麼,資料中臺是怎麼來賦能業務使用資料的呢?這裡舉一個TCIF的例子。

現在大家可能都認識到了統一消費者資料的必要性,但是在幾年前,哪怕是在阿里巴巴,消費者的資訊也分散在各個業務中,碎片化、散點化,而業務當時需要把這些分散的人的資料集中起來,進行人群畫像。道理很明白,人群畫像越清晰,服務就會越精準。

怎麼統一消費者資料?

首先,定義埋點規範,同一個人就用同一個標識,ID打通,也就是所謂的One ID;

其次,還會碰上一家人使用一個登入帳號的問題,那麼就需要建立同人的資料模型,通過一些方式,比如,IP網段是不是一樣,來分辨出具體的那個人,建立AID(Alibaba ID);

 再次,每個人還有各種網路行為,要如何把這些行為結構化,裝到各種框架裡面?這個特別難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的髮質都結構化了。

最後,就需要通過演算法模型,把所有的標籤都貼回到人上面,當時TCIF用上述方式生產出了3000多個消費者標籤。

這些標籤被阿里巴巴的其他產品所使用,比如阿里媽媽的達摩盤就把這些標籤提供給廣告主,讓廣告主能夠通過標籤去建立人群畫像,進行人群細分,以及建立投放用的人群包。

從TCIF的例子來看,資料中臺未來一定需要具備三種能力。

第一是資料模型能力。

在業務層面,業務抽象能夠解決80%的共性問題,開放的系統架構來解決20%的個性問題,但同時又要把平臺上的業務邏輯分開,因為不同的業務邏輯之間可能有衝突。

這在資料中臺就表現為資料的中心化,也就是資料的高內聚、低耦合,需要對共性問題抽象出業務的規則,建立資料模型,一個好的內聚模組能夠解決一個事情,同時又要降低模組和模組之間的耦合度,讓模組具有良好的可讀性和可維護性。

這裡的前提是要有真正懂業務能沉澱經驗的人,以及要在企業層面開展資料治理,讓資料能夠準確、適度共享、安全地被使用。

第二是AI演算法模型能力。

要實現資料業務化,前提是做到資料的資產化。要能夠從資料原油裡面,去提煉出可以使用的汽油。

比如說資料的標籤化,背後就有投入產出比的考量:通過標籤,廣告主可以非常方便快捷地去建立自己的人群包,實現精準營銷,同時投放的ROI也是可見的、透明的,廣告主可以自己去評估資料資產的使用情況。

第三是行業的應用能力,也就是我們通常說的資料業務化能力。

和資料中心化類似,資料業務化也需要很強的行業經驗來指導,建立合適的業務場景,在場景裡面去使用資料,從而體現資料的價值,來大大擴充套件資料在行業中的應用能力。

在奇點雲和某酒類客戶的合作過程中,我們最大的收穫不是幫助客戶完成了資料中臺的搭建,而是通過理解客戶的業務,把其經驗沉澱到資料中臺,從而賦能客戶更多的端上的創新業務,帶來了生意的增量。

最後總結一下,未來的資料中臺最重要的不單是資料的儲存和計算能力,而是要能從「存、通、用」的角度和業務結合,幫助企業從資料中獲取價值,沉澱資料資產,最終用資料賺錢。

相關文章