2019,資料中臺元年

StartDT發表於2019-04-23

2009年,阿里雲開啟了中國的雲時代。


十年市場教育,中國的公有云市場也已經從無到有,邁過了300億元大關,預計到2021年更是能達到900億元的規模。


「資料上雲」已經從一個技術詞彙,慢慢轉變成為企業界的共識:如果想要在資訊商業中擁有一席之地,就必須要藉助雲端計算的力量,完成企業的數字化轉型。


只是, 資料到底在轉型中扮演什麼樣的角色,要如何利用好資料,資料上雲後如何支援業務,企業需要哪些核心能力? 這些問題,對於大多數的非技術業者而言,仍然是知其然不知其所以然。


作為資料業務領域的先行者,阿里雲總裁張建鋒,把資料智慧作為資料處理的核心能力:


「今天處理資料絕大部分都不是單純靠算力,算力是基礎,而主要是靠上面的智慧化的演算法,演算法跟各行各業的業務有密切相關,所以阿里巴巴透過與各行各業合作,沉澱了一個完整的智慧化平臺。我們認為在基礎設施的雲化、核心技術的網際網路化以及在之上疊加大資料+智慧化的平臺和能力,完整地組成了阿里雲智慧的整體能力框架。這是我們核心的能力。」


這裡面傳達出了幾個核心資訊:


1.雲端計算為資料智慧提供了基礎算力;

2.行業(經驗轉化而來的)演算法是智慧處理資料的主要工具;

3.資料+智慧的平臺和能力,前提是基礎設施的雲化和核心技術的網際網路化;


這是阿里雲所認為的資料處理的能力框架,而在市場上,我們通常把這種能力框架稱為「資料中臺」。


輿論往往會更強調技術的作用,強調技術對業務的推動作用,但事實上,在商業領域,更多的時候,技術發展都是跟著業務走,技術的發展常常來自於業務需求和業務場景的倒逼。


例如,隨著越來越多的企業把業務流程上雲,日益增長的資料儲存和仍然稀缺的資料應用就成為了企業的主要矛盾之一,而且,這種矛盾不是一天就能夠解決,需要從業務、技術、組織幾個不同的領域一起來探尋資料的解決方案。


「資料中臺」就是這一系列解決方案的基礎設施。


資料中臺不是一套軟體系統,也不是一個標準化產品,只能說,站在企業的角度上,資料中臺更多地指向企業的業務目標,也即幫助企業沉澱業務能力,提升業務效率,最終完成數字化轉型。


那麼,資料中臺又是如何一步步驅動業務的呢?


作為阿里第一個資料倉儲的建立者,TCIF(淘寶消費者資料工廠)和阿里雲資料智慧平臺數加的創始人, 張金銀(花名行在,以技術專家的身份2004年加入阿里巴巴,到2016年年底,在阿里巴巴的12年技術生涯), 他完整經歷了從「資料上雲」到「資料中臺」的全過程。


(?奇點雲CEO——行在)


張金銀在2016年12月份創立“奇點雲”,奇點雲以“AI驅動的資料中臺”來為企業提供服務,這些過往經歷,也讓他能夠跳出技術的身份,站在業務的視角思考資料中臺和業務的關係。


顯然,他是回答這個問題的最佳人選。


資料中臺演進的四個階段

Q :我們常說,技術發展都是跟著業務走,能不能請您介紹一下,在網際網路平臺上,和業務場景相關的資料處理有哪些型別?


A :網際網路裡面最多的業務都是和消費者相關的業務,這是一個大的場景,跟著這個場景會有兩條主要的線,一條是事務處理需求,我們稱其為OLTP(聯機事務處理),另一條是分析需求,我們稱其為OLAP(聯機分析處理)。


舉個例子,最早淘寶還只是一個網站的時候,整個結構就是前端的一些頁面,加上後端的DB(DataBase,資料庫),這就是一個OLTP系統,主要用於交易的事務處理。


但是,當淘寶發展到100萬使用者的時候,就出現了另外一個需求,也就是之前說的分析需求,淘寶需要知道這些交易來自於哪些地區,來自於哪些人,這就出現了報表需求。




Q :那麼,分析報表這種OLAP需求,和之前的事務處理OLTP的差別在哪裡呢?


A :別急,哈哈。交易場景的特點是強調 高併發、單條資料簡單提取和展示(增刪改查) ,而報表需求則沒有那麼多的併發數,但是對於資料的要求和交易場景不同,對資料批處理的要求也比較高,也就是通常所說的 低併發,大批次(批處理)、面向分析(query+計算,用於製作報表)


這樣一來,分析需求(OLAP)和交易(OLTP)的DB放在一起就非常不合適,這時候出現了兩個變化:


第一個,DB本身也在發生變化,從傳統DB轉向分散式DB。主要原因是以前交易穩定,併發可控,傳統DB能滿足需求,但是後來隨著交易量的增長,併發越來越不可控,對分散式DB的需求也就出來了;


第二個,針對分析需求就出現了DW(DataWarehouse,資料倉儲),我2004年加入阿里,用Oracle RAC搭建了阿里巴巴第一個DW。




Q :在講電商系統發展過程的時候,我們常把其分為四個階段:單一業務系統階段,分散式業務系統階段,業務平臺化階段,業務中臺化階段,那麼,在資料處理領域是否也分類似的階段?


A :有的, 電商系統就是OLTP的典型應用場景,電商的單一業務系統階段就是之前說的資料庫(DB)階段; 而OLAP分析需求的增長,則帶動業務進入了第二個階段,也就是資料倉儲(DW)階段,主要處理分析報表的需求; 對應業務平臺化,第三個階段是資料平臺階段,主要還是解決報表和BI的需求; 第四個階段,就是我們現在說的資料中臺階段,主要在把OLAP和OLTP去做對接。



(?資料中臺演進的四個階段)


Q :原來第三階段還在解決報表需求......


A :對,這個階段主要解決的是技術問題。在資料庫技術領域:「Shared Everthting、Shared Nothing、和Shared Disk」,說的就是這個過程中資料庫架構設計的不同技術思路。


Shared Everything一般是針對單個主機,完全透明共享CPU/MEMORY/IO,並行處理能力是最差的,典型的代表SQLServer。


Shared Disk的代表是Oracle RAC,使用者訪問RAC就像訪問一個資料庫,但是這背後是一個叢集,RAC來保證這個叢集的資料一致性。


問題在於,Oracle RAC是基於IOE架構的,所有資料用同一個EMC儲存。在海量資料處理上,IOE架構有天然的限制,不適合未來的發展。阿里巴巴的第一個資料倉儲就是建立在Oracle RAC上,由於資料量增長太快,所以很快就到達20個節點,當時是全亞洲最大的Oracle RAC叢集,但阿里巴巴早年算過一筆賬,如果仍然沿用IOE架構,那麼幾年後,阿里的預計營收還遠遠趕不上伺服器的支出費用,就是說,如果不去IOE,阿里會破產。


Shared Nothing的代表就是Hadoop。Hadoop的各個處理單元都有自己私有的儲存單元和處理單元, 各處理單元之間透過協議通訊,並行處理和擴充套件能力更好。中間有一個分散式排程系統,會把表從物理儲存上水平分割,分配給多臺伺服器。


Hadoop的好處是要增加資料處理的能力和容量,只需要增加伺服器就好,成本不高,在海量資料處理和大規模並行處理上有很大優勢。




Q :原來如此,那麼第四個就是目前的資料中臺階段。


A :從業務來看,資料也好,資料分析也好,最終都是要為業務服務的。也就是說, 要在系統層面能把OLAP和OLTP去做對接,這是資料中臺要解決的問題。


目前的資料中臺,最底下的資料平臺還是偏技術的,是中臺技術方案的其中一個元件,主要解決資料儲存和計算的問題;在上面就是一層資料服務層,資料服務層透過服務化API能夠把資料平臺和前臺的業務層對接;這裡面就沒有人的事情,直接系統去做對接,能把前臺的OLAP需求和OLTP需求去做對接。




Q :可否這麼理解:第一階段到第二階段,主要解決資料的「看」,能夠對業務進行評估;第二階段到第三階段,解決資料的「用」,業務能夠拿著評估結果去改進工作;第三階段到第四階段,資料化運營,資料賦能業務高效運營。


A :也可以,我們不常說: 「一切業務資料化,一切資料業務化」 ,差不多就是這個意思。


資料中臺需要把雲和端合起來做

Q :剛才你提到海量資料處理,那麼,能不能從資料來源的角度來描述下資料和業務的關係?


A :國內的情況,可以分三個時間點來講。


第一個階段是2003年之前 ,網際網路黃頁剛剛出現,資料來源大部分還是傳統商業的ERP/CRM的結構化資料,也就是前面說的資料庫階段,這個時候資料量並不大,也就是GB的級別;


第二個階段是2004年 ,隨著BBS和搜尋引擎的發展,網際網路進入高速發展時期。和傳統的結構化資料不同,網際網路資料量最大的是非結構化的網頁日誌,90%以上的資料都來源於點選(log),這時候資料量已經達到了TB的級別,需要使用很多的技術,比如DW,去把非結構化的資料轉化成結構化資料,儲存下來。


第三個階段是2016年之後 ,IOT(物聯網)發展起來,帶動了檢視聲(影片、影像、聲音)資料的增長,以後90%的資料可能都來自於檢視聲的非結構化資料,這些資料需要視覺計算技術、影像解析的引擎+影片解析的引擎+音訊解析的引擎來轉換成結構化資料。這時資料量已經從PB級別邁向了EB級別。


5G技術的發展,可能會進一步放大檢視聲資料的重要性。不管從資料量的增長、資料處理技術的進步,還在站在企業對資料中臺的認知來說, 2019年都可以稱為資料中臺元年。




Q :這很有意思,科學研究表明,人從外部世界獲得的資訊中,由眼睛獲取的約佔80%,只是過去線上下,企業一直沒辦法去獲取和使用這些資料。


A :線下要想和線上一樣,透過資料來改善業務,就要和線上一樣能做到行為可監測,資料可收集,這是前提。


而這些資料靠人來手工收集,肯定是不靠譜的,依靠IOT技術和視覺演算法的進步,最終會透過智慧端來自動化獲取資料。


這就是奇點雲要 自己掌控 視覺演算法的原因,在視覺技術方面,奇點雲的人臉識別能力全球排名Top5,ReID技術排在全球Top2。


另外,要使用這些資料,光有視覺演算法和智慧端也不行,要有云來儲存和處理這些資料,並且最終透過AI演算法來賦能業務來增長生意。


我認為未來要做好資料中臺,只做雲或者只做端都不靠譜,需要把兩者合起來做。 智慧端負責資料的收集,雲負責資料的儲存、計算、賦能。端能夠豐富雲,雲能夠賦能端。


所以未來服務線下企業的資料中臺一定是 「AI驅動的資料中臺」 ,這個中臺的能力要包括「計算平臺+演算法模型+智慧硬體」,不僅要在端上具備視覺資料的收集和分析能力,而且還要能透過Face ID,幫助企業去打通業務資料,最終建立線上線下觸達和服務消費者的能力。



   資料中臺需要具備三大能力


Q :那麼,您認為合格的資料中臺需要具備哪些能力?


A :需要具備三種能力。


第一是資料模型能力。


在業務層面,業務抽象能夠解決80%的共性問題,開放的系統架構來解決20%的個性問題,但同時又要把平臺上的業務邏輯分開,因為不同的業務邏輯之間可能有衝突。


這在資料中臺就表現為資料的中心化,也就是資料的高內聚、低耦合,需要對共性問題抽象出業務的規則,建立資料模型,一個好的內聚模組能夠解決一個事情,同時又要降低模組和模組之間的耦合度,讓模組具有良好的可讀性和可維護性。


這裡的前提是要有真正懂業務能沉澱經驗的人,以及要在企業層面開展資料治理,讓資料能夠準確、適度共享、安全地被使用。


第二是AI演算法模型能力。


要實現資料業務化,前提是做到資料的資產化。要能夠從資料原油裡面,去提煉出可以使用的汽油。


比如說資料的標籤化,背後就有投入產出比的考量:透過標籤,廣告主可以非常方便快捷地去建立自己的人群包,實現精準營銷,同時投放的ROI也是可見的、透明的,廣告主可以自己去評估資料資產的使用情況。


第三是行業的應用能力 ,也就是我們通常說的資料業務化能力。


和資料中心化類似,資料業務化也需要很強的行業經驗來指導,建立合適的業務場景,在場景裡面去使用資料,從而體現資料的價值,來大大擴充套件資料在行業中的應用能力。




Q :能舉個例子嗎?


A :那我就說下TCIF(消費者資料工廠)的例子吧。


先說為什麼要做TCIF?


因為當時消費者的資訊分散在阿里巴巴的各個業務中,碎片化,散點化,而業務當時需要把這些分散的人的資料集中起來,進行人群畫像。


道理很明白, 人群畫像越清晰,服務就會越精準。


再說我們是怎麼做的。


•首先,定義埋點規範,同一個人就用同一個標識,ID打通,也就是所謂的One ID;


•其次,還會碰上一家人使用一個登入帳號的問題,那麼就需要建立同人的資料模型,透過一些方式,比如,IP網段是不是一樣,來分辨出具體的那個人,建立AID(Alibaba ID);


•再次,每個人還有各種網路行為,要如何把這些行為結構化,裝到各種框架裡面?這個特別難,我們當時主要是跟人類學家合作,一起把行為的分類樹做出來。這個分類樹非常細,甚至能夠把一個人的髮質都結構化了。


接下來,就需要透過演算法模型,把所有的標籤都貼回到人上面。


最後,比如阿里媽媽的達摩盤就會把這些標籤提供給廣告主,讓廣告主能夠透過標籤去建立人群畫像,進行人群細分,以及建立投放用的人群包。


   未來,更低成本,更高效率的線下連線


Q :最後,能否請您介紹下您個人的經歷


A :我本人是2004年以技術專家身份加入的阿里巴巴,2016年離開,在阿里巴巴搭了第一個資料倉儲,建立了第一個消費者資料工廠(TCIF),建立了阿里巴巴大資料平臺數加,可以說,這12年就是和資料作伴的12年。


因為對於資料未來的判斷(注:未來90%以上都是檢視聲資料),2016年,我離開阿里巴巴創立了奇點雲,去幫助線下企業複製線上,真正實踐「AI驅動的資料中臺」。




Q :如果用一個或幾個詞來形容資料中臺給企業帶來的效果,您覺得會是哪個詞?


A :我會說是 「降本增效」 。這麼多年來,網際網路的發展都建立在更低成本、更高效率的連線之上,線下也一定會延續線上的發展邏輯,而低成本高效率的連線,也會帶來更多的資料,從而幫助企業在各個層面降低成本,提高效率。


這是一個良性迴圈。


相關研究表明,中國目前有超過80%的企業仍然出於較為初級的數字化轉型階段。未來的商業,資料智慧是源動力。資料中臺,已然成為企業數字化轉型的關鍵,或者說是必經之路。



來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69911376/viewspace-2642315/,如需轉載,請註明出處,否則將追究法律責任。

相關文章