為什麼說湖倉是實時數倉的重要演進方向?

雲端計算頻道發表於2023-12-12

  不知從何時開始,實時數倉這個賽道變得越來越“卷”,湖倉一體、雲數倉、傳統數倉都在向滿足業務的實時性需求演進,那麼到底什麼是實時數倉?未來,是否會有一個主流發展方向能統領全部技術路線?

   引領資料走向智慧化新階段

  “湖倉一體,或者雲數倉,都更偏技術層面的基礎能力,而從具體的資料應用場景看,其實是幾大方向的融合。”滴普科技楊磊,在接受ITPUB實時數倉系列訪談時認為,不管是湖倉一體,還是雲數倉,最終解決的問題都是實時的資料分析應用。尤其是湖倉一體,解決的是資料+AI問題,可以從根本上滿足資料基礎能力和應用創新需求,是實時數倉發展的重要方向。

  ▲滴普科技楊磊

  回望過去,資料倉儲並不是一個新事物,從Oracle到Teradata,到後來的MPP資料庫,以及在整個過程中產生出來的包括Hadoop在內的大資料平臺,再從Snowflake到雲數倉,還有由Databricks定義的湖倉,其實都是關鍵發展階段的代表。很多人提到的Hive、Spark,再到Flink,其實是整個大資料的“入口端”技術。Hive代表的是第一代的Hadoop架構,Spark代表的是第二代的Hadoop架構,Flink代表的是整個實時的大資料的架構。

  簡單理解,實時數倉大概可以分為幾個重要階段,即數倉階段、大資料階段以及大資料和MPP資料庫並存的階段,最終出現了以Snowflake為代表的雲數倉,近似於實時數倉這樣一個概念。到最後,Databricks重新定義了湖倉一體的概念,即圍繞數倉的能力,打造出全新的實時數倉的狀態。

  其中,湖倉一體之所以能給使用者帶來更卓越體驗,是因為在整個架構上實現了存算分離、流批一體,包括支援全量資料、資料儲存,包括結構化、非結構化、半結構化的資料儲存,在資料的事務處理能力上得到了進一步加強。因為像Hive這種技術,原來沒有事務處理能力。另外,從整個引擎上來說,湖倉一體架構可以做進一步簡化,易用性更好,而不像採用Hadoop開源架構那樣,元件很多,需要多種不同能力模型的人,才能把Hadoop平臺用起來。

  有句話說得好,“客戶可以為技術鼓掌,而為業務買單”,湖倉一體讓所有業務都具備AI能力,即讓所有資料具備可以被分析、決策、預測的狀態,讓技術輔助業務,圍繞最終目標不斷演進,獲得持續生命力。

  統一底層架構,擁有全鏈路能力

  而從使用者實際落地案例來看,傳統使用Hadoop以及MPP資料庫的企業正在向湖倉一體化轉型。

  以某時尚產業集團為例,該企業有很多傳統數倉,有老的Oracle的數倉,還有OLAP、DB2、Teradata 、MPP資料庫,以及自己搭建的Hadoop,這些系統支撐著生產、供應鏈、物流以及門店管理。

  為了統一底層架構,該集團進行了三大改革:

  第一,統一所有資料口徑,做出資料目錄。在原有數倉架構下,已經很難做全維度、全鏈路的資料口徑統一。所以,第一步就是統一數倉接管全部業務。這樣做帶來的直接好處是,讓運維變得簡單,不再需要Oracle 、DB2、Teradata、Hadoop等來自不同團隊的人進行運維,直接降低了運維成本。

  第二,所有資料全部入湖,建立統一的資料標識。構建整個湖倉的分層模型,把所有的資料全部進行統一處理,讓所有多模資料統一儲存,包括大量的結構化資料、非結構化資料。比如:在大量鞋的圖片處理中,原來是統一格式,由一個單獨服務來儲存,現在把這些鞋的圖片都放到整個湖倉平臺內進行儲存。

  第三,透過外掛對現有業務進行補充。該集團本身的IT技術實力很強,透過湖倉資料服務,還有新做的內嵌到原有的業務系統的分析決策的這種外掛,可以更好地對接原有的BI、ERP等,全面提升資料分析以及運營能力。 包括透過更先進的演算法和AI能力,可以對於商品流通環節的關鍵節點進行分析和預測。

  更通俗的理解是,企業可以像蓋房子一樣。上半部分,有原來的ERP、 CRM、WMS這樣一些業務系統,這些業務系統以一個一個的“煙囪式”方法來構建;下半部分,有一個統一的資料平臺,所有業務系統產生出來的資料,包括第三方電商資料,都全部進入資料統一平臺,資料平臺處理完之後,再反哺到資料應用場景中,最終實現離線到實時的應用。

  實時數倉和離線數倉的最大區別,就是效能的差異性,要滿足實時的計算需求,可能需要十倍以上的資源來部署。一般來說,實時和離線是兩套不同的處理流程,這意味著企業需要存兩份資料,成本高昂成為最大挑戰。而實時數倉,可以基於一套架構,實現流批一體的集合。即透過不斷最佳化計算引擎,大幅度降低對計算實時性、計算引擎的消耗,這也是湖倉一體成為未來發展趨勢的最主要原因。

   速度更快,易用性更好

  那麼,隨著不同型別玩家加入,實時數倉這一賽道,未來整個市場競爭格局是什麼?

  是一個相互碾壓的局面!正如楊磊所言,資料中臺的地位未來會比較尷尬,不管是湖倉、雲數倉其實都具備整個資料的開發處理能力。從底層的廠商來說,可以往上走,向上擠壓;而一些做BI的廠商,可以基於資料分析和處理能力,向下擠壓。當然,最終發展結果不會一直有很多玩家存在,而是大浪淘沙的一個過程。

  另外,原來資料中臺、數倉架構開發模式太重,不像公有云這種輕量化的資料開發治理模式更符合業務需求。所以,資料中臺可能只是一箇中間狀態,未來在底層上就是兩大分支:一方面以湖倉一體為代表的這種模式,也就是大資料的下一代;另一方面,資料中臺在公有云上面提供的服務。

  但從滿足實時數倉使用者需求的角度來看,一定是速度更快、易用性更好的解決方案,才能被大家看好。這也是滴普科技實時湖倉平臺FastData要在雲原生能力、DataOps、ACID事務處理進一步增強的主要原因。不管是湖倉一體平臺,還是實時數倉平臺,都應該具備技術的開放性,讓資料開發、資料處理變得更加簡單。

  總之,資料+AI一定是實時數倉最重要的價值呈現,沒有人懷疑這是一個偽需求,擁有資料的實時分析和預測,是每家企業都需要的必備數字化技能。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545808/viewspace-2999741/,如需轉載,請註明出處,否則將追究法律責任。

相關文章