為什麼說湖倉是實時數倉的重要演進方向?
不知從何時開始,實時數倉這個賽道變得越來越“卷”,湖倉一體、雲數倉、傳統數倉都在向滿足業務的實時性需求演進,那麼到底什麼是實時數倉?未來,是否會有一個主流發展方向能統領全部技術路線?
引領資料走向智慧化新階段
“湖倉一體,或者雲數倉,都更偏技術層面的基礎能力,而從具體的資料應用場景看,其實是幾大方向的融合。”滴普科技楊磊,在接受ITPUB實時數倉系列訪談時認為,不管是湖倉一體,還是雲數倉,最終解決的問題都是實時的資料分析應用。尤其是湖倉一體,解決的是資料+AI問題,可以從根本上滿足資料基礎能力和應用創新需求,是實時數倉發展的重要方向。
▲滴普科技楊磊
回望過去,資料倉儲並不是一個新事物,從Oracle到Teradata,到後來的MPP資料庫,以及在整個過程中產生出來的包括Hadoop在內的大資料平臺,再從Snowflake到雲數倉,還有由Databricks定義的湖倉,其實都是關鍵發展階段的代表。很多人提到的Hive、Spark,再到Flink,其實是整個大資料的“入口端”技術。Hive代表的是第一代的Hadoop架構,Spark代表的是第二代的Hadoop架構,Flink代表的是整個實時的大資料的架構。
簡單理解,實時數倉大概可以分為幾個重要階段,即數倉階段、大資料階段以及大資料和MPP資料庫並存的階段,最終出現了以Snowflake為代表的雲數倉,近似於實時數倉這樣一個概念。到最後,Databricks重新定義了湖倉一體的概念,即圍繞數倉的能力,打造出全新的實時數倉的狀態。
其中,湖倉一體之所以能給使用者帶來更卓越體驗,是因為在整個架構上實現了存算分離、流批一體,包括支援全量資料、資料儲存,包括結構化、非結構化、半結構化的資料儲存,在資料的事務處理能力上得到了進一步加強。因為像Hive這種技術,原來沒有事務處理能力。另外,從整個引擎上來說,湖倉一體架構可以做進一步簡化,易用性更好,而不像採用Hadoop開源架構那樣,元件很多,需要多種不同能力模型的人,才能把Hadoop平臺用起來。
有句話說得好,“客戶可以為技術鼓掌,而為業務買單”,湖倉一體讓所有業務都具備AI能力,即讓所有資料具備可以被分析、決策、預測的狀態,讓技術輔助業務,圍繞最終目標不斷演進,獲得持續生命力。
統一底層架構,擁有全鏈路能力
而從使用者實際落地案例來看,傳統使用Hadoop以及MPP資料庫的企業正在向湖倉一體化轉型。
以某時尚產業集團為例,該企業有很多傳統數倉,有老的Oracle的數倉,還有OLAP、DB2、Teradata 、MPP資料庫,以及自己搭建的Hadoop,這些系統支撐著生產、供應鏈、物流以及門店管理。
為了統一底層架構,該集團進行了三大改革:
第一,統一所有資料口徑,做出資料目錄。在原有數倉架構下,已經很難做全維度、全鏈路的資料口徑統一。所以,第一步就是統一數倉接管全部業務。這樣做帶來的直接好處是,讓運維變得簡單,不再需要Oracle 、DB2、Teradata、Hadoop等來自不同團隊的人進行運維,直接降低了運維成本。
第二,所有資料全部入湖,建立統一的資料標識。構建整個湖倉的分層模型,把所有的資料全部進行統一處理,讓所有多模資料統一儲存,包括大量的結構化資料、非結構化資料。比如:在大量鞋的圖片處理中,原來是統一格式,由一個單獨服務來儲存,現在把這些鞋的圖片都放到整個湖倉平臺內進行儲存。
第三,透過外掛對現有業務進行補充。該集團本身的IT技術實力很強,透過湖倉資料服務,還有新做的內嵌到原有的業務系統的分析決策的這種外掛,可以更好地對接原有的BI、ERP等,全面提升資料分析以及運營能力。 包括透過更先進的演算法和AI能力,可以對於商品流通環節的關鍵節點進行分析和預測。
更通俗的理解是,企業可以像蓋房子一樣。上半部分,有原來的ERP、 CRM、WMS這樣一些業務系統,這些業務系統以一個一個的“煙囪式”方法來構建;下半部分,有一個統一的資料平臺,所有業務系統產生出來的資料,包括第三方電商資料,都全部進入資料統一平臺,資料平臺處理完之後,再反哺到資料應用場景中,最終實現離線到實時的應用。
實時數倉和離線數倉的最大區別,就是效能的差異性,要滿足實時的計算需求,可能需要十倍以上的資源來部署。一般來說,實時和離線是兩套不同的處理流程,這意味著企業需要存兩份資料,成本高昂成為最大挑戰。而實時數倉,可以基於一套架構,實現流批一體的集合。即透過不斷最佳化計算引擎,大幅度降低對計算實時性、計算引擎的消耗,這也是湖倉一體成為未來發展趨勢的最主要原因。
速度更快,易用性更好
那麼,隨著不同型別玩家加入,實時數倉這一賽道,未來整個市場競爭格局是什麼?
是一個相互碾壓的局面!正如楊磊所言,資料中臺的地位未來會比較尷尬,不管是湖倉、雲數倉其實都具備整個資料的開發處理能力。從底層的廠商來說,可以往上走,向上擠壓;而一些做BI的廠商,可以基於資料分析和處理能力,向下擠壓。當然,最終發展結果不會一直有很多玩家存在,而是大浪淘沙的一個過程。
另外,原來資料中臺、數倉架構開發模式太重,不像公有云這種輕量化的資料開發治理模式更符合業務需求。所以,資料中臺可能只是一箇中間狀態,未來在底層上就是兩大分支:一方面以湖倉一體為代表的這種模式,也就是大資料的下一代;另一方面,資料中臺在公有云上面提供的服務。
但從滿足實時數倉使用者需求的角度來看,一定是速度更快、易用性更好的解決方案,才能被大家看好。這也是滴普科技實時湖倉平臺FastData要在雲原生能力、DataOps、ACID事務處理進一步增強的主要原因。不管是湖倉一體平臺,還是實時數倉平臺,都應該具備技術的開放性,讓資料開發、資料處理變得更加簡單。
總之,資料+AI一定是實時數倉最重要的價值呈現,沒有人懷疑這是一個偽需求,擁有資料的實時分析和預測,是每家企業都需要的必備數字化技能。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545808/viewspace-2999741/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 重新思考 | 實時數倉、湖倉一體、流批一體,它們都在說什麼
- 快狗叫車實時數倉演進之路
- 離線實時一體化數倉與湖倉一體—雲原生大資料平臺的持續演進大資料
- 實時數倉混沌演練實踐
- 農業銀行湖倉一體實時數倉建設探索實踐
- 到底什麼是實時資料倉儲?
- 美團實時數倉架構演進與建設實踐架構
- 從“智慧湖倉”架構的技術演進,看現代化資料平臺的發展方向架構
- 基於 Paimon 的袋鼠雲實時湖倉入湖實戰剖析AI
- 直播預約丨《實時湖倉實踐五講》第三講:實時湖倉在袋鼠雲的落地實踐之路
- 直播預約丨《實時湖倉實踐五講》第五講:實時湖倉領域的最/佳實踐解析
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 位元組跳動資料湖在實時數倉中的實踐
- 資料湖是誰?那資料倉儲又算什麼?
- 直播預約丨《實時湖倉實踐五講》第四講:實時湖倉架構與技術選型架構
- 直播預約丨《實時湖倉實踐五講》第二講:實時湖倉功能架構設計與落地實戰架構
- 都強調實時性,偶數科技實時湖倉一體有啥不同?
- 由紛爭到融合,實時數倉演繹“戰國時代”
- 帶你瞭解什麼是數倉寬表
- 什麼是資料倉儲
- 什麼是資料倉儲?
- ETL是什麼?淺談ETL對資料倉儲的重要性
- 什麼是資料實時同步,為什麼資料實時同步很重要
- 對話偶數科技常雷:如何開啟實時湖倉一體時代?
- 實時數倉-持續更新
- 實時數倉:Kappa架構APP架構
- Clickhouse實時數倉建設
- 什麼是倉庫管理系統?
- 實時數倉是一個產品還是解決方案?
- 如何構建準實時數倉?
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 什麼是倉庫管理系統?為什麼選擇基於雲的WMS?
- 實時數倉在滴滴的實踐和落地
- 微信ClickHouse實時數倉的最佳實踐
- 在演算法演進的歷史中,為什麼說遊戲發揮了重要作用?演算法遊戲
- 企業如何借實時湖倉贏在“資料制勝”時代?
- DDD | 05-什麼是倉儲層
- FreeSql.Repository (一)什麼是倉儲SQL