不知從何時開始，實時數倉這個賽道變得越來越“卷”，湖倉一體、雲數倉、傳統數倉都在向滿足業務的實時性需求演進，那麼到底什麼是實時數倉？未來，是否會有一個主流發展方向能統領全部技術路線？

　　引領資料走向智慧化新階段

　　“湖倉一體，或者雲數倉，都更偏技術層面的基礎能力，而從具體的資料應用場景看，其實是幾大方向的融合。”滴普科技楊磊，在接受ITPUB實時數倉系列訪談時認為，不管是湖倉一體，還是雲數倉，最終解決的問題都是實時的資料分析應用。尤其是湖倉一體，解決的是資料+AI問題，可以從根本上滿足資料基礎能力和應用創新需求，是實時數倉發展的重要方向。

　　▲滴普科技楊磊

　　回望過去，資料倉儲並不是一個新事物，從Oracle到Teradata，到後來的MPP資料庫，以及在整個過程中產生出來的包括Hadoop在內的大資料平臺，再從Snowflake到雲數倉，還有由Databricks定義的湖倉，其實都是關鍵發展階段的代表。很多人提到的Hive、Spark，再到Flink，其實是整個大資料的“入口端”技術。Hive代表的是第一代的Hadoop架構，Spark代表的是第二代的Hadoop架構，Flink代表的是整個實時的大資料的架構。

　　簡單理解，實時數倉大概可以分為幾個重要階段，即數倉階段、大資料階段以及大資料和MPP資料庫並存的階段，最終出現了以Snowflake為代表的雲數倉，近似於實時數倉這樣一個概念。到最後，Databricks重新定義了湖倉一體的概念，即圍繞數倉的能力，打造出全新的實時數倉的狀態。

　　其中，湖倉一體之所以能給使用者帶來更卓越體驗，是因為在整個架構上實現了存算分離、流批一體，包括支援全量資料、資料儲存，包括結構化、非結構化、半結構化的資料儲存，在資料的事務處理能力上得到了進一步加強。因為像Hive這種技術，原來沒有事務處理能力。另外，從整個引擎上來說，湖倉一體架構可以做進一步簡化，易用性更好，而不像採用Hadoop開源架構那樣，元件很多，需要多種不同能力模型的人，才能把Hadoop平臺用起來。

　　有句話說得好，“客戶可以為技術鼓掌，而為業務買單”，湖倉一體讓所有業務都具備AI能力，即讓所有資料具備可以被分析、決策、預測的狀態，讓技術輔助業務，圍繞最終目標不斷演進，獲得持續生命力。

　　統一底層架構，擁有全鏈路能力

　　而從使用者實際落地案例來看，傳統使用Hadoop以及MPP資料庫的企業正在向湖倉一體化轉型。

　　以某時尚產業集團為例，該企業有很多傳統數倉，有老的Oracle的數倉，還有OLAP、DB2、Teradata 、MPP資料庫，以及自己搭建的Hadoop，這些系統支撐著生產、供應鏈、物流以及門店管理。

　　為了統一底層架構，該集團進行了三大改革：

　　第一，統一所有資料口徑，做出資料目錄。在原有數倉架構下，已經很難做全維度、全鏈路的資料口徑統一。所以，第一步就是統一數倉接管全部業務。這樣做帶來的直接好處是，讓運維變得簡單，不再需要Oracle 、DB2、Teradata、Hadoop等來自不同團隊的人進行運維，直接降低了運維成本。

　　第二，所有資料全部入湖，建立統一的資料標識。構建整個湖倉的分層模型，把所有的資料全部進行統一處理，讓所有多模資料統一儲存，包括大量的結構化資料、非結構化資料。比如：在大量鞋的圖片處理中，原來是統一格式，由一個單獨服務來儲存，現在把這些鞋的圖片都放到整個湖倉平臺內進行儲存。

　　第三，透過外掛對現有業務進行補充。該集團本身的IT技術實力很強，透過湖倉資料服務，還有新做的內嵌到原有的業務系統的分析決策的這種外掛，可以更好地對接原有的BI、ERP等，全面提升資料分析以及運營能力。包括透過更先進的演算法和AI能力，可以對於商品流通環節的關鍵節點進行分析和預測。

　　更通俗的理解是，企業可以像蓋房子一樣。上半部分，有原來的ERP、 CRM、WMS這樣一些業務系統，這些業務系統以一個一個的“煙囪式”方法來構建；下半部分，有一個統一的資料平臺，所有業務系統產生出來的資料，包括第三方電商資料，都全部進入資料統一平臺，資料平臺處理完之後，再反哺到資料應用場景中，最終實現離線到實時的應用。

　　實時數倉和離線數倉的最大區別，就是效能的差異性，要滿足實時的計算需求，可能需要十倍以上的資源來部署。一般來說，實時和離線是兩套不同的處理流程，這意味著企業需要存兩份資料，成本高昂成為最大挑戰。而實時數倉，可以基於一套架構，實現流批一體的集合。即透過不斷最佳化計算引擎，大幅度降低對計算實時性、計算引擎的消耗，這也是湖倉一體成為未來發展趨勢的最主要原因。

　　 速度更快，易用性更好

　　那麼，隨著不同型別玩家加入，實時數倉這一賽道，未來整個市場競爭格局是什麼？

　　是一個相互碾壓的局面！正如楊磊所言，資料中臺的地位未來會比較尷尬，不管是湖倉、雲數倉其實都具備整個資料的開發處理能力。從底層的廠商來說，可以往上走，向上擠壓；而一些做BI的廠商，可以基於資料分析和處理能力，向下擠壓。當然，最終發展結果不會一直有很多玩家存在，而是大浪淘沙的一個過程。

　　另外，原來資料中臺、數倉架構開發模式太重，不像公有云這種輕量化的資料開發治理模式更符合業務需求。所以，資料中臺可能只是一箇中間狀態，未來在底層上就是兩大分支：一方面以湖倉一體為代表的這種模式，也就是大資料的下一代；另一方面，資料中臺在公有云上面提供的服務。

　　但從滿足實時數倉使用者需求的角度來看，一定是速度更快、易用性更好的解決方案，才能被大家看好。這也是滴普科技實時湖倉平臺FastData要在雲原生能力、DataOps、ACID事務處理進一步增強的主要原因。不管是湖倉一體平臺，還是實時數倉平臺，都應該具備技術的開放性，讓資料開發、資料處理變得更加簡單。

　　總之，資料+AI一定是實時數倉最重要的價值呈現，沒有人懷疑這是一個偽需求，擁有資料的實時分析和預測，是每家企業都需要的必備數字化技能。

為什麼說湖倉是實時數倉的重要演進方向？

相關文章