解密華為雲FusionInsight MRS新特性:一架構三湖

華為雲開發者社群發表於2021-05-25

摘要:華為雲安全閘道器產品總監郭冕在“華為雲TechWave雲原生2.0專題日”上發表《華為雲FusionInsight MRS,一個架構實現三種資料湖》的主題演講,分享了智慧資料時代的資料湖發展趨勢、MRS雲原生資料湖技術創新實現一個架構構建離線、實時、邏輯三種資料湖,以及業務實踐中的成功案例等。

本文分享自華為雲社群《華為雲FusionInsight MRS雲原生資料湖,一架構三湖,解密華為雲FusionInsight MRS元件新特性》,原文作者: IT老磨。

5月20日,華為雲安全閘道器產品總監郭冕在“華為雲TechWave雲原生2.0專題日”上發表《華為雲FusionInsight MRS,一個架構實現三種資料湖》的主題演講,分享了智慧資料時代的資料湖發展趨勢、MRS雲原生資料湖技術創新實現一個架構構建離線、實時、邏輯三種資料湖,以及業務實踐中的成功案例等。

進入智慧資料時代,業界建設資料湖的十大共識

十大共識1.PNG

經過數十年的快速發展,大資料處理技術已日漸成熟,圍繞資料倉儲、資料湖衍生技術多如繁星,業界在多年的探索之中,也對未來資料湖形態有了十個重要共識,湖倉一體成為智慧資料湖的首選架構。為應對智慧資料時代對大資料技術提出的新挑戰,華為雲FusionInsight MRS雲原生資料湖進行全面升級,引入了Hudi、ClickHouse熱門元件,加強了自研的HetuEngine虛擬化引擎,同時新增IoTDB時序處理的能力,擴充資料使能應用的邊界。

華為雲FusionInsight MRS雲原生資料湖

一架構三湖圖片.PNG

華為雲FusionInsight MRS雲原生資料湖為政企客戶提供湖倉一體、雲原生的資料湖解決方案,構建一個架構可持續演進的離線、實時、邏輯三種資料湖,支撐政企客戶全量資料的實時分析、離線分析、互動查詢、實時檢索、多模分析、資料倉儲、資料接入和治理等大資料應用場景,使政企客戶高效用數、簡化用數,助力政企客戶實現一企一湖、一城一湖,業務洞見更準,價值兌現更快。

  • 離線資料湖:提供互動式、BI、AI等多個計算引擎,採用OBS實現存算分離,使得雲原生資料湖的架構更靈活。支援單叢集2萬+節點的超大規模,通過叢集聯邦,可支援10萬+規模。支援滾動升級,保障關鍵業務升級不中斷。
  • 實時資料湖:通過Hudi支援ACID資料實時增量入湖、ClickHouse毫秒級OLAP分析等構建實時更新處理能力,使得供數時效從T+1到T+0。
  • 邏輯資料湖:HetuEngine提供跨湖、跨倉、跨雲的協同分析,實現湖倉一體,減少80%資料搬遷,協同分析提效50倍。

一架構三湖新特性,覆蓋資料分析全流程

  • Hudi:增量實時入湖,實現資料入湖時效快、開發易、效能高、資源利用率更高

傳統資料湖不支援資料更新,導致資料採用T+1離線處理模式,完全無法滿足靈活多變的業務訴求,針對資料時效性問題,華為雲FusionInsight MRS雲原生資料湖引入Hudi。

Hudi可以支援資料更新、資料刪除,還有ACID保證,保證資料實時入湖更新操作。它提供多種檢視,包括讀優化檢視、增量檢視、實時檢視,可以對不同的分析應用提供不同的檢視,基於這些技術可輕鬆實現增量表、拉鍊表,映象表這些資料儲存模型。引入Hudi後,帶來四大顯著效果:

  1. 資料時效更快:在業務系統,通過CDC的系統實現分鐘級資料入湖,資料時效性從T+1到T+0。
  2. 處理效能更高:面對資料有刪除、更新的場景下,傳統採用Hive更新方式,僅處理一行資料也可能需要對整個表,至少要對整個分割槽進行處理,引入Hudi後處理效率提升10倍+。
  3. 開發更簡單:對於開發人員來說,傳統資料入湖不支援更新或者刪除,開發人員需新建臨時表,將資料處理後再進行覆蓋,對同一個任務可能需要寫很多程式碼去完成,有了Hudi的加持之後,做一個資料更新的操作就跟使用資料庫一樣簡單,單條語句即可完成。
  4. 資源利用率更高:傳統T+1的模式並不是24小時跑任務,而是在晚上進行批量加工,早上出報表,整個處理過程中,計算高峰期僅晚上跑批的時間,而資源卻是按照高峰期的計算需求來配比,導致白天的資源利用不足,引入Hudi後,資料實時採集入湖,把入湖處理的工作分散到全天的過程,實際上把整個資源消耗的高峰和低峰抹平掉。

某金融客戶基於Hudi構建資料湖,資料入湖時延降至分鐘級,且白天資源利用率提升2倍+,資料處理效率提升50%,開發人員通過單條語句即可完成開發,簡化開發難度。

  • ClickHouse:實時OLAP引擎,實現報表全自助高價效比的實時分析

傳統的OLAP引擎因其處理能力有限,資料一般按照專題或者主題進行組織後再與BI工具對接,導致BI使用者和提供資料的資料工程師脫節。比如BI使用者有一個新的需求,所需的資料沒有在專題集市中,需要將需求給到資料工程師,以便開發相應的ETL任務,這個過程往往需要部門間協調,時間週期長,協作效益低。

現在,華為雲FusionInsight MRS雲原生資料湖可以將所有明細資料以大寬表的形式載入ClickHouse,BI使用者可以基於ClickHouse大寬表進行自助分析,對資料工程師供數要求少,甚至在面對大部分新需求時,無需重新供數,開發效率和BI報表上線率都會得到極大提升。同時,ClickHouse在一張表裡的資料分析可達毫秒級。

基於ClickHouse實現自助BI在華為內部實踐也獲得了很好的效果。華為集團HIS資料湖原來基於傳統OLAP引擎建模,受限於開發效率,幾年才上線了幾十個報表。在引入Clickhouse後,三個月時間開發上線了400+報表,業務上線效率提升50倍。目前,華為內部ClickHouse的整體使用規模已經達到2000+節點,資料量規模達10+PB,日增資料量100TB。

  • HetuEngine:資料虛擬化引擎,突破地理限制,打破資料“牆”

伴隨企業發展與數字化轉型的需求,企業業務越來越複雜,創新需求越來越高。單系**立工作難以滿足業務的變化需求,企業內可能同時存在多個湖、多個倉、多個系統,但傳統方案煙囪式建設,湖倉之間、多引擎之間無直接的互聯互通能力,需要通過ETL資料來回搬遷,造成資料流轉鏈路長,資料多份冗餘,產生資料孤島。系統多份資料冗餘也難以保證資料的一致性和可靠性。

為了讓資料使用更簡單,跨湖協同更容易,解決湖倉資料割裂的問題,華為推出了資料虛擬化引擎HetuEngine,實現跨湖、跨倉和雲上、雲下、多雲協同分析的能力,突破地理限制,打破資料“牆”,跨湖協同分析效率提升50倍,跨倉協同分析減少80%的系統間資料搬遷同步,分析效能從分鐘級提升至秒級。

金融某行通過引入HetuEngine資料虛擬化引擎,在資料湖查詢分析方面該行提升了併發能力,僅1/5的資源即可支援45併發,峰值併發最大達200QPS,平均時延優化到8秒;在湖倉協同分析方面,通過HetuEngine打通資料湖與數倉間的資料壁壘,湖倉協同分析效能從分鐘級提升至秒級,同時減少80%的系統間資料搬遷同步,大大提升資料治理效率。

  • IoTDB:時序資料庫,雲邊端協同輕鬆構建時序資料集市

時序資料具備兩大特點:在端、邊、雲都有處理,時序資料採集後不需要更新。傳統時序處理方案中,在端、邊、雲採用不同的技術棧,異構的技術棧必將帶來資料處理的複雜性。清華大學開發的時序資料庫IoTDB(又稱時序引擎),通過統一的時序資料檔案格式TsFile,實現一份資料相容全場景,一套引擎打通雲邊端、一套框架整合雲邊端。華為跟清華大學保持緊密的合作,最新發布的IoTDB叢集版本,就是華為與清華主導開發的一個版本。

在上海、成都、重慶等城市均已採用IoTDB管理地鐵監控資料,原本144輛列車需要9臺伺服器,現在僅需一個IoTDB例項即可滿足要求,測點的取樣時延也從原來的500ms降至200ms,日增4140億資料點管理,大大提升資源利用率。

結語

目前,華為雲FusionInsight MRS雲原生資料湖攜手800+生態夥伴,已服務於3000+政企客戶,廣泛應用於公用事業、金融、運營商、能源、醫療、製造、交通等行業。

 

點選關注,第一時間瞭解華為雲新鮮技術~

相關文章