摘要:華為LakeFormation是企業級的一站式湖倉構建服務。
本文分享自華為雲社群《華為雲MRS支援LakeFormation能力,打造一站式湖倉,釋放資料價值】》,作者:breakDawn 。
1 背景
1.1 數倉和資料湖的概念
資料分析技術在2010~2019年間,以湖倉兩層架構技術作為主流被各資料廠商所應用,即大資料數倉+資料湖的技術形式。
- 大資料數倉:出現最早,也最完備,從單機向分散式、智慧化發展。例如 Hive、華為DWS等
- 資料湖:狹義上的湖主要是雲廠商參與,以統一的物件儲存底座結合雲平臺水平擴充套件的計算資源,讓分析以資料為本、讓業務快起來。
1.2 傳統湖倉技術的挑戰
以上技術在多年的實踐中,逐步衍生出了以下的一些挑戰:
- 隨著資料和AI業務持續創新,跨叢集、跨服務的資料分析成為普遍需求。然而各叢集、各服務各自持有後設資料,難共享,難維持一致,需要後設資料ETL操作才能共享。
- 資料湖、數倉、AI資料化,導致資料雖然可以統一儲存在OBS孤島,但各服務後設資料獨自管理,形成資料管理的孤島。
- 湖倉協同僅能透過外表來訪問,後設資料、認證、許可權都不能統一配置和管理,尤其是許可權不統一嚴重阻礙了資料跨引擎共享。
上述問題導致了構建、保護和管理資料湖的過程複雜且耗時,通常需要大量開發和維護成本,解決這一問題的關鍵在於引擎後設資料需要互通,只有構建滿足各種引擎需求的資料湖統一後設資料服務檢視,才能實現資料共享,避免其中額外的ETL成本以及降低鏈路的延時。
1.3 湖倉一體架構的出現
為了解決上述資料湖的相關挑戰,2019年左右,業界開始出現一種新的資料架構,叫做DataLakehouse(湖倉一體),它同時吸收了資料倉儲和資料湖的優勢,能夠在存算分離的基礎上,構建統一後設資料層,上層服務透過統一後設資料層,便捷高效地共享資料和許可權管理。因此資料分析師和資料科學家可以在同一個資料儲存中對資料進行操作,為公司進行資料治理帶來更多的便利性。
2 華為lakeFormation服務關鍵能力
華為LakeFormation是企業級的一站式湖倉構建服務,提供了資料湖後設資料統一管理的視覺化介面及API,相容Hive後設資料模型以及Ranger許可權模型,支援無縫對接多種計算引擎(Hive、Spark等)及大資料雲服務(MRS等),使客戶便捷高效地構建資料湖和運營相關業務,加速釋放業務資料價值,是數智融合的關鍵基礎設施。該產品具有以下關鍵能力:
- 豐富的後設資料和資料許可權管理
華為lakeformation支援Catalog和跨源管理,以及庫/表/函式的集中管理,可解決多種不同後設資料型別之間互有差異的痛點,無需再引入第三方ETL進行檢視和管理,並實現了統一的細粒度資料許可權管理,支援跨服務/跨叢集的資料共享。
- 生態開放
華為LakeFormation相容社群介面、支援平滑對接和遷移,提供了相容Hive/Spark/Flink/Trino社群的後設資料介面,支援計算引擎平滑對接,同時相容Ranger的許可權介面,支援一次授權,統一生效。
- 大規模、高可靠
華為LakeFormation支援處理海量資料業務,具有百萬級超大規模後設資料管理能力,以及多AZ的容災能力,可為業務持續性提供穩定保障,且採用Serverless架構,開箱即用,簡單易上手。
3 華為雲MRS支援lakeformation創造資料價值
3.1 Lakeformation給MRS帶來的場景價值
以數智融合場景為例,當大資料使用者在MRS中建立了表T1時, 數倉使用者可透過lakeformation觀察到表T1的後設資料,並透過其他MRS叢集中寫入正確的資料內容。
當使用者希望透過華為MRS讀取T1資料時,可藉助LakeFormation檢視T1表,再進行T1資料的獲取,整個過程中減少了多個MRS叢集協同運作時的複雜ETL操作,大大提升了資料使用的效率。
另外,當企業使用者的安全管理員希望對不同MRS叢集中同一業務型別的後設資料進行ranger許可權限制時,可透過LakeFormation進行一次授權,統一生效,充分提高了管理效率,簡化管理流程。
3.2 MRS服務對接lakeformation能力展示
華為MRS使用者可基於最新上線的LakeFormation資料連線能力,實現LakeFormation例項的建立和授權。
在MRS控制檯的資料連線頁面,支援建立如下圖所示的LakeFormation資料連線:
建立完成LakeFormation資料連線後,即可在MRS叢集概覽中,配置該資料連線,實現MRS和LakeFormation之間的資料關聯。
後續再根據產品資料指導完成MRS叢集元件相關配置後, 即可正常使用LakeFormation統一的資料湖後設資料及許可權管理,實現後設資料的管理互通、統一賦權,根據統一的後設資料進行業務作業提交等。
當使用者在LakeFormation中針對MRS叢集的catalog建立了department表後
其他使用者可在對應MRS叢集的hive客戶端中觀察這個department表的後設資料。
反過來,使用者透過MRS的hive客戶端建立一個employe表後,可以在LakeFormation中看到該後設資料資訊。
另外也可透過資料許可權能力,修改資料表的許可權策略,並直接同步到MRS的許可權管理元件中。
4 總結
對雲端使用者而言,業務價值發現是最重要的,華為MRS支援LakeFormation後,成功降低了資料應用的成本,幫助客戶落地“存”與“算”的管理,加快推進了數智融合程式,更大程度地釋放業務資料價值。