阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

阿里巴巴資料庫技術發表於2020-08-31

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

一、資料湖方案的價值

資料湖方案相比較資料庫、資料倉儲、Hadoop等,資料湖要處理的資料型別更加開放、更加複雜。資料湖主要是對海量的結構化、半結構化、非結構化、二進位制資料進行儲存,同時還需要對這些資料進行管理和價值挖掘。接下來可以看下雲上沉澱的典型資料湖方案:

方案一:一站式端到端資料湖儲存、管理、分析&計算方案

  • 場景:企業在構建資料湖方案時,期望構建完整、通用、可擴充套件的解決方案,。

  • 方案價值:滿足資料攝入、資料儲存、資料管理、資料價值挖掘一體化能力。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

方案二:OSS 大規模資料(自由程式設計)清洗&機器學習方案

  • 場景:企業對儲存在OSS上面的大規模資料需要進行多種計算負載處理。

  • 方案價值:Serverless Spark完全彈性;原生支援Spark全部生態能力。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

方案三:不同型別資料來源聯邦查詢分析方案

  • 場景:期望MySQL、MongoDB等資料庫的資料和儲存在OSS上面的行為日誌資料進行關聯分析。

  • 方案價值:DLA Serverless SQL(相容Presto)支援15種以上的資料來源的聯邦分析。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

二、構建資料湖方案面臨的挑戰

上面的兩個資料湖方案是各大企業在阿里雲上面透過實踐沉澱下來的。當前企業在落地資料湖方案具體會遇到的挑戰主要包括:

  • 如何構建資料的統一管理檢視?

  • 如何構建多租戶的許可權管理?

  • 如何自動化的構建後設資料?

  • 如何簡單的進行資料入湖?

結合使用者的這些挑戰和痛點,阿里雲資料湖分析服務DLA的資料湖管理功能可以有效的提高構建資料湖的效率,接下來一起把這些功能玩轉起來吧

三、DLA高效的資料湖管理功能

阿里雲資料湖分析服務DLA的資料湖管理功能定位為幫助使用者構建統一、安全、高效、開放的資料湖解決方案。從下面的資料湖方案整體架構圖可以看出:

  • 儲存對接:資料湖管理向下管理好資料湖儲存的資料;

  • 分析與計算支援:資料湖管理向上為多種資料湖計算引擎提供統一的後設資料系統。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

資料湖管理核心功能包括:後設資料管理、後設資料爬取、資料入湖、實時資料湖。下面一起來看下這些功能是如何高效的幫助構建資料湖的。

3.1 後設資料管理

為了對資料湖的資料進行安全的管理和挖掘價值,需要一套同時具備基本管理能力、多租戶許可權管理能力、擴充套件能力、開放能力的統一後設資料系統。阿里雲資料湖分析服務DLA的後設資料系統具備這些能力。

3.1.1 DLA後設資料管理介紹

下面是資料湖分析服務DLA的後設資料管理系統的架構圖,整個後設資料管理包含四個層次:儲存層核心服務層接入層生態層

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

3.1.2 DLA後設資料管理上手

1) 視覺化全域性管理檢視:支援“建立Schema”、檢視庫表資訊、查詢資料等。阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

2) 建立後設資料:支援後設資料爬取、資料入湖、SQL手動建立SQL自動建立3) 許可權管理:目前支援透過JDBC進行許可權的GRANT和REVOKE,透過阿里雲OpenAPI也在研發中。

3.2 後設資料爬取

使用者基於OSS進行資料湖儲存時,資料具有規模大、格式豐富、動態變化、非結構化欄位多的特點,這種情況下手動建立的可行性及成本會比較高。

3.2.1 DLA後設資料爬取介紹

後設資料爬取功能可以自動為OSS上面的資料檔案建立及更新資料湖後設資料,方便分析和計算。

  • 自動探索格式:自動探索檔案資料欄位及型別、自動對映目錄和分割槽

  • 增量發現:自動感知新增列及分割槽

  • 規模擴充套件:資料爬取任務可以自動彈性伸縮資源來保證後設資料爬取任務端到端的延遲;

  • 成本:免費使用。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

3.2.2 DLA後設資料爬取10分鐘上手

使用DLA的後設資料爬取可以透過DLA的控制檯:

  • 建立任務:左側選擇要爬取的具體OSS路徑,右側配置爬取的後設資料要儲存到DLA後設資料系統的Schema名稱即可,其他高階選項根據實際需求調整。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

  • 任務管理:支援檢視任務的執行狀態、配置的修改、跳轉到DLA的SQL視窗進行快速的資料查詢。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

3.3 資料入湖

企業期望對儲存在訊息中介軟體、Database的資料都有歸檔儲存到資料湖OSS中進行統一計算分析。簡單易用的資料入湖功能成為普遍的需求。

3.3.1 DLA資料入湖介紹

阿里雲資料湖分析DLA的資料入湖包含DataBase一鍵建湖、實時資料湖兩個重要功能。

1) DataBase一鍵建湖:主要支援全量、增量、多庫合併三種模式,支援OLTP的MySQL、SQLServer、POLARDB等,同時支援NoSQL的mongoDB等;

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

2) 實時資料入湖:對於雲kafka、Loghub等訊息中間、資料庫的CDC資料可以透過“實時資料入湖”方案構建資料湖。

全鏈路資料延遲可達分鐘級別,打造T + 0 資料湖;一份資料儲存在OSS,透過DLA Meta增量管理,降低儲存成本低。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

3.3.2 Database一鍵建湖

使用一鍵建湖可以透過DLA的控制檯,同時可以透過資料管理DMS進行。

  • 建立一鍵建湖:左側選擇資料來源,可以包括RDS、PolarDB、MongoDB、ECS自建資料庫;右側配置源庫的驗證資訊,以及在DLA生成的後設資料名稱即可。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料

  • 任務管理:對於週期執行的建湖任務可以進行全域性的管理,以及對建好的湖進行分析。

阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料


四、展望與總結

資料湖分析DLA 是 Serverless的架構,支援 【按需與保留】 資源使用,打造最具價效比的資料湖分析平臺;

提供一站式的資料湖分析與計算服務,支援 ETL、機器學習、流、互動式分析,可以與OSS、資料庫等多種資料來源搭配使用;功能包括:資料入湖,後設資料管理與自動發現,支援雙引擎:【SQL(相容Presto)分析、Spark計算服務】。其中資料湖管理這塊會朝著更易用、更開放、更可靠方向迭代。

注:資料湖管理控制檯使用連結,資料湖管理及DLA的幫助文件。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69940574/viewspace-2715875/,如需轉載,請註明出處,否則將追究法律責任。

相關文章