阿里云云原生資料湖分析DLA重磅釋出-資料湖管理,助力企業一站式管理OSS資料湖儲存資料
一、資料湖方案的價值
資料湖方案相比較資料庫、資料倉儲、Hadoop等,資料湖要處理的資料型別更加開放、更加複雜。資料湖主要是對海量的結構化、半結構化、非結構化、二進位制資料進行儲存,同時還需要對這些資料進行管理和價值挖掘。接下來可以看下雲上沉澱的典型資料湖方案:
方案一:一站式端到端資料湖儲存、管理、分析&計算方案
場景:企業在構建資料湖方案時,期望構建完整、通用、可擴充套件的解決方案,。
方案價值:滿足資料攝入、資料儲存、資料管理、資料價值挖掘一體化能力。
方案二:OSS 大規模資料(自由程式設計)清洗&機器學習方案
場景:企業對儲存在OSS上面的大規模資料需要進行多種計算負載處理。
方案價值:Serverless Spark完全彈性;原生支援Spark全部生態能力。
方案三:不同型別資料來源聯邦查詢分析方案
場景:期望MySQL、MongoDB等資料庫的資料和儲存在OSS上面的行為日誌資料進行關聯分析。
方案價值:DLA Serverless SQL(相容Presto)支援15種以上的資料來源的聯邦分析。
二、構建資料湖方案面臨的挑戰
上面的兩個資料湖方案是各大企業在阿里雲上面透過實踐沉澱下來的。當前企業在落地資料湖方案具體會遇到的挑戰主要包括:
如何構建資料的統一管理檢視?
如何構建多租戶的許可權管理?
如何自動化的構建後設資料?
如何簡單的進行資料入湖?
結合使用者的這些挑戰和痛點,阿里雲資料湖分析服務DLA的資料湖管理功能可以有效的提高構建資料湖的效率,接下來一起把這些功能玩轉起來吧
三、DLA高效的資料湖管理功能
阿里雲資料湖分析服務DLA的資料湖管理功能定位為幫助使用者構建統一、安全、高效、開放的資料湖解決方案。從下面的資料湖方案整體架構圖可以看出:
儲存對接:資料湖管理向下管理好資料湖儲存的資料;
分析與計算支援:資料湖管理向上為多種資料湖計算引擎提供統一的後設資料系統。
資料湖管理核心功能包括:後設資料管理、後設資料爬取、資料入湖、實時資料湖。下面一起來看下這些功能是如何高效的幫助構建資料湖的。
3.1 後設資料管理
為了對資料湖的資料進行安全的管理和挖掘價值,需要一套同時具備基本管理能力、多租戶許可權管理能力、擴充套件能力、開放能力的統一後設資料系統。阿里雲資料湖分析服務DLA的後設資料系統具備這些能力。
3.1.1 DLA後設資料管理介紹
下面是資料湖分析服務DLA的後設資料管理系統的架構圖,整個後設資料管理包含四個層次:儲存層、核心服務層、接入層、生態層。
3.1.2 DLA後設資料管理上手
1) 視覺化全域性管理檢視:支援“建立Schema”、檢視庫表資訊、查詢資料等。
2) 建立後設資料:支援後設資料爬取、資料入湖、SQL手動建立、SQL自動建立等3) 許可權管理:目前支援透過JDBC進行許可權的GRANT和REVOKE,透過阿里雲OpenAPI也在研發中。
3.2 後設資料爬取
使用者基於OSS進行資料湖儲存時,資料具有規模大、格式豐富、動態變化、非結構化欄位多的特點,這種情況下手動建立的可行性及成本會比較高。
3.2.1 DLA後設資料爬取介紹
後設資料爬取功能可以自動為OSS上面的資料檔案建立及更新資料湖後設資料,方便分析和計算。
自動探索格式:自動探索檔案資料欄位及型別、自動對映目錄和分割槽;
增量發現:自動感知新增列及分割槽;
規模擴充套件:資料爬取任務可以自動彈性伸縮資源來保證後設資料爬取任務端到端的延遲;
成本:免費使用。
3.2.2 DLA後設資料爬取10分鐘上手
使用DLA的後設資料爬取可以透過DLA的控制檯:
建立任務:左側選擇要爬取的具體OSS路徑,右側配置爬取的後設資料要儲存到DLA後設資料系統的Schema名稱即可,其他高階選項根據實際需求調整。
任務管理:支援檢視任務的執行狀態、配置的修改、跳轉到DLA的SQL視窗進行快速的資料查詢。
3.3 資料入湖
企業期望對儲存在訊息中介軟體、Database的資料都有歸檔儲存到資料湖OSS中進行統一計算分析。簡單易用的資料入湖功能成為普遍的需求。
3.3.1 DLA資料入湖介紹
阿里雲資料湖分析DLA的資料入湖包含DataBase一鍵建湖、實時資料湖兩個重要功能。
1) DataBase一鍵建湖:主要支援全量、增量、多庫合併三種模式,支援OLTP的MySQL、SQLServer、POLARDB等,同時支援NoSQL的mongoDB等;
2) 實時資料入湖:對於雲kafka、Loghub等訊息中間、資料庫的CDC資料可以透過“實時資料入湖”方案構建資料湖。
全鏈路資料延遲可達分鐘級別,打造T + 0 資料湖;一份資料儲存在OSS,透過DLA Meta增量管理,降低儲存成本低。
3.3.2 Database一鍵建湖
使用一鍵建湖可以透過DLA的控制檯,同時可以透過資料管理DMS進行。
建立一鍵建湖:左側選擇資料來源,可以包括RDS、PolarDB、MongoDB、ECS自建資料庫;右側配置源庫的驗證資訊,以及在DLA生成的後設資料名稱即可。
任務管理:對於週期執行的建湖任務可以進行全域性的管理,以及對建好的湖進行分析。
四、展望與總結
資料湖分析DLA 是 Serverless的架構,支援 【按需與保留】 資源使用,打造最具價效比的資料湖分析平臺;
提供一站式的資料湖分析與計算服務,支援 ETL、機器學習、流、互動式分析,可以與OSS、資料庫等多種資料來源搭配使用;功能包括:資料入湖,後設資料管理與自動發現,支援雙引擎:【SQL(相容Presto)分析、Spark計算服務】。其中資料湖管理這塊會朝著更易用、更開放、更可靠方向迭代。
注:資料湖管理控制檯使用連結,資料湖管理及DLA的幫助文件。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69940574/viewspace-2715875/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 阿里云云原生資料湖體系全解讀——資料湖開發治理平臺 DataWorks阿里
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 資料湖--架構師如何助力“湖加速”?架構
- 資料湖
- 資料倉儲、資料集市、資料湖,你的企業更適合哪種資料管理架構?架構
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 資料湖會取代資料倉儲嗎?
- 談談資料湖和資料倉儲
- 資料湖中加熱資料?
- 資料倉儲 vs 資料湖 vs 湖倉一體:如何基於自身資料策略,選擇最合適的資料管理方案?
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- 資料倉儲被淘汰了?都怪資料湖
- 關於資料湖、資料倉儲的想法
- 資料倉儲、資料湖與湖倉一體的區別與聯絡
- 通俗語言解釋資料倉儲、資料湖、資料中臺
- 一文讀懂:本地資料湖丨資料倉儲丨雲資料湖的利與弊
- 資料湖和中央資料倉儲的設計
- 讀資料湖倉02資料抽象抽象
- 讀資料湖倉06資料整合
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 資料湖架構,為什麼需要“湖加速”?架構
- 資料湖是下一代資料倉儲?
- 資料湖 vs 倉庫 vs 資料庫資料庫
- 大資料轉型方案:首推資料湖!大資料
- 讀資料湖倉01讓資料可信
- 資料湖是誰?那資料倉儲又算什麼?
- 資料湖揭祕—Delta Lake
- 杉巖資料:從資料到洞察,如何用物件儲存支撐新型資料湖物件
- 讀資料湖倉07描述性資料
- 袋鼠雲資料湖平臺「DataLake」,儲存全量資料,打造數字底座
- 如何用好雲原生資料湖?
- 讀資料湖倉04資料架構與資料工程架構
- 奈學:資料湖和資料倉儲的區別有哪些?
- 讀資料湖倉03不同型別的資料型別
- 讀資料湖倉05資料需要的層次
- 讀資料湖倉08資料架構的演化架構
- 構建企業CDC資料湖解決方案 -DZone