聽說你還在為海量資料構建不同資料倉儲?華為雲學院 DataLake瞭解一下!
聽說你還在為海量資料構建不同資料倉儲?華為雲學院 DataLake 瞭解一下!
By: FYS_CMSS 的 CSDN 部落格
“ A data lake is a method of storing data within a system or repository, in its natural format, that facilitates the collocation of data in various schemata and structural forms, usually object blobs or files ”
資料湖是在系統或者儲存庫中以原生格式儲存資料的方法,通常使用物件塊或者檔案來儲存各種模式和結構化的資料。目前對資料湖沒有一個標準的定義,主要思想是對企業中所有資料進行統一儲存,從原始資料到用於視覺化、分析和機器學習等各種任務的轉換資料,這些資料包括關聯式資料庫中的結構化資料、半結構化資料( CSV 、 XML 、 JSON 等)、非結構化資料(電子郵件、檔案)和二進位制資料(影像、音訊、影片等),從而形成一個集中化資料儲存系統來容納所有形式的資料。
使用資料湖可以改變使用者使用資料的方式,使用者不必為海量的資料構建不同的資料庫、資料倉儲,透過資料湖就可以完成或者實現不同資料儲存的需求。資料湖合理的存在形式是以雲的方式部署到虛擬機器、物理環境或者雲平臺上,為以雲服務的方式隨時按需滿足對不同資料分析、處理和儲存的需求。
從表面上看資料湖和資料倉儲都是將所有資料進行收集、分析並將結果反饋給使用者,但是從本質上是完全不同的。資料倉儲的本質是透過資料的抽取、轉換、載入及清洗等步驟把資料變小( ETL ),為了提高查詢效率對資料進行預聚合操作,資料倉儲的設計目標是決策支援,使用者對資料的需求有預先定義的模式。
在資料倉儲中,會定期清除原始資料,只保留聚合資料。
但是大資料在具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低等特徵,其獲取、儲存、管理與分析方面都大大超出傳統資料庫軟體能力範圍的資料聚合。這些資料可以包括結構化、半結構化和非結構化資料,其中非結構化資料佔主要部分,而且大資料分析的意義在於從全量資料上,利用機器學習技術和演算法進行建模,實現對資料的實時分析。使用大資料處理技術實現資料倉儲的功能,這種架構下,資料儲存變成和 HDFS ,使用 SQL On Hadoop 等保持 SQL 介面,維護前端分析引起的不變,但是 Meta Data 部仍然保持了原來的資料建模,沒有改變資料整合方式。例如 Apache Kylin 對資料使用 MR/Spark 進行 OLAP 分析,並沒有從根本上去除資料“倉庫”的概念,但是與資料倉儲相比滿足了大資料處理的需求,提高廉價的儲存儲存大量原始資料,可以一定程度上提高資料處理的速度,但是資料湖與資料倉儲的概念有很大的區別,資料倉儲中的資料進入倉庫前需要事先歸類,以便於未來的分析,資料倉儲中的資料高度結構化。但是在資料湖中,資料是直接載入達到資料湖中,然後根據分析的需要再轉換資料。在資料湖中資料儲存成本低、以原始的格式儲存資料,並且提供靈活的、面向任務的資料繫結,不需要提前定義資料模型。
資料湖下面的幾個特徵:
Ø 集中的資料共享儲存系統,代表性的是使用分散式檔案系統( DFS ) ,Hadoop 資料湖儲存原生資料,透過資料生命週期管理來感知資料的變化,這個方法對內部的使用規則和內部審計很有用。與傳統倉庫相比,當需要時再講資料進行轉換、聚合和更新操作,資料管理機構對資料進行監管。
Ø 具有任務排程和協作能力,例如 Hadoop YARN ,對計算資源具有管理能力,提供 Hadoop 叢集的持續性任務提交、安全和資料監管工具,保證使用者能夠獲取其需要的資料和計算資源來保證分析流程的正常執行。
Ø 提供基於資料的一系列的應用和工作流程,由於資料以原生方式儲存在資料湖中,因此要提供應用保證使用者能夠方便的使用資料。資料擁有者能夠與資料消費者、提供者和資料操作者之間相互協調,解決共享資料遇到的技術和規則問題。
瞭解了資料倉儲與資料湖的區別,想要了解具體的資料湖服務, 快來華為雲學院( https://edu.huaweicloud.com/ )學習體驗吧!
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556022/viewspace-2215040/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 7天帶你全面瞭解資料倉儲 體驗海量資料分析
- 構建資料倉儲
- 【雲學院乾貨】資料倉儲服務:在冗餘海量資料中找到正確決策
- 如何構建資料倉儲模型?模型
- 資料倉儲的構建(ZT)
- 華為雲企業級資料倉儲DWS
- 雲資料建模:為資料倉儲設計資料庫資料庫
- Hive:資料倉儲構建步驟Hive
- 大資料是什麼?華為雲學院帶你探索大資料之旅大資料
- 如何用資料倉儲管理海量資料?直接訪問資料倉儲資料時的4個限制
- 還在為管理企業資料檔案感到煩惱?企業雲盤瞭解一下
- 構建實時資料倉儲首選,雲原生資料倉儲AnalyticDB for MySQL技術解密MySql解密
- SQL Server資料倉儲的構建與分析SQLServer
- 企業為什麼要建資料倉儲?
- 資料倉儲架構到底選擇內部部署還是上雲?架構
- 袋鼠雲資料湖平臺「DataLake」,儲存全量資料,打造數字底座
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 使用Power BI構建資料倉儲與BI方案
- 資料倉儲構建實施方法及步驟
- 資料倉儲建設-OLAP和資料立方體
- HBase海量資料高效入倉解決方案
- 為什麼要建資料倉儲,而不是直連資料來源?
- 盲目崇拜資料,是因為還不曾真正瞭解資料
- 資料爆炸別擔心,華為雲大資料BI解決方案為你排憂解難大資料
- 資料倉儲—資料倉儲—Sybase IQ 介紹
- 你真的瞭解資料在堆疊中的儲存方式嗎?
- 分層架構在資料倉儲的應用架構
- 大資料和資料倉儲解決方案大資料
- 關於Mysql資料儲存,你瞭解多少?MySql
- 《Greenplum構建實時資料倉儲實踐》簡介
- 資料倉儲
- 什麼是雲連線?雲學院帶你瞭解華為雲連線知識
- 一鍵帶你瞭解Yotta企業雲盤大資料儲存大資料
- 海量非結構化資料儲存難題 ,杉巖資料物件儲存完美解決物件
- 資料倉儲、DataVault、DataLake、DeltaLake、DataFabric、DataMesh的特點和典型應用場景
- 設計資料倉儲和資料倉儲的粒度
- 華為雲大資料輕量級解決方案,讓資料“慧”說話大資料