聽說你還在為海量資料構建不同資料倉儲?華為雲學院 DataLake瞭解一下!

華為雲學院發表於2018-09-27

聽說你還在為海量資料構建不同資料倉儲?華為雲學院 DataLake 瞭解一下!

By: FYS_CMSS CSDN 部落格

 

A data lake is a method of storing data within a system or repository, in its natural format, that facilitates the collocation of data in various schemata and structural forms, usually object blobs or files

資料湖是在系統或者儲存庫中以原生格式儲存資料的方法,通常使用物件塊或者檔案來儲存各種模式和結構化的資料。目前對資料湖沒有一個標準的定義,主要思想是對企業中所有資料進行統一儲存,從原始資料到用於視覺化、分析和機器學習等各種任務的轉換資料,這些資料包括關聯式資料庫中的結構化資料、半結構化資料( CSV XML JSON 等)、非結構化資料(電子郵件、檔案)和二進位制資料(影像、音訊、影片等),從而形成一個集中化資料儲存系統來容納所有形式的資料。

 

使用資料湖可以改變使用者使用資料的方式,使用者不必為海量的資料構建不同的資料庫、資料倉儲,透過資料湖就可以完成或者實現不同資料儲存的需求。資料湖合理的存在形式是以雲的方式部署到虛擬機器、物理環境或者雲平臺上,為以雲服務的方式隨時按需滿足對不同資料分析、處理和儲存的需求。

從表面上看資料湖和資料倉儲都是將所有資料進行收集、分析並將結果反饋給使用者,但是從本質上是完全不同的。資料倉儲的本質是透過資料的抽取、轉換、載入及清洗等步驟把資料變小( ETL ),為了提高查詢效率對資料進行預聚合操作,資料倉儲的設計目標是決策支援,使用者對資料的需求有預先定義的模式。

 

在資料倉儲中,會定期清除原始資料,只保留聚合資料。

但是大資料在具有海量的資料規模、快速的資料流轉、多樣的資料型別和價值密度低等特徵,其獲取、儲存、管理與分析方面都大大超出傳統資料庫軟體能力範圍的資料聚合。這些資料可以包括結構化、半結構化和非結構化資料,其中非結構化資料佔主要部分,而且大資料分析的意義在於從全量資料上,利用機器學習技術和演算法進行建模,實現對資料的實時分析。使用大資料處理技術實現資料倉儲的功能,這種架構下,資料儲存變成和 HDFS ,使用 SQL On Hadoop 等保持 SQL 介面,維護前端分析引起的不變,但是 Meta Data 部仍然保持了原來的資料建模,沒有改變資料整合方式。例如 Apache Kylin 對資料使用 MR/Spark 進行 OLAP 分析,並沒有從根本上去除資料“倉庫”的概念,但是與資料倉儲相比滿足了大資料處理的需求,提高廉價的儲存儲存大量原始資料,可以一定程度上提高資料處理的速度,但是資料湖與資料倉儲的概念有很大的區別,資料倉儲中的資料進入倉庫前需要事先歸類,以便於未來的分析,資料倉儲中的資料高度結構化。但是在資料湖中,資料是直接載入達到資料湖中,然後根據分析的需要再轉換資料。在資料湖中資料儲存成本低、以原始的格式儲存資料,並且提供靈活的、面向任務的資料繫結,不需要提前定義資料模型。

 

資料湖下面的幾個特徵:

Ø 集中的資料共享儲存系統,代表性的是使用分散式檔案系統( DFS ,Hadoop 資料湖儲存原生資料,透過資料生命週期管理來感知資料的變化,這個方法對內部的使用規則和內部審計很有用。與傳統倉庫相比,當需要時再講資料進行轉換、聚合和更新操作,資料管理機構對資料進行監管。

Ø 具有任務排程和協作能力,例如 Hadoop YARN ,對計算資源具有管理能力,提供 Hadoop 叢集的持續性任務提交、安全和資料監管工具,保證使用者能夠獲取其需要的資料和計算資源來保證分析流程的正常執行。

Ø 提供基於資料的一系列的應用和工作流程,由於資料以原生方式儲存在資料湖中,因此要提供應用保證使用者能夠方便的使用資料。資料擁有者能夠與資料消費者、提供者和資料操作者之間相互協調,解決共享資料遇到的技術和規則問題。

 

瞭解了資料倉儲與資料湖的區別,想要了解具體的資料湖服務, 快來華為雲學院( https://edu.huaweicloud.com/ )學習體驗吧!

 


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31556022/viewspace-2215040/,如需轉載,請註明出處,否則將追究法律責任。

相關文章