淺談資料倉儲和大資料
轉自:https://blog.csdn.net/Gospelanswer/article/details/78208761
前言
資料倉儲是今年來適應利用資料支援決策分析的強烈需求而發展起來的資料庫應用技術,誠然,資料倉儲以資料庫為基礎,但是他在需求、客戶、體系結構與執行機制等方面與資料庫存在重大的不同,Kimball說:"我們花了二十年的時間往資料庫中加入資料,現在該是拿出來使用的時候了。" ---摘自資料倉儲工具箱:維度建模(第二版)
1.資料倉儲理解
根據筆者自己的理解,資料倉儲是一個抽象的概念,而實現的載體則是我們常見的各種資料庫表。比如傳統行業中用到的Oracle、Teradata(簡稱TD)、GreenPlum(簡稱GP),網際網路行業中用到的Hive、Spark。它的一個主要應用點的體現就是我們企業中建設的資料平臺
2.資料平臺&資料倉儲的組成
先寬泛的講述下資料平臺和資料倉儲的組成
資料平臺可劃分為如下子平臺:資料同步平臺、資料倉儲、排程平臺、後設資料管理平臺、即席查詢平臺、資料視覺化平臺、資料質量檢測系統
資料倉儲由於是一個抽象的概念所以可以簡單的理解為不同粒度的資料層,比如:資料緩衝層(存放當日增量資料)、資料明細層(存放最全的明細資料)、資料模型層(輕粒度的資料彙總以及模型設計,這個時候需要設計相應的主題)、資料集市層(一般就是一些寬表,包含多維度和指標,方便用來做多維分析)、資料應用層(主要是開放給業務側使用,多存放粗粒度的資料包表)
每個公司對每層的命名不一樣,所以就不用什麼ods,dw等來標識各個層級。
3.數倉和大資料的關係
在寫對數倉的理解的時候其實已經點出了數倉和大資料的關係,現在講一下我個人理解的數倉演變歷史以及為什麼要用大資料來實現數倉。
3.1 數倉的過去
資料倉儲在很早的時候就被資料倉儲之父Inmon 提出來了,按我的理解,很早的時候主要是對自己企業內部業務資料的一個分析決策,用一些傳統的關係型資料庫為載體,加上Kettle、Informatica、DataStage等ETL工具以及Biee、smartBi等報表工具來支撐企業自己的資料倉儲建設。其服務目標是部分企業高管、市場人員、運營人員等。
3.2 數倉的現在
資料倉儲在現在的應用已經遠非以前的應用範圍,其區別主要體現在一下幾點:
1.資料來源多樣化
以前的資料來源可能多數是來自企業的交易資料,但是現在則會由以下來源組成,比如:交易資料、行為資料、竟對資料、CRM、 財務資料等
2.資料量暴漲
由於以前資料來源單一,資料量相比較現在增長不會那麼快,多數的中小型企業使用一個高配的小機+關係型資料庫即可滿足數倉的計算資源需求。但是現在由於資料來源的多樣化,導致資料量暴漲,單機的計算已經滿足不了現有資源,但是MPP架構的資料庫又太貴(比如TD),而且也無法滿足企業處理行為日誌資料的需求。這個時候大資料技術應運而生,以hadoop+hive的技術處理開始佔據主流。尤其是網際網路行業的迅速發展,對其有一定的帶動性。
3.服務物件的不同
個人說的以前偏向於傳統行業,他們的服務物件偏向於高管、運營、財務等職能人員。而現在則會有各種各樣的服務物件,比如:高管、運營、財務等職能人員關注的報表必不可少,除此之外還有產品、運營等人關注的竟對分析以及內部風控,反欺詐等線上系統以及推薦等系統模組的介面呼叫
3.3 數倉的未來
目前在國外已經有人提出了Data Lake和Data Vault的概念。讓我們拭目以待是否可以在國內普及應用~
總結
之所以出現hadoop、spark等大資料處理技術,資料多樣化以及對資料時效性越來越高佔主要因素,成本也是其中的一個因素,但是個人認為佔比很小,因為區別僅僅在於到底是把錢花在了機器和系統上還是花在了人力上~
下面簡單的對傳統行業以及網際網路行業建設資料倉儲的時候用到的一些工具做些總結
1.傳統行業
資料庫:Oracle、DB2、TD(MPP結構,列式儲存)、GP(MPP結構,列式儲存)、SybaseIQ(MPP結構,列式儲存)、MySql Inforbright、MsSql、等
ETL工具:Informatica、DataStage、Kettle、Automation(排程平臺)、SSIS、企業內部排程工具等
視覺化工具:Biee、tableau、Congons、Power BI等
2.網際網路行業
離線倉庫架構:Sqoop+hadoop+hive/spark+mysql/hbase+echarts/tableau/highchars
實時架構:flume+kafka+storm/spark streaming+hbase/redis+echarts/tableau/highchars
相關文章
- 談談資料湖和資料倉儲
- 淺談資料倉儲質量管理流程
- 大資料和資料倉儲解決方案大資料
- 資料倉儲與大資料的區別大資料
- 淺談大資料、資料分析、資料探勘的區別!大資料
- ETL是什麼?淺談ETL對資料倉儲的重要性
- 資料湖和中央資料倉儲的設計
- 聽HashData CEO暢談雲原生資料倉儲
- 資料庫倉庫系列:(一)什麼是資料倉儲,為什麼要資料倉儲資料庫
- 資料湖 vs 資料倉儲 vs 資料庫資料庫
- 萬字詳解資料倉儲、資料湖、資料中臺和湖倉一體
- BI、資料倉儲和資料分析之間的區別
- 資料庫和資料倉儲的區別在哪兒?CN資料庫
- 資料湖會取代資料倉儲嗎?
- 資料倉儲 - ER模型模型
- 資料湖 VS 資料倉儲之爭?阿里提出大資料架構新概念:湖倉一體阿里大資料架構
- 大資料時代,資料倉儲究竟是幹嘛的?大資料
- 資料湖+資料倉儲 = 資料湖庫架構架構
- 談談工業企業如何將資料編織與傳統資料倉儲結合
- 資料倉儲ODS、DW和DM概念 - 1
- 資料倉儲ODS、DW和DM概念 - 2
- 資料倉儲ODS、DW和DM概念 - 3
- 資料倉儲ODS、DW和DM概念 - 4
- 奈學:資料湖和資料倉儲的區別有哪些?
- 雲資料建模:為資料倉儲設計資料庫資料庫
- 深入分析大資料時代中的資料倉儲技術大資料
- [數倉]資料倉儲設計方案
- 關於資料湖、資料倉儲的想法
- 資料倉儲被淘汰了?都怪資料湖
- 資料倉儲應該用什麼方案——資料倉儲實施方案概述
- MySql的資料儲存之B+樹(淺談)MySql
- 淺談圖資料庫資料庫
- 什麼是資料倉儲
- 什麼是資料倉儲?
- 資料倉儲經驗概念
- 資料倉儲建模方法論
- 資料網格將替代資料倉儲或資料湖?- thenewstack
- 淺談JDBC和資料庫連線池JDBC資料庫