《離線和實時大資料開發實戰》(二)大資料平臺架構 & 技術概覽

雲 祁發表於2020-09-27

前言

接著上一章 構建大資料開發知識體系圖譜,本次繼續分享邦中老師的《離線和實時大資料開發實戰》讀書筆記 。到底什麼樣的平臺才能算是大資料平臺呢?帶著這個問題,我們開始今天的內容 ( •̀ ω •́ )✧

什麼是資料平臺呢?或者更時髦點,什麼是大資料平臺呢?目前業界並沒有對資料平臺的精確定義,但通常所說的資料平臺主要包含以下三部分:

  • 資料相關的工具、產品和技術:比如批量資料採集傳輸的 Sqoop 、離線資料處理 Hadoop 和 Hive 、實時流處理的 Storm、Spark 以及資料分析的 R 等;
  • 資料資產:不僅包含公司業務本身產生和沉澱的資料,還包括公司運作產生的數(如財務、行政),以及從外界購買、交換或者爬蟲等而來的資料等;
  • 資料管理:有了資料工具,也有了資料資產,但是還必須對它們進行管理才能讓資料產生最大價值並最小化風險,因此資料平臺通常還包括資料管理的相關概念和技術,如資料倉儲、資料建模、資料質量、資料規範、資料安全和後設資料管理等。

上面是對資料平臺邏輯範疇上的一個劃分,實際上資料平臺從資料處理的時效性角度,通常還是分為 離線資料平臺實時資料平臺

  1. 離線資料平臺通常以天為典型的資料處理週期,資料延遲也是以天為單位。離線資料平臺的資料應用主要以“看”為主࿰

相關文章