大資料開發實戰：實時資料平臺和流計算

weixin_34119545發表於2018-08-07

原文網址 : https://blog.csdn.net/weixin_34119545/article/details/86263434

大資料

　　1、實時資料平臺整體架構

　　　　實時資料平臺的支撐技術主要包含四個方面：實時資料採集（如Flume）,訊息中介軟體（如Kafka）, 流計算框架（如Storm, Spark, Flink和Beam），以及資料實時儲存（如列族儲存的HBase）

　　　　實時資料平臺最為核心的技術是流計算。

　　2、流計算

　　　　流計算的典型特徵：

　　　　1、無邊界：流計算的資料來源頭是源源不斷的，就像河水一樣不停第流過來，相應地，流計算任務也需要始終執行。

　　　　2、觸發：不同於Hadoop離線任務是定時排程觸發，流計算任務的每次計算是由源頭資料觸發的。觸發是流計算的一個非常重要的概念，在某些業務場景下，觸發訊息的邏輯比較複雜，對流計算挑戰很大。

　　　　3、延遲：很顯然，流計算必須能高效地、迅速地處理資料。不同於Hadoop任務至少以分組甚至小時計的處理延遲，流計算的延遲通常在秒甚至毫秒級，分組級別的延遲只有在特殊情況下才能被接受。

　　　　4、歷史資料：Hadoop離線任務如果發現歷史某天的資料有問題，通常很容易修復問題而且重執行任務，但是對於流計算任務基本不可能或代價非常大，以為首先實時流訊息不會儲存很久（一般幾天），而且儲存歷史的完全

　　　　　　　　現場基本不可能，所以實時流計算一般只能從問題發現的時刻修復資料，歷史資料是無法通過流式方式來補的。

　　3、資料管理

　　　　資料管理包括資料探查、資料整合、資料質量、後設資料管理和資料遮蔽

　　　　資料探查：就是對資料的內容本身和關聯關係等進行分析，包括但不限於需要的資料是否有、都有哪些欄位、欄位含義是否規範明確以及欄位的分佈和質量如何等。

　　　　資料整合：資料倉儲的資料整合也叫ETL（抽取：extract、轉換：transform、載入：load）,是資料平臺構建的核心，ETL泛指將資料從資料來源頭抽取、經過清洗、轉換、關聯等轉換，

　　　　　　　　　並最終按照預先設計的資料模型將資料載入到資料倉儲的過程。

　　參考資料：《離線和實時大資料開發實戰》

《離線和實時大資料開發實戰》（二）大資料平臺架構 & 技術概覽
2020-09-27
大資料架構
七牛大資料平臺的實時資料分析實戰
2019-03-03
大資料
DataPipeline在大資料平臺的資料流實踐
2018-11-23
API大資料
資料視覺化平臺搭建，警務實戰平臺大資料應用
2020-12-28
視覺化大資料
快速部署DBus體驗實時資料流計算
2019-07-30
【大資料】MapReduce開發小實戰
2020-09-21
大資料
Golang框架實戰-KisFlow流式計算框架(4)-資料流
2024-02-28
Golang框架
實戰大資料平臺開發架構講解，免費大資料教學視訊等你來拿
2019-01-21
大資料架構
實戰案例：醫療臨床大資料實時流日誌分析
2019-02-13
大資料
如何設計實時資料平臺（技術篇）
2019-06-21
大資料開發-Flink-資料流DataStream和DataSet
2021-05-12
大資料AST
大資料“重磅炸彈”：實時計算框架 Flink
2019-04-08
大資料框架
伍翀：大資料實時計算Flink SQL解密
2018-09-06
大資料SQL解密
一文讀懂大資料實時計算
2021-07-12
大資料
百城匯杭州站大資料實時計算實戰專場圓滿落幕
2020-10-13
大資料
GoldenGate實時投遞資料到大資料平臺（7）– Apache Hbase
2018-03-06
Go大資料Apache
大資料開發平臺(Data Platform)在有讚的最佳實踐
2018-07-23
大資料Platform
Hadoop大資料實戰系列文章之Mapreduce 計算框架
2020-11-10
Hadoop大資料框架
實時計算無線資料分析
2019-04-15
OPPO大資料診斷平臺設計與實踐
2022-12-28
大資料
資料實時傳輸平臺（CDC）與低程式碼平臺（APAAS）資料整合
2022-08-16
大資料引擎技術：2020版大資料教程Flink實時旅遊平臺限時送
2020-04-16
大資料
大資料平臺開發公司有哪些？
2018-11-14
大資料
智慧警務大資料平臺開發，資料視覺化分析平臺搭建
2021-01-06
大資料視覺化
開源 Amundsen：資料發現和後設資料平臺
2022-10-24
3.0 阿里雲大資料專案實戰開發
2018-11-09
阿里大資料
案例｜政務大資料平臺資料安全建設實踐
2023-02-28
大資料
愛奇藝大資料實時分析平臺的建設與實踐
2022-12-05
大資料
使用記憶體NewSQL資料平臺來處理實時資料流的三個好處
2021-01-20
記憶體SQL
以企業級實時資料平臺為例，瞭解何為敏捷大資料
2019-06-20
敏捷大資料
22個大資料開發處理框架平臺和工具
2019-04-21
大資料框架
阿里雲重磅開源實時計算平臺，挑戰計算領域的“珠峰”
2019-01-28
阿里
美圖大資料平臺架構實踐
2018-08-22
大資料架構
大資料開發-資料表監控-實現
2021-09-09
大資料
Arctic助力傳媒實現低成本的大資料準實時計算
2022-11-08
大資料
如何利用資料視覺化大屏把握消防大資料平臺實況
2022-03-31
視覺化大資料
大資料開發需要學習什麼？大資料平臺是什麼？
2019-07-07
大資料
尋找海量資料集用於大資料開發實戰(維基百科網站統計資料)
2022-08-18
大資料網站

大資料開發實戰：實時資料平臺和流計算

1、實時資料平臺整體架構

2、流計算

3、資料管理

相關文章

　　1、實時資料平臺整體架構

　　2、流計算

　　3、資料管理