資料中臺的儲存系統和計算平臺列舉
-
Sqoop Hadoop、關係型資料庫之間傳輸資料的工具。傳輸時,會啟動多個MR作業併發的傳輸資料
-
DataX 阿里巴巴開源的資料同步工具,用來在各種異構資料來源之間同步資料。比如 RDBMS<->Hadoop/MaxCompute、RDBMS<->hbase/ftp等等。部署、運維非常簡單,將DataX的jar包copy到linux系統中即可執行
-
Flume 分散式的高可用的資料收集、聚集的工具。通常用於從其他系統蒐集資料,如web伺服器產生的日誌,結合Kafka的訊息佇列功能,實現實時日誌處理、離線日誌投遞。 典型的使用方案是:
離線計算:應用系統日誌 -> flume -> kafka -> hdfs -> MR作業
實時計算:應用系統日誌 -> flume -> kafka -> blink/jstorm/storm/spark streaming
-
Logstash 伺服器端資料收集工具,能夠同時從多個來源採集、轉換資料。日誌收集功能與Flume比較類似
-
Kafka 基於釋出/訂閱機制的分散式的訊息系統。常用於日誌投遞、分發場景
-
RocketMQ 阿里巴巴開源的訊息佇列工具。經過了雙11場景的洗禮,穩定性、可靠性非常好
儲存層
-
HDFS Hadoop分散式檔案系統(HDFS)被設計成適合執行在通用硬體(commodity hardware)上的分散式檔案系統。HDFS是一個高度容錯性的系統,適合部署在廉價的機器上。HDFS能提供高吞吐量的資料訪問,非常適合大規模資料集上的應用。HDFS放寬了一部分POSIX約束,來實現流式讀取資料檔案
-
HBase Hbase是分散式、KV查詢的開源資料庫(其實準確的說是面向列族)。HDFS為Hbase提供可靠的底層資料儲存服務,MapReduce為Hbase提供高效能的計算能力,Zookeeper為Hbase提供穩定服務和Failover機制,LSM資料儲存格式提供了高效能讀寫能力
-
Redis Redis是key-value儲存系統。採用ANSI C語言編寫、遵守BSD協議、支援網路、可基於記憶體亦可持久化的日誌格式,並提供多種語言的API。提供了雜湊(Hash), 列表(list), 集合(sets) 和 有序集合(sorted sets)等資料結構
-
Ceph 開源分散式儲存系統,提供了塊儲存RDB、分散式檔案儲存Ceph FS、以及分散式物件儲存Radosgw三大儲存功能,是目前為數不多的集各種儲存能力於一身的開源儲存中介軟體
-
儲存格式 常見的有Apache Parquet,Apache ORC、華為Carbondata、Kudu、Avro等。在大資料領域,面向不同的業務場景,採用不同的資料儲存格式。這幾類儲存格式的差異點,主要體現在行、列儲存、預計算
計算層
1、離線計算
-
Hive Hive是基於Hadoop的一個資料倉儲工具,可以將結構化的資料檔案對映為一張資料庫表,並提供簡單的sql查詢功能,可以將sql語句轉換為MapReduce任務進行執行。 其優點是學習成本低,可以透過類SQL語句快速實現簡單的MapReduce統計,不必開發專門的MapReduce應用,十分適合資料倉儲的統計分析。是事實上的離線資料倉儲標準。
-
Spark Apache Spark 是專為大規模資料處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab (加州大學伯克利分校的AMP實驗室)所開源的類Hadoop MapReduce的通用並行框架,Spark,擁有Hadoop MapReduce所具有的優點;但不同於MapReduce的是——Job中間輸出結果可以儲存在記憶體中,從而不再需要讀寫HDFS,因此Spark能更好地適用於資料探勘與機器學習等需要迭代的MapReduce的演算法。
-
MaxCompute 阿里巴巴開發,基於MR原理的大資料處理平臺,已經透過阿里雲對外輸出,是一種快速、完全託管的TB/PB級資料倉儲解決方案。
-
CDH CDH是Cloudera的軟體發行版,包含Apache Hadoop及相關專案。所有元件都是100%的開源(Apache許可證)。
2、實時計算
-
Storm/Jstorm 分散式的、高容錯的實時計算系統,2014年以前應用非常廣泛,近幾年初步被其他流計算產品替代。
-
Flink Flink是一個低延遲、高吞吐、統一的大資料計算引擎。在阿里巴巴的生產環境中,Flink的計算平臺可以實現毫秒級的延遲情況下,每秒鐘處理上億次的訊息或者事件。同時Flink提供了一個Exactly-once的一致性語義。保證了資料的正確性。這樣就使得Flink大資料引擎可以提供金融級的資料處理能力。
-
Spark Streaming Spark Streaming 類似於 Apache Storm,是一個流計算處理框架。Spark Streaming 有高吞吐量和容錯能力強這兩個特點。
在 Spark Streaming 中,處理資料的單位是一批而不是單條,而資料採集卻是逐條進行的,因此 Spark Streaming 系統需要設定間隔使得資料彙總到一定的量後再一併操作,這個間隔就是批處理間隔。批處理間隔是 Spark Streaming 的核心概念和關鍵引數,它決定了 Spark Streaming 提交作業的頻率和資料處理的延遲,同時也影響著資料處理的吞吐量和效能。
資料服務層
-
Kylin 開源的分散式分析引擎,提供Hadoop/Spark之上的SQL查詢介面及多維分析(OLAP)能力以支援超大規模資料。核心原理是資料預計算,利用空間換時間來加速查詢模式固定的OLAP查詢。最新的版本已經支援了實時資料匯入。
-
Druid Druid也是一款非常流行的olap引擎,基於MPP架構,採用了 預聚合、列式儲存、字典編碼、點陣圖索引 4個方法,加速查詢效能。 截止2019年9月22日,Druid原生不支援資料精確去重功能。快手已經將Druid應用於生產環境。
-
Presto Presto是一個開源的分散式SQL查詢引擎,適用於互動式分析查詢,資料量支援GB到PB位元組。Presto的設計和編寫完全是為了解決像Facebook這樣規模的商業資料倉儲的互動式分析和處理速度的問題。
-
Lucene Lucene 是一個基於Java 的全文資訊檢索工具包,目前主流的搜尋系統Elasticsearch和solr都是基於lucene的索引和搜尋能力進行。
-
ElasticSearch 基於Lucene的搜尋伺服器。它提供了一個分散式多使用者能力的全文搜尋引擎。
-
Solr Solr是Apache Lucene專案的開源企業搜尋平臺。其主要功能包括全文檢索、命中標示、分面搜尋、動態聚類、資料庫整合,以及富文字的處理。Solr是高度可擴充套件的,並提供了分散式搜尋和索引複製。Solr是最流行的企業級搜尋引擎,Solr 4還增加了NoSQL支援。
-
Palo 百度開源的olap引擎,在百度內部使用比較廣泛。基於MPP架構,整合了Google Mesa、Cloudera Impala。
阿里巴巴資料中臺團隊,致力於輸出阿里雲資料智慧的最佳實踐,助力每個企業建設自己的資料中臺,進而共同實現新時代下的智慧商業!
阿里巴巴資料中臺解決方案,核心產品:
Dataphin,以阿里巴巴大資料核心方法論OneData為核心驅動,提供一站式資料構建與管理能力;
Quick BI,集阿里巴巴資料分析經驗沉澱,提供一站式資料分析與展現能力;
Quick Audience,集阿里巴巴消費者洞察及營銷經驗,提供一站式人群圈選、洞察及營銷投放能力,連線阿里巴巴商業,實現使用者增長。
本文為雲棲社群原創內容,未經允許不得轉載。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69947441/viewspace-2662541/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- vivo 軒轅檔案系統:AI 計算平臺儲存效能最佳化實踐AI
- vivo資料庫與儲存平臺的建設和探索資料庫
- 雲端計算管理平臺之OpenStack塊儲存服務cinder
- 資料平臺、大資料平臺、資料中臺……還分的清不?大資料
- 資料中心儲存系統故障的處理方式
- 星環科技多模型資料統一儲存的大資料分散式儲存平臺方案分享模型大資料分散式
- 計算機的硬體系統儲存器計算機
- 雲知聲: 基於 JuiceFS 的超算平臺儲存實踐UI
- ISUP協議影片平臺:EasyCVR私有化影片平臺影片匯聚,儲存系統怎麼選?協議VR
- 資料中臺以及資料倉儲的介紹
- 大資料儲存平臺之異構儲存實踐深度解讀大資料
- 資料倉儲資料中臺區別在哪?
- IT老兵告訴你資料中臺和大資料平臺有啥不一樣?大資料
- 企業資料平臺建設的基石:構建統一的資料存算能力
- 資料中臺
- 儲存系列1-openfiler開源儲存管理平臺實踐
- 資料中臺即服務——資料中臺的四大支柱
- 雲端計算平臺與傳統平臺的區別是什麼?怎麼理解?
- 關於SaaS平臺中crontab建立、儲存和執行的考慮
- 計算機儲存器的容量計算和地址轉換計算機
- 利用Flutter寫一個跨平臺的果核APP(4)——資料儲存FlutterAPP
- 資料中心儲存 TCO 模型模型
- 流程簡化!資料中臺+BI平臺輕鬆實現資料整合
- 【資料中臺商業化】資料中臺微前端實踐前端
- 資料中臺:宜信敏捷資料中臺建設實踐敏捷
- 資料中臺是什麼意思?如何建設資料中臺?
- 雲端計算平臺的設計原則
- 搭載AMD霄龍處理器,希捷全新Exos AP企業資料儲存系統控制器推動融合儲存平臺的發展希捷
- 怎麼建設全渠道會員資料中臺系統?
- 大資料開發實戰:實時資料平臺和流計算大資料
- 位元組跳動自研一站式萬億級圖儲存/計算/訓練平臺
- UAVStack之微服務計算平臺微服務
- 支付類系統資料處理和資料中臺的資料處理方式有什麼不同?
- 北鯤雲超算平臺——致力於提高科研效率,降低計算成本的雲超算平臺
- 基於系統融合的統一監控平臺設計
- 資料中臺和平臺區別在哪
- 供應鏈域資料中臺設計
- 直播平臺軟體開發過程中的雲端儲存和備份