使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeks
這是使用Storm,Kafka和ElasticSearch處理實時資料的文章和原始碼
批處理和流處理的區別:
- 批處理:批處理是要一起處理的資料的集合(請參見圖1)。批處理允許您將不同的資料點合併,合併或聚合在一起。在整個批次完成處理之前,通常無法獲得其結果。批次越大,從中獲取有用資訊的等待時間就越長。如果需要更直接的結果,則流處理是更好的解決方案。
- 流處理:流處理器作用於無限制的資料流,而不是連續攝取的一批資料點(“流”)(請參見圖2)。與批處理過程不同,沒有明確定義的起點或終點到流經此流的資料點。它是連續的。低延遲(或高速)是此處用於選擇流處理的關鍵字。
流處理鏈如圖所示:
可以使用的另一種技術堆疊是SMACK [1]:
- Spark:引擎(替代Storm)
- Mesos:容器
- Akka:模型
- Cassandra:儲存(替代ElasticSearch)
- Kafka:訊息代理
相關文章
- 實時資料處理:Kafka 和 FlinkKafka
- 大資料6.1 - 實時分析(storm和kafka)大資料ORMKafka
- 使用Kafka和Flink構建實時資料處理系統Kafka
- Storm系列(六)storm和kafka整合ORMKafka
- kafka和websocket實時資料推送KafkaWeb
- storm-kafka-client使用ORMKafkaclient
- SpringBoot整合Kafka和StormSpring BootKafkaORM
- flink使用Event_time處理實時資料
- DoorDash使用 Kafka 和 Flink 構建可擴充套件的實時事件處理Kafka套件事件
- 大資料流處理:Flume、Kafka和NiFi對比大資料KafkaNifi
- Debezium zookeeper kafka mysql資料處理KafkaMySql
- Spark Streaming,Flink,Storm,Kafka Streams,Samza:如何選擇流處理框架SparkORMKafka框架
- 解密Kafka主題的分割槽策略:提升實時資料處理的關鍵解密Kafka
- Storm 系列(九)—— Storm 整合 KafkaORMKafka
- 優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理?ApacheKafka事件
- 開源實時資料處理系統Pulsar:一套搞定Kafka+Flink+DBKafka
- Kafka如何實現實時流處理 Part 1 - André MeloKafka
- 使用記憶體NewSQL資料平臺來處理實時資料流的三個好處記憶體SQL
- Storm與kafka整合ORMKafka
- kafka+storm+hbaseKafkaORM
- 資料清洗和資料處理
- PostgreSQL與Elasticsearch和PGSync的實時資料整合 -ToluSQLElasticsearch
- java大資料處理:如何使用Java技術實現高效的大資料處理Java大資料
- 流式處理框架storm淺析(下篇)框架ORM
- 超3萬億資料實時分析,JCHDB助力海量資料處理
- 基於Kafka和Elasticsearch構建實時站內搜尋功能的實踐KafkaElasticsearch
- 時間序列資料的處理
- 使用openpyxl處理表格資料
- 使用Excel高效處理資料Excel
- 大資料Storm 之RCE實踐大資料ORM
- 使用Kafka分割槽擴充套件Spring Batch大資料排程批處理 – ArnoldKafka套件SpringBAT大資料
- 使用 .NET Core 構建可擴充套件的實時資料處理系統套件
- storm(1.1.3)與kafka(1.0.0)整合ORMKafka
- 亞信安慧AntDB資料庫——實時流資料處理的先鋒資料庫
- 影像資料不足時的處理方法
- kafka 副本機制和容錯處理 -2Kafka
- Python使用xlrd處理excel資料PythonExcel
- CDC實戰:MySQL實時同步資料到Elasticsearch之陣列集合(array)如何處理【CDC實戰系列十二】MySqlElasticsearch陣列