使用Storm、Kafka和ElasticSearch處理實時資料 -javacodegeeks
這是使用Storm,Kafka和ElasticSearch處理實時資料的文章和原始碼
批處理和流處理的區別:
- 批處理:批處理是要一起處理的資料的集合(請參見圖1)。批處理允許您將不同的資料點合併,合併或聚合在一起。在整個批次完成處理之前,通常無法獲得其結果。批次越大,從中獲取有用資訊的等待時間就越長。如果需要更直接的結果,則流處理是更好的解決方案。
- 流處理:流處理器作用於無限制的資料流,而不是連續攝取的一批資料點(“流”)(請參見圖2)。與批處理過程不同,沒有明確定義的起點或終點到流經此流的資料點。它是連續的。低延遲(或高速)是此處用於選擇流處理的關鍵字。
流處理鏈如圖所示:
可以使用的另一種技術堆疊是SMACK [1]:
- Spark:引擎(替代Storm)
- Mesos:容器
- Akka:模型
- Cassandra:儲存(替代ElasticSearch)
- Kafka:訊息代理
相關文章
- 大資料6.1 - 實時分析(storm和kafka)大資料ORMKafka
- 實時資料處理:Kafka 和 FlinkKafka
- 《Storm實時資料處理》一1.1 簡介ORM
- 使用Kafka和Flink構建實時資料處理系統Kafka
- 實時處理 Kafka 資料來源Kafka
- Kafka實時流資料經Storm至HdfsKafkaORM
- storm流式大資料處理流行嗎ORM大資料
- kafka和websocket實時資料推送KafkaWeb
- Storm系列(六)storm和kafka整合ORMKafka
- Kafka實戰-Kafka到StormKafkaORM
- 大資料分析處理框架——離線分析(hive,pig,spark)、近似實時分析(Impala)和實時分析(storm、sparkstreaming)大資料框架HiveSparkORM
- 流式大資料處理的三種框架:Storm,Spark和Samza大資料框架ORMSpark
- log4j+kafka+storm+mongodb+mysql 日誌處理KafkaORMMongoDBMySql
- 【Twitter Storm系列】flume-ng+Kafka+Storm+HDFS 實時系統搭建ORMKafka
- storm-kafka-client使用ORMKafkaclient
- Debezium zookeeper kafka mysql資料處理KafkaMySql
- 大資料架構:flume-ng+Kafka+Storm+HDFS 實時系統組合大資料架構KafkaORM
- 大資料流處理:Flume、Kafka和NiFi對比大資料KafkaNifi
- Kafka實戰-Storm ClusterKafkaORM
- flink使用Event_time處理實時資料
- DoorDash使用 Kafka 和 Flink 構建可擴充套件的實時事件處理Kafka套件事件
- 解密Kafka主題的分割槽策略:提升實時資料處理的關鍵解密Kafka
- flume-ng+Kafka+Storm+HDFS 實時系統搭建KafkaORM
- storm kafka外掛使用案例ORMKafka
- 三個大資料處理框架:Storm,Spark和Samza介紹比較大資料框架ORMSpark
- 優步是如何使用Apache Flink和Kafka實現實時Exactly-Once廣告事件處理?ApacheKafka事件
- Kafka如何實現實時流處理 Part 1 - André MeloKafka
- Storm 系列(九)—— Storm 整合 KafkaORMKafka
- SpringBoot整合Kafka和StormSpring BootKafkaORM
- 開源實時資料處理系統Pulsar:一套搞定Kafka+Flink+DBKafka
- Storm 實戰:構建大資料實時計算ORM大資料
- PostgreSQL與Elasticsearch和PGSync的實時資料整合 -ToluSQLElasticsearch
- 《Storm技術內幕與大資料實踐》一1.2其他流式處理框架ORM大資料框架
- Spark Streaming,Flink,Storm,Kafka Streams,Samza:如何選擇流處理框架SparkORMKafka框架
- 使用記憶體NewSQL資料平臺來處理實時資料流的三個好處記憶體SQL
- 資料清洗和資料處理
- 基於Redis、Storm的實時資料查詢實踐RedisORM
- 基於Kafka和Elasticsearch構建實時站內搜尋功能的實踐KafkaElasticsearch