Spark-Streaming的學習使用

一行資料發表於2019-04-12

原文網址 : https://blog.csdn.net/qq_42554007/article/details/89231642

Spark

1. SparkStreaming

Spark Streaming可以輕鬆構建可擴充套件的容錯流應用程式。

便於使用
把之前學過的處理離線資料的運算元直接拿來使用
容錯
sparkStreaming可以保證資料被消費一次
保證不丟失，不重複消費資料。
整合
flume/kafka/tcp sockets

2. SparkStreaming計算架構

在這裡插入圖片描述

3. Dstream

編寫sparkStreaming程式需要了解Dstream。
一個抽象。流計算，資料來源往往分佈在多臺計算。
Dstream屬於離散（多臺機器）資料流，我們在streaming程式中以Dstream表示。
首先建立Dstream，對Dstream進行處理就可以了。
rdd的型別：
1）transformation
2) action
Dstream也存在Transformation與action。Dstream其實也就是對rdd的高階包裝。

Dstream如果接受實時的資料流會把資料切分為批次，這個批次會被spark引擎處理。
對於每個批次都會產生結果。

4.使用spark-Streaming進行流式wordcount計算

package day07

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Milliseconds, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

/*
rdd:建立程式入口 sparkContext
dataframe: sparkSession
Dstream:
 */

object WordCount {
  def main(args: Array[String]): Unit = {
    //1.建立sparkCOntect
    val conf = new SparkConf().setAppName("WordCount").setMaster("local[2]")
    val sc = new SparkContext(conf)

    //2.建立streamingContext
    val ssc: StreamingContext = new StreamingContext(sc,Milliseconds(2000))

    //3.可以建立Dstream, 首先接入資料來源
    //socket
    val data: ReceiverInputDStream[String] =
      ssc.socketTextStream("192.168.64.111",7788)

    //4.進行計算，建立dstream
    val rd: DStream[(String, Int)] = data
      .flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)

    //5.列印結果
    rd.print()

    //6.注意：需要啟動sparstreaming程式
    ssc.start()
    ssc.awaitTermination()

  }
}

hadoop基礎學習三十一（spark-streaming）
2020-11-09
HadoopSpark
spark-streaming之 socketTextStream
2018-10-17
Spark
pagetable的使用學習
2024-05-27
AJAX的學習使用
2019-04-22
AI工具的學習使用
2024-10-05
AI
Pytest學習（四） - fixture的使用
2020-10-24
VUEX state 的使用學習二
2023-01-17
Vue
github使用學習
2018-12-07
Github
Flutter之FutureBuilder的學習和使用
2018-11-25
FlutterRebuild
Django學習(二) 之模板的使用
2023-12-04
Django
Pytest學習（七） - skip、skipif的使用
2020-11-13
Pytest學習（二） - 斷言的使用
2020-10-20
zookeeper學習02 使用
2018-11-13
學習去使用 Ajax
2019-09-11
學習使用ExpressJS 4.0中的新Router
2019-02-16
ExpressJS
laravel框架學習之路（二）pjax的使用
2019-02-16
Laravel框架
關於Apache Tika的學習和使用
2018-05-18
Apache
Vue學習筆記之Webpack的使用
2020-08-02
Vue筆記Web
Pytest學習（三） - setup和teardown的使用
2020-10-21
innodb學習筆記(一) aio的使用
2020-10-04
筆記AI
Egg 學習筆記 - 外掛的使用
2019-02-17
筆記
初次學習 Docker Volume 的基本使用 (四)
2019-02-21
Docker
Hadoop學習之路（十）HDFS API的使用
2018-03-21
HadoopAPI
Jetpack Compose學習(2)——文字(Text)的使用
2021-08-22
Jetpack
Beautiful Soup庫的使用（學習筆記）
2020-12-23
筆記
【每日學習記錄】使用錄影裝置記錄每天的學習
2019-03-13
深度學習之遷移學習介紹與使用
2018-10-24
深度學習遷移學習
iOS 學習使用 Swift Codable
2018-11-25
iOSSwift
Shell學習【變數使用】
2019-04-04
變數
cmake中使用gtest學習
2024-05-04
學習使用RSocket - Waldemar Panas
2019-07-23
學習Grafana初級使用
2020-11-22
Grafana
VUEX 使用學習三 : mutations
2023-01-17
Vue
VUEX 使用學習五 : getter
2023-01-30
Vue
學習瞭解使用docker
2021-03-01
Docker
node學習—express基本使用
2020-12-30
Express
小白的學習筆記——Redis的簡單使用
2024-02-27
筆記Redis
vue/cli的學習10 二級路由的使用
2020-12-02
Vue路由

Spark-Streaming的學習使用

1. SparkStreaming

2. SparkStreaming計算架構

3. Dstream

4.使用spark-Streaming進行流式wordcount計算

相關文章