hadoop基礎學習三十一（spark-streaming）

一隻小呆呆發表於2020-11-09

原文網址 : https://blog.csdn.net/qq_45798550/article/details/109560790

HadoopSpark

文章目錄

一、流處理和批處理

流處理：資料大小未知，操作簡單，及時響應
訊息採集=》訊息佇列（排隊等候）=》計算=》資料庫
批處理：資料大小固定，操作賦值，需要一段時間
有界流：具有定義的開始和結束
無界流：有一個開始，但沒有定義的結束

二、spark-streaming

SparkStreaming是一套框架。
SparkStreaming是Spark核心API的一個擴充套件，可以實現高吞吐量的，具備容錯機制的實時流資料處理。
Spark處理的是批量的資料（離線資料），Spark Streaming實際上處理並不是像Strom一樣來一條處理一條資料，而是對接的外部資料流之後按照時間切分，批處理一個個切分後的檔案，和Spark處理邏輯是相同的。
Spark Streaming將接收到的實時流資料，按照一定時間間隔，對資料進行拆分，交給Spark Engine引擎，最終得到一批批的結果。

總結：spark是離線處理資料的，可以通過sparkstreaming來做實時處理資料，但是本質實現，是通過較短的時間進微批處理

三、程式碼演示streaming原理

加入依賴

        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.11</artifactId>
            <version>2.4.5</version>
        </dependency>

在這裡插入圖片描述

1）實時統計

當使用awaitTermination時，主執行緒會處於一種等待的狀態，等待執行緒池中所有的執行緒都執行完畢後才繼續執行。
spark streaming 需要指定多個資源
在master中啟動socket服務，用於接收資料

首先需安裝一個外掛nc
yum install nc -y
在這裡插入圖片描述
啟動socket中設定的要監聽的埠
nc -lk 9999

在這裡插入圖片描述

無狀態運算元

package com.sparkstreaming
import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Demo1_wc {
    def main(args: Array[String]): Unit = {
        //建立spark的配置，指明執行方式和執行緒數，和程式名稱
        // spark streaming 需要指定多個資源,  接收資料會佔用一個，計算會佔用一個
        //由於是無限流，沒有指定的結束，執行緒會一直等待，沒有執行緒用來處理輸出
        //所以需要指定多個資源，資料結束會佔用一個
        val conf: SparkConf = new SparkConf()
        conf.setMaster("local[2]").setAppName("streaming")

        //建立spark的上下文物件
        val sc: SparkContext = new SparkContext(conf)
        //建立sparkStreaming 的上下文物件,設定多長時間處理一次，可以指定分鐘，毫秒
        val ssc: StreamingContext = new StreamingContext(sc,Durations.seconds(5))

        //指定一個埠獲取資料，連線socket獲取資料,  建立DStream
        //需要到master中啟動一個socket服務,用來輸入資料
        val rds: ReceiverInputDStream[String] = ssc.socketTextStream("master",9999)
        //對接收到rds的資料進行邏輯處理，，每五秒執行一次該邏輯
        //該邏輯為統計word的數量
        val ds: DStream[String] = rds.flatMap(_.split(","))
        val ds1: DStream[(String, Int)] = ds.map((_,1)).reduceByKey(_+_)
        //不能用foreach，foreach需要遍歷完，這是是一個無界流
        ds1.print()
        //需啟動sparkstreaming，設定主執行緒為等待狀態
        ssc.start()
        ssc.awaitTermination()

    }

}

指定要監聽的埠號，在master中啟動該埠，執行程式

在master中輸入資料
在這裡插入圖片描述
會發現idea中每五秒更新一次，每五秒都重新計算，不儲存之前的狀態，所以也稱為無狀態運算元

在這裡插入圖片描述
1000ms=1s 5s=5000ms 時間戳加了5s

有狀態運算元

統計累加的資料，包括之前時間內
將每一個統計單詞的數量看著是一個狀態(數值)
後面的計算不停的去更新之前的狀態

package com.sparkstreaming

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Demo2_updatabykey {
    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setAppName("up").setMaster("local[2]")
        val sc: SparkContext = new SparkContext(conf)

        val ssc: StreamingContext = new StreamingContext(sc, Durations.seconds(5))
        //由於有狀態運算元，需要保持狀態，此處需儲存快照
        ssc.checkpoint("spark/data/checkpoint")

        //連線socket
        val ds1: ReceiverInputDStream[String] = ssc.socketTextStream("master",9999)
        val ds2: DStream[(String, Int)] = ds1.flatMap(_.split(",")).map((_,1))

        //定義一個功能函式
        //seq為所有可能的狀態的值
        //option之前一個key計算的狀態,  之前的結果需要儲存的checkpoint中
        //返回一個新的狀態
        def Funcation(seq:Seq[Int],option:Option[Int]): Option[Int] ={
            val now: Int = seq.sum
            val before: Int = option.getOrElse(0)
            Some(now+before)
        }
        val ds3: DStream[(String, Int)] = ds2.updateStateByKey(Funcation)
        ds3.print()

        ssc.start()
        ssc.awaitTermination()


    }

}

在這裡插入圖片描述

有狀態運算元=》window

統計最近一段時間內的資料
視窗操作
計算最近一段時間的資料, 每隔一段時間計算一次
口大小和滑動時間必須是, spark batch是的整數倍

package com.sparkstreaming

import org.apache.spark.streaming.dstream.{DStream, ReceiverInputDStream}
import org.apache.spark.streaming.{Durations, StreamingContext}
import org.apache.spark.{SparkConf, SparkContext}

object Demo3_Window {
    def main(args: Array[String]): Unit = {
        val conf: SparkConf = new SparkConf().setAppName("window").setMaster("local[2]")
        val sc: SparkContext = new SparkContext(conf)

        val ssc: StreamingContext = new StreamingContext(sc, Durations.seconds(5))
        ssc.checkpoint("spark/data/checkpoint")

        val ds1: ReceiverInputDStream[String] = ssc.socketTextStream("master", 9999)
        val ds2: DStream[(String, Int)] = ds1.flatMap(_.split(",")).map((_, 1))

        //兩個時間需是streamingcontext上下文時間的整數倍
        val ds3 = ds2.reduceByKeyAndWindow(
            (x: Int, y: Int) => x + y,//需要聚合的操作 聚合函式
            Durations.seconds(15),//視窗大小
            Durations.seconds(5)//多久計算一次，滑動一次
        )
        
        
        //減少重疊計算的優化版本
//        val ds3=ds2.reduceByKeyAndWindow(
//            (x: Int, y: Int) => x + y, //聚合函式
//            (i: Int, j: Int) => i - j, // 減去多餘部分的函式
//            Durations.seconds(15), // 視窗大小
//            Durations.seconds(5) // 多久季賽那一次 (滑動時間)
//        )
        
        //去掉空資料，不加的話有些資料沒了還會顯示，xx 0，易干擾視覺
        val ds4: DStream[(String, Int)] = ds3.filter(_._2 != 0)
        ds4.print()

        ssc.start()
        ssc.awaitTermination()

    }
}

在這裡插入圖片描述

2）Datafram連線socket，寫sql

Datafram在批處理和流處理中是一樣的介面，只是實現不同，批處理是rdd，流處理是ds

package com.sparkstreaming

import org.apache.spark.sql.streaming.OutputMode
import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object Demo4_dfStream {
    def main(args: Array[String]): Unit = {
        val spark=SparkSession.builder()
                .appName("dfstream")
                //將其註釋掉可以打包上傳至虛擬機器中執行
                .master("local[2]")
                .config("spark.sql.shuffle.partitions",2)
                .getOrCreate()
        //df連線socket
        val df1: DataFrame =spark.readStream
                .format("socket")
                .option("host","master")
                .option("port",9999)
                .load()
        import spark.implicits._
        import org.apache.spark.sql.functions._
        //為了方便呼叫切分發方法，需將datafram轉化為String
        //Dataset使用和df一樣
        val ds1: Dataset[String] = df1.as[String]
        //此處切分之後，會固定有一個叫value的列
        val ds2: DataFrame = ds1.flatMap(_.split(",")).select($"value" as "word")

        /**
          * dsl
          */
        val ds3=ds2.groupBy($"word").agg(count($"word") as "count")
                .select($"word",$"count")
        /**
          * sql
          */


//        ds2.createTempView("wordview")
//
//        val ds3=spark.sql(
//            """
//              |select word,count(word) from wordview group by word
//            """.stripMargin)
        ds3 .writeStream // 輸入結果
                .outputMode(OutputMode.Complete()) //
                .format("console") //輸出到控制檯
                .start()
                .awaitTermination()

    }

}

輸入資料就會更新且會累加
在這裡插入圖片描述

在這裡插入圖片描述

3）檔案流，監控一個目錄

package com.sparkstreaming

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.streaming.OutputMode

object Demo5_filestream {
    def main(args: Array[String]): Unit = {
        val spark=SparkSession.builder()
                .master("local[2]")
                .appName("file")
                .config("spark.sql.shuffle.paratitions",2)
                .getOrCreate()
        val student=spark.readStream
                .format("csv")
                .option("sep",",")
                .schema("id STRING ,name STRING , age  int ,gender string ,clazz string")
                .load()
        student
                .writeStream
                .format("console")
                .outputMode(OutputMode.Append())
                .start()
                .awaitTermination()
        
    }

Hadoop學習之路（六）HDFS基礎
2019-01-23
Hadoop
學習hadoop需要什麼基礎?
2018-09-07
Hadoop
Spark-Streaming的學習使用
2019-04-12
Spark
hadoop基礎學習三十七（kylin的安裝）
2020-12-04
Hadoop
Hadoop基礎
2020-03-23
Hadoop
零基礎學習hadoop開發先明白這層關係
2019-01-19
Hadoop
零基礎學習hadoop開發需要的必備的技能
2018-08-29
Hadoop
Hadoop基礎知識
2023-12-11
Hadoop
Hadoop學習
2024-07-30
Hadoop
免殺學習-基礎學習
2020-12-15
Linux基礎學習——檔案基礎
2018-11-04
Linux
零基礎學習大資料Hadoop需要什麼準備？Hadoop如何發展起來的？
2019-06-17
大資料Hadoop
python基礎學習
2019-02-16
Python
Redis 基礎學習
2019-03-06
Redis
Linux基礎學習
2018-09-24
Linux
Docker 基礎學習
2019-09-10
Docker
Flume基礎學習
2019-09-28
【Vue學習】基礎
2020-11-05
Vue
jQuery基礎學習
2020-09-29
jQuery
Scala基礎學習
2019-01-31
kafka基礎學習
2024-10-11
Kafka
Zookeeper 基礎學習
2024-10-03
深度學習基礎
2024-08-24
深度學習
學習linux基礎
2020-12-23
Linux
Pandas基礎學習
2021-05-10
【機器學習基礎】神經網路/深度學習基礎
2021-11-05
機器學習神經網路深度學習
Salesforce LWC學習(三十一) Quick Action適配
2021-03-03
SalesforceUI
淺析Hadoop基礎原理
2021-03-19
Hadoop
Hadoop學習——MapReduce
2019-04-06
Hadoop
如何學習Hadoop
2020-11-05
Hadoop
Python基礎學習篇
2019-03-16
Python
Zookeeper學習——基礎框架
2019-04-15
框架
python基礎學習1
2018-11-27
Python
linux基礎命令學習
2019-02-13
Linux
python基礎學習2
2018-08-20
Python
深度學習--RNN基礎
2023-04-25
深度學習RNN
redis學習——基礎指令
2019-09-15
Redis
YII-基礎學習
2019-06-27

hadoop基礎學習三十一（spark-streaming）

文章目錄

一、流處理和批處理

二、spark-streaming

三、程式碼演示streaming原理

1）實時統計

無狀態運算元

有狀態運算元

有狀態運算元=》window

2）Datafram連線socket，寫sql

3）檔案流，監控一個目錄

相關文章