【Spark篇】---Spark中廣播變數和累加器

LHBlog發表於2018-02-06

Spark變數

一、前述

Spark中因為運算元中的真正邏輯是傳送到Executor中去執行的，所以當Executor中需要引用外部變數時，需要使用廣播變數。

累機器相當於統籌大變數，常用於計數，統計。

二、具體原理

1、廣播變數

廣播變數理解圖

注意事項

1、能不能將一個RDD使用廣播變數廣播出去？

不能，因為RDD是不儲存資料的。可以將RDD的結果廣播出去。

2、廣播變數只能在Driver端定義，不能在Executor端定義。

3、在Driver端可以修改廣播變數的值，在Executor端無法修改廣播變數的值。

4、如果executor端用到了Driver的變數，如果不使用廣播變數在Executor有多少task就有多少Driver端的變數副本。

5、如果Executor端用到了Driver的變數，如果使用廣播變數在每個Executor中只有一份Driver端的變數副本。

val conf = new SparkConf()
conf.setMaster("local").setAppName("brocast")
val sc = new SparkContext(conf)
val list = List("hello xasxt")
val broadCast = sc.broadcast(list)
val lineRDD = sc.textFile("./words.txt")
lineRDD.filter { x => broadCast.value.contains(x) }.foreach { println}
sc.stop()

2、累加器

累加器理解圖

Scala程式碼：

import org.apache.spark.{SparkConf, SparkContext}

object AccumulatorOperator {
  def main(args: Array[String]): Unit = {
    val conf = new SparkConf()
    conf.setMaster("local").setAppName("accumulator")
    val sc = new SparkContext(conf)
    val accumulator = sc.accumulator(0)
    sc.textFile("./records.txt",2).foreach {//兩個變數
      x =>{accumulator.add(1)
      println(accumulator)}}
    println(accumulator.value)
    sc.stop()
  }
}

java程式碼：

package com.spark.spark.others;

import org.apache.spark.Accumulator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.VoidFunction;
/**
 * 累加器在Driver端定義賦初始值和讀取，在Executor端累加。
 * @author root
 *
 */
public class AccumulatorOperator {
    public static void main(String[] args) {
        SparkConf conf = new SparkConf();
        conf.setMaster("local").setAppName("accumulator");
        JavaSparkContext sc = new JavaSparkContext(conf);
        final Accumulator<Integer> accumulator = sc.accumulator(0);
//        accumulator.setValue(1000);
        sc.textFile("./words.txt",2).foreach(new VoidFunction<String>() {
            
            /**
             * 
             */
            private static final long serialVersionUID = 1L;

            @Override
            public void call(String t) throws Exception {
                accumulator.add(1);
//                System.out.println(accumulator.value());
                System.out.println(accumulator);
            }
        });
        System.out.println(accumulator.value());
        sc.stop();
        
    }
}

結果：

注意事項

累加器在Driver端定義賦初始值，累加器只能在Driver端讀取最後的值，在Excutor端更新。

Spark開發-廣播變數
2017-10-01
Spark變數
Spark2 broadcast廣播變數
2016-11-14
SparkAST變數
spark的計算器與廣播變數
2019-07-25
Spark變數
spark:自定義分割槽，自定義排序，spark與jdbc，廣播變數等
2018-10-13
Spark排序JDBC變數
Spark2 AccumulatorV2累加器
2016-11-15
Spark
【大資料開發】SparkCore——利用廣播變數優化ip地址統計、Spark2.x自定義累加器
2020-10-12
大資料Spark變數優化
【Spark篇】---Spark初始
2018-02-01
Spark
【Spark篇】---Spark中記憶體管理和Shuffle引數調優
2018-02-07
Spark記憶體
Spark 外部變數和BroadCast變數的區別
2020-10-05
Spark變數AST
【Spark篇】---Spark中Shuffle機制，SparkShuffle和SortShuffle
2018-02-07
Spark
【Spark篇】---Spark資源排程和任務排程
2018-02-05
Spark
Spark on Yarn 和Spark on Mesos
2018-11-20
SparkYarn
【Spark篇】---Spark中控制運算元
2018-02-02
Spark
【Spark篇】---Spark中Action運算元
2018-02-02
Spark
【Spark篇】---Spark故障解決（troubleshooting）
2018-03-04
Spark
【Spark篇】---Spark中transformations運算元二
2018-02-05
SparkORM
【Spark篇】---Spark中Shuffle檔案的定址
2018-03-07
Spark
【Spark篇】---Spark中Master-HA和historyServer的搭建和應用
2018-02-07
SparkASTServer
Spark入門篇
2020-11-04
Spark
【Spark篇】---SparkSQL on Hive的配置和使用
2018-02-08
SparkSQLHive
【Spark篇】---Spark中Transformations轉換運算元
2018-02-01
SparkORM
【Spark篇】--Spark中Standalone的兩種提交模式
2018-02-04
Spark模式
【Spark篇】---Spark中資源和任務排程原始碼分析與資源配置引數應用
2018-02-05
Spark原始碼
【Spark篇】---Spark解決資料傾斜問題
2018-03-04
Spark
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
【Spark篇】---Spark中yarn模式兩種提交任務方式
2018-02-04
SparkYarn模式
Spark開發-spark執行原理和RDD
2017-09-13
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第七節 Spark執行原理
2015-11-14
Spark
【Spark篇】--Spark中的寬窄依賴和Stage的劃分
2018-02-05
Spark
Spark入門（五）--Spark的reduce和reduceByKey
2019-03-01
Spark
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
Spark之spark shell
2018-09-13
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第一節 Spark 1.5.0叢集搭建
2015-11-14
Spark
Spark修煉之道（進階篇）——Spark入門到精通：第八節 Spark SQL與DataFrame（一)
2015-11-14
SparkSQL
Spark之HiveSupport連線（spark-shell和IDEA）
2018-09-17
SparkHiveIdea
【Spark篇】---SparkSQL初始和建立DataFrame的幾種方式
2018-02-08
SparkSQL
【Spark篇】---SparkSql之UDF函式和UDAF函式
2018-03-07
SparkSQL函式
Spark修煉之道（進階篇）——Spark入門到精通：第四節 Spark程式設計模型（一)
2015-11-14
Spark程式設計模型

【Spark篇】---Spark中廣播變數和累加器

相關文章