Spark 優化GroupByKey產生RDD[(K, Iterable[V])]

weixin_33866037發表於2016-11-21

RDD觸發機制

在spark中,RDD Action操作,是由SparkContext來觸發的. 通過scala Iterator來實現.

  /**
   * Return a new RDD by applying a function to all elements of this RDD.
   */
  def map[U: ClassTag](f: T => U): RDD[U] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.map(cleanF))
  }

  /**
   *  Return a new RDD by first applying a function to all elements of this
   *  RDD, and then flattening the results.
   */
  def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[U, T](this, (context, pid, iter) => iter.flatMap(cleanF))
  }

  /**
   * Return a new RDD containing only the elements that satisfy a predicate.
   */
  def filter(f: T => Boolean): RDD[T] = withScope {
    val cleanF = sc.clean(f)
    new MapPartitionsRDD[T, T](
      this,
      (context, pid, iter) => iter.filter(cleanF),
      preservesPartitioning = true)
  }

GroupByKey分析

GroupByKey是一個非常耗資源的操作,shuffle之後,每個key分組之後的資料,會快取在記憶體中,也就是Iterable[V].

 def groupByKey(): RDD[(K, Iterable[V])] = self.withScope {
    groupByKey(defaultPartitioner(self))
  }

   def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])] = self.withScope {
    // groupByKey shouldn't use map side combine because map side combine does not
    // reduce the amount of data shuffled and requires all map side data be inserted
    // into a hash table, leading to more objects in the old gen.
    val createCombiner = (v: V) => CompactBuffer(v)
    val mergeValue = (buf: CompactBuffer[V], v: V) => buf += v
    val mergeCombiners = (c1: CompactBuffer[V], c2: CompactBuffer[V]) => c1 ++= c2
    val bufs = combineByKeyWithClassTag[CompactBuffer[V]](
      createCombiner, mergeValue, mergeCombiners, partitioner, mapSideCombine = false)
    bufs.asInstanceOf[RDD[(K, Iterable[V])]]
  }

如果對RDD[(K, Iterable[V])].在進行flatMap的操作,比如每10條統計一個結果,就會出現問題.

eg:

val sc = new SparkConf().setAppName("demo").setMaster("local[1]")
    val sparkContext =new SparkContext(sc)
    val rdd =  sparkContext.makeRDD(Seq(
      ("wang",25),("wang",26),("wang",18),("wang",15),("wang",7),("wang",1)
      ))
        .groupByKey().flatMap(kv=>{

      var i =0
      kv._2.map(r=>{

        i=i+1
        println(r)
        r
      })


    })

    sparkContext.runJob(rdd,add _)


    def add(list:Iterator[Int]): Unit ={

      var i=0
      val items = new mutable.MutableList[Int]()
      while(list.hasNext){
        items.+=(list.next())
        if(i>=2){
          println(items.mkString(","))
          items.clear()
          i=0
        }else if(!list.hasNext){
          println(items.mkString(","))
        }
        i=i+1
      }

    }

結果:

val sc = new SparkConf().setAppName("demo").setMaster("local[1]")
    val sparkContext =new SparkContext(sc)
    val rdd =  sparkContext.makeRDD(Seq(
      ("wang",25),("wang",26),("wang",18),("wang",15),("wang",7),("wang",1)
      ))
        .groupByKey().flatMap(kv=>{

      var i =0
      kv._2.toIterator.map(r=>{

        i=i+1
        println(r)
        r
      })


    })

    sparkContext.runJob(rdd,add _)


    def add(list:Iterator[Int]): Unit ={

      var i=0
      val items = new mutable.MutableList[Int]()
      while(list.hasNext){
        items.+=(list.next())
        if(i>=2){
          println(items.mkString(","))
          items.clear()
          i=0
        }else if(!list.hasNext){
          println(items.mkString(","))
        }
        i=i+1
      }
    }

結果:

結論

RDD[(K, Iterable[V])].flatMap直接用Iterable,那麼在Action就沒法進行控制,只能flatMap裡面所有資料執行完之後，才能執行後面操作

spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
Spark（十三） Spark效能調優之RDD持久化
2019-01-15
Spark持久化
Spark效能優化：對RDD持久化或CheckPoint操作
2018-09-14
Spark優化持久化
快取Apache Spark RDD - 效能調優
2019-01-08
快取ApacheSpark
Spark DataFrame的groupBy vs groupByKey
2018-11-04
Spark
Spark RDD API
2021-09-09
SparkAPI
spark-RDD
2020-10-25
Spark
Spark RDD使用詳解--RDD原理
2018-01-16
Spark
Spark - [03] RDD概述
2024-05-12
Spark
RDD轉換操作運算元 --- zip(k-v)、join(k)、cogroup（k）、lookup(k)
2020-11-17
Spark 的核心概念 RDD
2019-04-20
Spark
Spark Basic RDD 操作示例
2017-06-01
Spark
Windows優化大師v3.0-v3.4的序號產生器原始碼
2015-11-15
Windows優化原始碼
Spark開發-spark執行原理和RDD
2017-09-13
Spark
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL
Spark RDD 特徵及其依賴
2018-09-23
Spark特徵
spark學習筆記--RDD
2018-07-05
Spark筆記
Spark RDD的預設分割槽數：（spark 2.1.0）
2021-09-09
Spark
Spark RDD在Spark中的地位和作用如何？
2021-05-12
Spark
Eureka：生產環境優化總結。
2020-11-09
優化
貼合生產的MySql優化思路
2021-10-11
MySql優化
Spark學習（二）——RDD基礎
2019-03-31
Spark
【大資料】Spark RDD基礎
2019-01-03
大資料Spark
Spark RDD中Runtime流程解析
2020-09-04
Spark
spark常用RDD介紹及Demo
2015-06-02
Spark
hive、spark優化
2020-12-04
HiveSpark優化
Spark效能優化
2022-04-09
Spark優化
Tomcat 生產伺服器效能優化
2013-07-23
Tomcat伺服器優化
Spark從入門到放棄---RDD
2020-08-17
Spark
大白話講解Spark中的RDD
2020-11-15
Spark
RDD程式設計上（Spark自學三）
2017-10-18
程式設計Spark
RDD程式設計下（Spark自學四）
2017-10-20
程式設計Spark
Spark開發-RDD介面程式設計
2017-10-03
Spark程式設計
Calcite 使用原生的RDD 處理Spark
2018-06-28
Spark
spark效能優化（一）
2021-10-17
Spark優化
Spark效能調優-RDD運算元調優篇（深度好文，面試常問，建議收藏）
2021-03-05
Spark面試
Spark Streaming 生產、消費流程梳理
2021-09-09
Spark
一次生產的 JVM 優化案例
2019-03-09
JVM優化

Spark 優化GroupByKey產生RDD[(K, Iterable[V])]

RDD觸發機制

GroupByKey分析

eg:

結果:

結論

相關文章