Spark aggregateByKey函式

高華傑發表於2017-09-08

Spark函式

aggregateByKey與aggregate類似，都是進行兩次聚合，不同的是後者只對分割槽有效，前者對分割槽中key進一步細分

def aggregateByKey[U: ClassTag](zeroValue: U, partitioner: Partitioner)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U: ClassTag](zeroValue: U, numPartitions: Int)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

def aggregateByKey[U: ClassTag](zeroValue: U)

　　　　(seqOp: (U, V) => U, combOp: (U, U) => U): RDD[(K, U)]

//資料被分為兩個分割槽
//分割槽1：(1,3),(1,2)
//分割槽2：(1, 4),(2,3),(2,4)
scala> var data = sc.parallelize(List((1,3),(1,2),(1, 4),(2,3),(2,4)),2)
data: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[7] at parallelize at <console>:24

//每個分割槽中按key聚合
scala> def InnerCom(a:Int, b:Int) : Int ={
     | println("InnerCom: " + a + " ：" + b)
     | math.max(a,b)
     | }
InnerCom: (a: Int, b: Int)Int

//分割槽間的聚合
scala> def PartitionCom(a:Int, b:Int) : Int ={
     | println("PartitionCom: " + a + " ：" + b)
     | a + b
     | }
PartitionCom: (a: Int, b: Int)Int

//第一個分割槽中只有一個key，兩個元素
//聚合後結果為(1,3)
//第二個分割槽中兩個key，1、2
//聚合後結果為(1,4)、(2,3)
//二次聚合後結果為(1,7)(2,4)
scala> data.aggregateByKey(2)(InnerCom, PartitionCom).collect
InnerCom: 2 ：3
InnerCom: 3 ：2
InnerCom: 2 ：4
InnerCom: 2 ：3
InnerCom: 3 ：4
PartitionCom: 3 ：4
res: Array[(Int, Int)] = Array((2,4), (1,7))

Spark運算元篇 --Spark運算元之aggregateByKey詳解
2018-01-06
Spark
Spark 開窗函式
2019-07-31
Spark函式
Spark Graphx常用函式
2020-11-26
Spark函式
Spark Sql 函式使用
2017-03-01
SparkSQL函式
Spark SQL 開窗函式
2020-03-23
SparkSQL函式
Spark操作開窗函式
2019-09-02
Spark函式
spark aggregate函式
2017-09-08
Spark函式
【Spark篇】---SparkSql之UDF函式和UDAF函式
2018-03-07
SparkSQL函式
Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations
2019-08-14
SparkSQL函式
spark中的聚合函式總結
2018-09-13
Spark函式
Spark Streaming--開窗函式over()
2019-01-02
Spark函式
Spark Streaming中的操作函式分析
2018-01-18
Spark函式
Spark Streaming函式的分析與理解
2017-01-13
Spark函式
spark RDD的學習，filter函式的學習，split函式的學習
2018-08-01
SparkFilter函式
Spark SQL學習——UDF、UDAF和開窗函式
2019-04-05
SparkSQL函式
Spark註冊UDF函式，用於DataFrame DSL or SQL
2017-05-02
Spark函式SQL
Spark SQL scala和java版本的UDF函式使用
2016-05-04
SparkSQLJava函式
Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank
2016-11-25
Spark函式
spark2.4.3 sparkSQL 使用者自定義函式筆記
2019-05-21
SparkSQL函式筆記
Spark SQL使用簡介（2）--UDF（使用者自定義函式）
2018-08-02
SparkSQL函式
spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與*zip()函式詳解//及python中的*args和**kwargs
2018-07-30
Spark函式SQLPython
MySQL函式大全(字串函式，數學函式，日期函式，系統級函式，聚合函式)
2020-11-14
MySql函式字串
Oracle 函式大全(字串函式，數學函式，日期函式，邏輯運算函式，其他函式)
2012-05-12
Oracle函式字串
【函式式 Swift】函式式思想
2016-12-01
函式Swift
【Spark篇】---SparkSQL中自定義UDF和UDAF，開窗函式的應用
2018-02-09
SparkSQL函式
python中id()函式、zip()函式、map()函式、lamda函式
2020-09-23
Python函式
【函式】Oracle函式系列（2）--數學函式及日期函式
2017-02-22
函式Oracle
Python 擴充之特殊函式（lambda 函式，map 函式，filter 函式，reduce 函式）
2018-12-20
Python函式Filter
第7章 IF函式 COUNTIF函式 SUMIF函式
2018-05-26
函式
字元函式、數字函式和日期函式
2017-09-22
字元函式
【函式】Oracle EXTRACT()函式與to_char() 函式
2012-04-23
函式Oracle
MySQL（四）日期函式 NULL函式字串函式
2024-09-05
MySql函式Null字串
【函式】ORACLE函式大全
2012-04-23
函式Oracle
(譯) 函式式 JS #2: 函式!
2019-01-12
函式JS
核函式多項式核函式高斯核函式(常用)
2020-10-30
函式
函式名/函式地址/函式指標
2017-02-13
函式指標
第 8 節：函式-匿名函式、遞迴函式
2019-11-26
函式遞迴
lambda匿名函式sorted排序函式filter過濾函式map對映函式
2018-08-15
函式排序Filter

Spark aggregateByKey函式

相關文章