spark aggregate函式

高華傑發表於2017-09-08

aggregate函式將每個分割槽裡面的元素進行聚合，然後用combine函式將每個分割槽的結果和初始值(zeroValue)進行combine操作。這個函式最終返回的型別不需要和RDD中元素型別一致。

def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U

注意：

1.每個分割槽開始聚合第一個元素都是zeroValue

2.分割槽之間的聚合，zeroValue也參與運算

scala> val rdd = sc.parallelize(List(18,28,7,66,-19,100,29,55,4),3)
rdd: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[2] at parallelize at <console>:24

//先對分割槽內的元素進行聚合；
scala> def InnerCom(a:Int, b:Int) : Int = {
     | println("InnerCom: " + a + " : " + b)
     | math.min(a,b)
     | }
InnerCom: (a: Int, b: Int)Int

//對聚合後的分割槽之間進行聚合
scala> def partitionCom(a:Int, b:Int): Int = {
     | println("partitionCom: " + a + " : " + b)
     | a + b
     | }
partitionCom: (a: Int, b: Int)Int

//3個分割槽，min(分割槽1)=7,min(分割槽2)=-19,min(分割槽1)=4
//50 + 7 + -19 + 4 = 42
scala> rdd.aggregate(50)(InnerCom,partitionCom)
InnerCom: 50 : 18
InnerCom: 18 : 28
InnerCom: 18 : 7
partitionCom: 50 : 7
InnerCom: 50 : 66
InnerCom: 50 : -19
InnerCom: -19 : 100
partitionCom: 57 : -19
InnerCom: 50 : 29
InnerCom: 29 : 55
InnerCom: 29 : 4
partitionCom: 38 : 4
res5: Int = 42

Spark 開窗函式
2019-07-31
Spark函式
Spark Graphx常用函式
2020-11-26
Spark函式
Spark Sql 函式使用
2017-03-01
SparkSQL函式
Spark SQL 開窗函式
2020-03-23
SparkSQL函式
Spark操作開窗函式
2019-09-02
Spark函式
【Spark篇】---SparkSql之UDF函式和UDAF函式
2018-03-07
SparkSQL函式
User-Defined Aggregate Functions Interface（自定義聚合函式，也可作為分析函式）
2010-05-28
Function函式
Spark 系列（十一）—— Spark SQL 聚合函式 Aggregations
2019-08-14
SparkSQL函式
Spark aggregateByKey函式
2017-09-08
Spark函式
spark中的聚合函式總結
2018-09-13
Spark函式
Spark Streaming--開窗函式over()
2019-01-02
Spark函式
Spark Streaming中的操作函式分析
2018-01-18
Spark函式
Spark Streaming函式的分析與理解
2017-01-13
Spark函式
spark RDD的學習，filter函式的學習，split函式的學習
2018-08-01
SparkFilter函式
Spark SQL學習——UDF、UDAF和開窗函式
2019-04-05
SparkSQL函式
Spark註冊UDF函式，用於DataFrame DSL or SQL
2017-05-02
Spark函式SQL
Spark SQL scala和java版本的UDF函式使用
2016-05-04
SparkSQLJava函式
Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank
2016-11-25
Spark函式
使用聚合函式(aggregate function)時，SQL語句的返回值的注意事項
2017-02-21
函式FunctionSQL
spark2.4.3 sparkSQL 使用者自定義函式筆記
2019-05-21
SparkSQL函式筆記
Spark SQL使用簡介（2）--UDF（使用者自定義函式）
2018-08-02
SparkSQL函式
PostgreSQL 原始碼解讀（190）- 查詢#106(聚合函式#11 - finalize_aggregate)
2019-05-15
SQL原始碼函式
spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與*zip()函式詳解//及python中的*args和**kwargs
2018-07-30
Spark函式SQLPython
MySQL函式大全(字串函式，數學函式，日期函式，系統級函式，聚合函式)
2020-11-14
MySql函式字串
Oracle 函式大全(字串函式，數學函式，日期函式，邏輯運算函式，其他函式)
2012-05-12
Oracle函式字串
【函式式 Swift】函式式思想
2016-12-01
函式Swift
【Spark篇】---SparkSQL中自定義UDF和UDAF，開窗函式的應用
2018-02-09
SparkSQL函式
python中id()函式、zip()函式、map()函式、lamda函式
2020-09-23
Python函式
【函式】Oracle函式系列（2）--數學函式及日期函式
2017-02-22
函式Oracle
Python 擴充之特殊函式（lambda 函式，map 函式，filter 函式，reduce 函式）
2018-12-20
Python函式Filter
第7章 IF函式 COUNTIF函式 SUMIF函式
2018-05-26
函式
字元函式、數字函式和日期函式
2017-09-22
字元函式
【函式】Oracle EXTRACT()函式與to_char() 函式
2012-04-23
函式Oracle
MySQL（四）日期函式 NULL函式字串函式
2024-09-05
MySql函式Null字串
【函式】ORACLE函式大全
2012-04-23
函式Oracle
(譯) 函式式 JS #2: 函式!
2019-01-12
函式JS
【解惑】時間規劃，Linq的Aggregate函式在計算會議重疊時間中的應用
2023-09-22
函式
核函式多項式核函式高斯核函式(常用)
2020-10-30
函式

spark aggregate函式

相關文章