Spark運算元篇 --Spark運算元之aggregateByKey詳解

LHBlog發表於2018-01-06

原文網址 : https://www.cnblogs.com/LHWorldBlog/p/8215529.html

Spark

一。基本介紹

rdd.aggregateByKey(3, seqFunc, combFunc) 其中第一個函式是初始值

3代表每次分完組之後的每個組的初始值。

seqFunc代表combine的聚合邏輯

每一個mapTask的結果的聚合成為combine

combFunc reduce端大聚合的邏輯

ps:aggregateByKey預設分組

二。程式碼

from pyspark import SparkConf,SparkContext
from __builtin__ import str
conf = SparkConf().setMaster("local").setAppName("AggregateByKey")
sc = SparkContext(conf = conf)

rdd = sc.parallelize([(1,1),(1,2),(2,1),(2,3),(2,4),(1,7)],2)

def f(index,items):
    print "partitionId:%d" %index
    for val in items:
        print val
    return items
    
rdd.mapPartitionsWithIndex(f, False).count()


def seqFunc(a,b):
    print "seqFunc:%s,%s" %(a,b)
    return max(a,b) #取最大值
def combFunc(a,b):
    print "combFunc:%s,%s" %(a ,b)
    return a + b #累加起來
'''
    aggregateByKey這個運算元內部肯定有分組
'''
aggregateRDD = rdd.aggregateByKey(3, seqFunc, combFunc)
rest = aggregateRDD.collectAsMap()
for k,v in rest.items():
    print k,v

sc.stop()

三。詳細邏輯

PS：

seqFunc函式 combine篇。

3是每個分組的最大值，所以把3傳進來，在combine函式中也就是seqFunc中第一次呼叫 3代表a,b即1,max(a,b)即3 第二次再呼叫則max(3.1)中的最大值3即輸入值，2即b值所以結果則為(1,3)

底下類似。combine函式呼叫的次數與分組內的資料個數一致。

combFunc函式 reduce聚合

在reduce端大聚合，拉完資料後也是先分組，然後再呼叫combFunc函式

四。結果

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
spark-運算元-分割槽運算元
2020-11-05
Spark
Spark常用Transformations運算元(一)
2018-11-05
SparkORM
spark RDD textFile運算元分割槽數量詳解
2020-11-24
Spark
spark一些常用運算元
2018-10-10
Spark
Spark RDD運算元（八）mapPartitions， mapPartitionsWithIndex
2020-11-16
SparkAPPIndex
Spark----RDD運算元分類 DAG
2020-12-23
Spark
圖解Spark排序運算元sortBy的核心原始碼
2023-09-18
圖解Spark排序原始碼
spark RDD運算元（五）之鍵值對聚合操作combineByKey
2020-11-11
Spark
spark的基本運算元使用和原始碼解析
2019-07-23
Spark原始碼
運算元
2018-11-12
使用運算元控制公式運算
2021-01-05
公式
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
Python 影像處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術
2020-06-29
PythonOpenCV
RDD運算元
2020-11-10
深入淺出PyTorch（運算元篇）
2020-06-22
PyTorch
Spark效能調優-RDD運算元調優篇（深度好文，面試常問，建議收藏）
2021-03-05
Spark面試
運算元據庫
2020-07-23
python運算元據
2024-08-17
Python
JavaScript運算元組
2024-12-02
JavaScript
運算元據庫表
2019-01-23
MySQL DML運算元據
2024-10-22
MySql
jmeter運算元據庫
2024-08-23
JMeter
DDL:運算元據庫
2024-08-30
onnx 運算元定義
2024-07-04
什麼是運算元？
2022-06-25
Flink -- Operator操作運算元
2020-12-23
SIFT運算元總結
2020-12-14
肖sir__jmeter之運算元據庫
2024-04-11
JMeter
Python運算元據庫（3）
2019-01-09
Python
Oracle OCP(10)：運算元據
2019-01-22
Oracle
sobel運算元，matlab實現
2018-09-11
Matlab
3.0 常見operators運算元
2024-04-16
【Flink】Deduplicate 去重運算元原始碼解讀
2023-05-08
原始碼
js 方法(運算元組為主
2019-03-21
JS
利用 Sequelize 來運算元據庫
2019-03-01
Ascend C 自定義PRelu運算元
2024-04-08
三元運算+包機制
2024-03-17
Ascend C運算元開發指南
2024-07-28

Spark運算元篇 --Spark運算元之aggregateByKey詳解

相關文章