Spark運算元篇 --Spark運算元之combineByKey詳解

LHBlog發表於2018-01-07

一。概念

rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
三個引數（都是函式）
第一個引數：給定一個初始值，用函式生成初始值。
第二個引數：combinbe聚合邏輯。
第三個引數：reduce端聚合邏輯。

二。程式碼

from pyspark.conf import SparkConf
from pyspark.context import SparkContext
conf = SparkConf().setMaster("local").setAppName("CombineByKey")
sc = SparkContext(conf = conf)
rdd = sc.parallelize([("A",1),("B",2),("B",3),("B",4),("B",5),("C",1),("A",2)], 2)
def f(index,items):
    print "partitionId:%d" %index
    for val in items:
        print val
    return items
rdd.mapPartitionsWithIndex(f).count()

combinerRDD = rdd.combineByKey(lambda x:"%d_" %x, lambda a,b:"%s@%s" %(a,b), lambda a,b:"%s$%s" %(a,b))
combinerRDD.foreach(p)
groupByKeyRDD.foreach(p)

sc.stop()

三。解釋

第一個函式作用於每一個組的第一個元素上，將其變為初始值

第二個函式：一開始a是初始值，b是分組內的元素值，比如A[1_],因為沒有b值所以不能呼叫combine函式，第二組因為函式內元素值是[2_,3]呼叫combine函式後為2_@3，以此類推

第三個函式：reduce端大聚合，把相同的key的資料拉取到一個節點上，然後分組。

四。結果

五。擴充

1.用combinebykey實現groupbykey的邏輯

1.1 combinebykey的三個引數

第一個應該返回一個列表，初始值

第二個函式中的a依賴於第一個函式的返回值

第三個函式的a,b依賴於第二個函式的返回值

1.2 解釋：

1.3 程式碼：

def mergeValue(list1,b):
    list1.append(b)
    return list1
   
def mergeCombiners(list1,list2):
    list1.extend(list2)
    return list1
   
groupByKeyRDD = rdd.combineByKey(lambda a:[a],mergeValue,mergeCombiners)

1.4結果

2.使用combineBykey把相同的key和對應的邏輯相加起來

程式碼：

reduceByKeyRDD = rdd.combineByKey(lambda a:a,lambda a,b:a+b,lambda a,b:a+b)

結果：

持續更新中。。。。，歡迎大家關注我的公眾號LHWorld.

Spark運算元篇 --Spark運算元之aggregateByKey詳解
2018-01-06
Spark
【Spark篇】---Spark中控制運算元
2018-02-02
Spark
【Spark篇】---Spark中Action運算元
2018-02-02
Spark
【Spark篇】---Spark中transformations運算元二
2018-02-05
SparkORM
spark-運算元-分割槽運算元
2020-11-05
Spark
【Spark篇】---Spark中Transformations轉換運算元
2018-02-01
SparkORM
【Spark篇】---SparkStreaming中運算元中OutPutOperator類運算元
2018-03-07
Spark
spark RDD運算元（五）之鍵值對聚合操作combineByKey
2020-11-11
Spark
Spark常用Transformations運算元(一)
2018-11-05
SparkORM
Spark常用Transformations運算元(二)
2018-01-12
SparkORM
spark RDD textFile運算元分割槽數量詳解
2020-11-24
Spark
spark一些常用運算元
2018-10-10
Spark
【Spark篇】---SparkStreaming運算元操作transform和updateStateByKey
2018-02-09
SparkORM
Spark----RDD運算元分類 DAG
2020-12-23
Spark
圖解Spark排序運算元sortBy的核心原始碼
2023-09-18
圖解Spark排序原始碼
Spark RDD運算元（八）mapPartitions， mapPartitionsWithIndex
2020-11-16
SparkAPPIndex
spark的基本運算元使用和原始碼解析
2019-07-23
Spark原始碼
Spark運算元：RDD基本轉換操作map、flatMap
2017-12-29
Spark
使用運算元控制公式運算
2021-01-05
公式
Spark運算元：統計RDD分割槽中的元素及數量
2021-09-09
Spark
【OpenCV】影像變換（二）邊緣檢測：梯度運算元、Sobel運算元和Laplace運算元
2015-04-24
OpenCV梯度
Spark效能調優-RDD運算元調優篇（深度好文，面試常問，建議收藏）
2021-03-05
Spark面試
Python 影像處理 OpenCV （12）： Roberts 運算元、 Prewitt 運算元、 Sobel 運算元和 Laplacian 運算元邊緣檢測技術
2020-06-29
PythonOpenCV
Spark運算元：RDD行動Action操作學習–countByKey、foreach、sortBy
2017-12-28
Spark
運算元據庫
2020-07-23
深入淺出PyTorch（運算元篇）
2020-06-22
PyTorch
運算元據庫表
2019-01-23
SIFT運算元總結
2020-12-14
java反射——運算元組
2016-09-14
Java反射
yii運算元據庫
2017-05-10
Mysqli運算元據庫
2017-11-28
MySql
onnx 運算元定義
2024-07-04
MySQL DML運算元據
2024-10-22
MySql
DDL:運算元據庫
2024-08-30
python運算元據
2024-08-17
Python
jmeter運算元據庫
2024-08-23
JMeter
肖sir__jmeter之運算元據庫
2024-04-11
JMeter
Oracle OCP(10)：運算元據
2019-01-22
Oracle

Spark運算元篇 --Spark運算元之combineByKey詳解

相關文章