Spark DataFrame的groupBy vs groupByKey

zzzzMing發表於2018-11-04

原文網址 : https://www.cnblogs.com/listenfwind/p/9860228.html

在使用Spark SQL的過程中，經常會用到groupBy這個函式進行一些統計工作。但是會發現除了groupBy外，還有一個groupByKey（注意RDD也有一個groupByKey，而這裡的groupByKey是DataFrame的）。這個groupByKey引起了我的好奇，那我們就到原始碼裡面一探究竟吧。

所用spark版本：spark2.1.0

先從使用的角度來說，
groupBy：groupBy類似於傳統SQL語言中的group by子語句，但比較不同的是groupBy()可以帶多個列名，對多個列進行group。比如想根據"id"和"name"進行groupBy的話可以

df.goupBy("id","name")

groupBy返回的型別是RelationalGroupedDataset。

groupByKey：groupByKey則更加靈活，可以根據使用者自己對列的組合來進行groupBy，比如上面的那個例子，根據"id"和"name"進行groupBy，使用groupByKey可以這樣。

//同前面的goupBy效果是一樣的，但返回的型別是不一樣的
df..toDF("id","name").goupByKey(row =>{
    row.getString(0) + row.getString(1)
})

但和groupBy不同的是groupByKey返回的型別是KeyValueGroupedDataset。

下面來看看這兩個方法的實現有何區別。

groupBy原始碼

  def groupBy(cols: Column*): RelationalGroupedDataset = {
    RelationalGroupedDataset(toDF(), cols.map(_.expr), RelationalGroupedDataset.GroupByType)
  }

最終會去新建一個RelationalGroupedDataset，而這個方法提供count()，max()，agg()，等方法。值得一提的是，這個類在spark1.x的時候類名為“GroupedData”。看看類中的註釋吧

/**
 * A set of methods for aggregations on a `DataFrame`, created by `Dataset.groupBy`.
 *
 * The main method is the agg function, which has multiple variants. This class also contains
 * convenience some first order statistics such as mean, sum for convenience.
 *
 * This class was named `GroupedData` in Spark 1.x.
 *
 * @since 2.0.0
 */
@InterfaceStability.Stable
class RelationalGroupedDataset protected[sql](

groupByKey原始碼

  @Experimental
  @InterfaceStability.Evolving
  def groupByKey[K: Encoder](func: T => K): KeyValueGroupedDataset[K, T] = {
    val inputPlan = logicalPlan
    val withGroupingKey = AppendColumns(func, inputPlan)
    val executed = sparkSession.sessionState.executePlan(withGroupingKey)

    new KeyValueGroupedDataset(
      encoderFor[K],
      encoderFor[T],
      executed,
      inputPlan.output,
      withGroupingKey.newColumns)
  }

可以發現最後生成和返回的類是KeyValueGroupedDataset。這是dataset的子類，表示聚合過之後的dataset。
我們再看看這個類中的註釋吧

/**
 * :: Experimental ::
 * A [[Dataset]] has been logically grouped by a user specified grouping key.  Users should not
 * construct a [[KeyValueGroupedDataset]] directly, but should instead call `groupByKey` on
 * an existing [[Dataset]].
 *
 * @since 2.0.0
 */
@Experimental
@InterfaceStability.Evolving
class KeyValueGroupedDataset[K, V] private[sql](

可以發現groupByKey還處於實驗階段。它是希望可以由使用者自己來實現groupBy的規則，而不像groupBy()一樣，需要被列屬性所束縛。
通過groupByKey使用者可以按照自己的需求來進行grouping。

總而言之，groupByKey雖然提供了更加靈活的處理grouping的方式，但groupByKey後返回的類是KeyValueGroupedDataset，它裡面所提供的操作介面也不如groupBy返回的RelationalGroupedDataset所提供的介面豐富。除非真的有一些特殊的grouping操作，否則還是使用groupBy吧。

spark RDD，reduceByKey vs groupByKey
2018-10-28
Spark
Spark建立空的DataFrame
2021-09-09
Spark
pandas.DataFrame.groupby函式應用
2018-05-14
函式
Spark API 全集(1):Spark SQL Dataset & DataFrame API
2018-12-09
SparkAPISQL
15、Spark Sql（一），生成DataFrame的方式
2018-03-04
SparkSQL
SparkSQL /DataFrame /Spark RDD誰快？
2020-08-15
SparkSQL
Spark SQL中的RDD與DataFrame轉換
2019-08-12
SparkSQL
Apache Spark Dataframe Join語法教程
2019-01-08
ApacheSpark
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL
Python的pandas的Dataframe使用groupby分組並求每組的統計值
2020-12-05
Python
Spark SQL，如何將 DataFrame 轉為 json 格式
2018-12-06
SparkSQLJSON
Spark Streaming VS Flink
2019-03-04
Spark
從 Spark 的 DataFrame 中取出具體某一行詳解
2021-08-26
Spark
[Javascript] Object.groupBy & Map.groupBy
2024-05-17
JavaScriptObject
客快物流大資料專案(四十六)：Spark操作Kudu dataFrame操作kudu
2024-03-30
大資料Spark
SQL groupby sum 用法
2022-07-21
SQL
Scala - DataFrame
2021-09-09
Python中建立DataFrame的方法
2020-11-27
Python
python pandas DataFrame-A 更新 DataFrame-B中指定列相同的資料
2024-05-26
Python
pandas 聚合 df.groupby.agg
2020-10-26
JavaScript 新提案：array.groupBy()
2022-04-15
JavaScript
【01】DataFrame的建立和屬性
2024-10-10
DataFrame概述與使用
2018-09-03
Pandas - DataFrame.loc
2024-03-06
【pyspark】dataframe常用操作
2020-11-05
Spark
資料分析: DataFrame
2020-12-07
Pandas DataFrame常用方法
2020-12-20
Pandas 資料分析——超好用的 Groupby 詳解
2020-01-15
JavaScript 中的陣列分組：array.groupBy()
2022-01-21
JavaScript陣列
Xorm GroupBy 取出的資料異常踩坑
2021-11-11
ORM
Pandas高階教程之:GroupBy用法
2021-07-12
Rust的資料DataFrame庫有哪些？
2022-10-06
Rust
PySpark DataFrame教程與演示
2024-03-08
Spark
PySpark筆記(三)：DataFrame
2021-09-09
Spark筆記
厲害了，JavaScript 新提案：array.groupBy()
2022-01-18
JavaScript
pandas groupby， resample 按時間取樣
2020-11-27
pandas -- DataFrame的級聯以及合併操作
2023-10-02
pandas | DataFrame中的排序與彙總方法
2020-08-19
排序

Spark DataFrame的groupBy vs groupByKey

groupBy原始碼

groupByKey原始碼

相關文章