Spark UDAF實現舉例 -- average pooling

野路子程式設計師發表於2020-12-31

原文網址 : https://www.cnblogs.com/yeluzi/p/14218052.html

1.UDAF定義

spark中的UDF(UserDefinedFunction)大家都不會陌生, UDF其實就是將一個普通的函式, 包裝為可以按行操作DataFrame中指定Columns的函式.

例如, 對某一列的所有元素進行+1操作, 它對應mapreduce操作中的map操作. 這種操作有的主要特點是:

行與行之間的操作是獨立的, 可以非常方便的平行計算
每一行的操作完成後, map的任務就完成了, 直接將結果返回就行, 它是一種”無狀態的“

但是UDAF(UserDefinedAggregateFunction)則不同, 由於存在聚合(Aggregate)操作, 它對應mapreduce操作中的reduce操作. SparkSQL中有很多現成的聚合函式, 常用的sum, count, avg等等都是. 這種操作的主要特點是:

每一輪reduce之間可以是並行, 但是多輪reduce的執行是序列的, 下一輪依靠前一輪的結果, 它是一種“有狀態的”, 需要記錄中間的計算結果

分析上圖, 96 => (96, 1)這一步是一個map操作, 給每個樣本新增一個1, 表示它的數量. 它們之間的計算是獨立的, 也不影響資料的行數. 然後(96, 1)和(54, 1)求和, 得到(150, 2), 它是一輪reduce的其中一箇中間結果, 等三個中間結果都結束了, 才能繼續後續的reduce, 得到最終的reduce結果(303, 6), 因此完整的reduce需要記錄並不斷更新中間結果.

2.向量平均(average pooling)

向量平均是個很常用的操作, 比如我們現在有1000個64維的向量, 想要求這1000個點的中心點. 通常來說我們不會用64列float column去儲存一個向量, 因此無法使用原生的avg函式.

下面介紹如何自定義一個avgvector函式, 去處理array[float] column的平均值計算問題. 通過這個例子學會如何在spark下實現自定義的聚合函式

2.1 average的並行化

average演算法非常簡單, 求個和, 然後除以樣本個數就好了. 它的並行化也很好理解

reduce的過程只進行sum的累積和樣本數num的累積, 在最後一步將sum/num

因此我們的在reduce的過程中, 需要時刻記錄當前task處理的樣本的個數, 和它們的和.

由於這樣的原因, 不像UDF只需要定義一個函式就可以, UDAF通常需要定義一個類, 用來儲存中間結果

2.2 程式碼實現

// 從基類UserDefinedAggregateFunction繼承
class VectorMean64 extends UserDefinedAggregateFunction {
  // 定義輸入的格式
  // 這個函式將會處理的那一列的資料型別, 因為是64維的向量, 因此是Array[Float]
  override def inputSchema: org.apache.spark.sql.types.StructType =
    StructType(StructField("vector", ArrayType(FloatType)) :: Nil)

  // 這個就是上面提到的狀態
  // 在reduce過程中, 需要記錄的中間結果. vector_count即為已經統計的向量個數, 而vector_sum即為已經統計的向量的和
  override def bufferSchema: StructType =
    StructType(
      StructField("vector_count", IntegerType) ::
        StructField("vector_sum", ArrayType(FloatType)) :: Nil)

  // 最終的輸出格式
  // 既然是求平均, 最後當然還是一個向量, 依然是Array[Float]
  override def dataType: DataType = ArrayType(FloatType)

  override def deterministic: Boolean = true

  // 初始化
  // buffer的格式即為bufferSchema, 因此buffer(0)就是向量個數, 初始化當然是0, buffer(1)為向量和, 初始化為零向量
  override def initialize(buffer: MutableAggregationBuffer): Unit = {
    buffer(0) = 0
    buffer(1) = Array.fill[Float](64)(0).toSeq
  }

  // 定義reduce的更新操作: 如何根據一行新資料, 更新一個聚合buffer的中間結果
  // 一行資料是一個向量, 因此需要將count+1, 然後sum+新向量
  // addTwoEmb為向量相加的基本實現
  override def update(buffer: MutableAggregationBuffer, input: Row): Unit = {
    buffer(0) = buffer.getInt(0) + 1

    val inputVector = input.getAs[Seq[Float]](0)
    buffer(1) = addTwoEmb(buffer.getAs[Seq[Float]](1), inputVector)
  }

  // 定義reduce的merge操作: 兩個buffer結果合併到其中一個bufer上
  // 兩個buffer各自統計的樣本個數相加; 兩個buffer各自的sum也相加
  // 注意: 為什麼buffer1和buffer2的資料型別不一樣?一個是MutableAggregationBuffer, 一個是Row
  // 因為: 在將所有中間task的結果進行reduce的過程中, 兩兩合併時是將一個結果合到另外一個上面, 因此一個是mutable的, 它們兩者的schema其實是一樣的, 都對應bufferSchema
  override def merge(buffer1: MutableAggregationBuffer, buffer2: Row): Unit = {
    buffer1(0) = buffer1.getInt(0) + buffer2.getInt(0)
    buffer1(1) = addTwoEmb(buffer1.getAs[Seq[Float]](1), buffer2.getAs[Seq[Float]](1))
  }

  // 最終的結果, 依賴最終的buffer中的資料計算的到, 就是將sum/count
  override def evaluate(buffer: Row): Any = {
    val result = buffer.getAs[Seq[Float]](1).toArray
    val count = buffer.getInt(0)
    for (i <- result.indices) {
      result(i) /= (count + 1)
    }
    result.toSeq
  }

	// 向量相加
  private def addTwoEmb(emb1: Seq[Float], emb2: Seq[Float]): Seq[Float] = {
    val result = Array.fill[Float](emb1.length)(0)
    for (i <- emb1.indices) {
      result(i) = emb1(i) + emb2(i)
    }
    result.toSeq
  }

解釋可以參考上面的程式碼註釋. 核心就是定義四個模組:

中間結果的格式 - bufferSchema
將一行資料更新到中間結果buffer中 - update
將兩個中間結果buffer合併 - merge
從最後的buffer計算需要的結果 - evaluate

2.3 使用

// 註冊一下, 使其可以在Spark SQL中使用
spark.udf.register("avgVector64", new VectorMean64)
spark.sql("""
|select group_id, avgVector64(embedding) as avg_embedding
|from embedding_table_name
|group by group_id
""".stripMargin)

// 當然不註冊也可以用, 只是不能在SQL中用, 可以直接用來操作DataFrame
val avgVector64 = new VectorMean64
val df = spark.sql("select group_id, embedding from embedding_table_name")
df.groupBy("group_id").agg(avgVector64(col("embedding")))

參考

https://docs.databricks.com/spark/latest/spark-sql/udaf-scala.html

SparkSQL中的UDF、UDAF、UDTF實現
2020-11-08
SparkSQL
Java 利用列舉實現單例模式
2018-09-30
Java單例模式
Spark SQL學習——UDF、UDAF和開窗函式
2019-04-05
SparkSQL函式
【Spark篇】---SparkSql之UDF函式和UDAF函式
2018-03-07
SparkSQL函式
舉例說明js如何實現繼承？
2024-11-24
JS繼承
舉例說明如何實現瀏覽器桌面通知？
2024-11-28
瀏覽器
執行緒池的實現原始碼及應用舉例
2024-06-02
執行緒原始碼
Spark Streaming + Spark SQL 實現配置化ET
2021-09-09
SparkSQL
如何實現Spark on Kubernetes？
2020-10-09
Spark
舉例說明如何使用純html怎麼實現下拉提示的功能？
2024-11-27
HTML
JAVA反射舉例
2018-03-22
Java反射
死鎖-舉例
2024-07-24
Spark 原始碼系列（七）Spark on yarn 具體實現
2019-04-25
Spark原始碼Yarn
為什麼我牆裂建議大家使用列舉來實現單例。
2019-03-01
單例
Spark 框架安全認證實現
2021-09-09
Spark框架
Spring使用實現類注入為什麼會導致高耦合度（舉例）
2024-08-15
Spring
B. XOR = Average
2024-11-24
golang Context應用舉例
2023-09-27
GolangContext
Spark 簡單例項（基本操作）
2018-04-19
Spark單例
[論文理解]變換不變性網路transformation invariant pooling (TI-Pooling)
2020-11-21
ORM
Python如何實現窮舉搜尋?
2021-04-14
Python
談談Hadoop MapReduce和Spark MR實現
2020-07-27
HadoopSpark
Spark實現行列轉換pivot和unpivot
2019-03-03
Spark
3、最大池化maxinmum pooling
2024-04-08
Pytorch AdaptivePooing操作轉Pooling操作
2022-03-03
PyTorchAPT
What is the Average Cost of Doing a Diploma?
2021-12-30
Linux Load Average: Solving the Mystery
2022-04-29
Linux
設計模式應用舉例
2019-02-16
設計模式
mysql_config_editor用法舉例
2019-01-17
MySql
java 正規表示式舉例
2018-06-21
Java
Java Stream六個使用舉例
2024-05-01
Java
（舉例）Laravel 怎麼分表
2019-08-14
Laravel
Python qutip用法(舉例介紹)
2020-10-01
Python
【mysql】SUBSTRING_INDEX 用法舉例
2024-08-29
MySqlIndex
舉例說明如何使用WebSQL？
2024-11-27
WebSQL
torch.argmin()的使用舉例
2021-01-04
PHP實現單例模式
2018-10-29
PHP單例模式
golang實現單例模式
2018-05-10
Golang單例模式