Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰

版權宣告：本套技術專欄是作者（秦凱新）平時工作的總結和昇華，通過從真實商業環境抽取案例進行總結和分享，並給出商業應用的調優建議和叢集環境容量規劃等內容，請持續關注本套部落格。QQ郵箱地址：1120746959@qq.com，如有任何學術交流，可隨時聯絡。

1 Spark SQL 分組聚合統計

groupBy與agg搭配使用，agg(*exprs)，這個方法是GroupedData上用於計算聚合資料的方法，*exprs可以是一個
string到string組成的字典，key是需要聚合的列名，value是用於計算的聚合函式的名稱。聚
合函式可以的取值有：avg, max, min, sum, count,mean。agg方法返回一個聚合後的
DataFrame物件。

  df = spark.read.csv(`/sql/customers.csv`,header=True)
  df.columns
  df.groupBy(`Genre`).agg({"Age":"mean","Annual Income (k$)":"max","Spending Score (1-100)":"count"}).show()
  
  +------+-----------------------------+-----------------------+------------------+
  | Genre|count(Spending Score (1-100))|max(Annual Income (k$))|          avg(Age)|
  +------+-----------------------------+-----------------------+------------------+
  |Female|                          112|                     99|38.098214285714285|
  |  Male|                           88|                     99| 39.80681818181818|
  +------+-----------------------------+-----------------------+------------------+
複製程式碼

除了使用字串以字典的方式指定，其實還可以使用聚合後的列的表示式來做相同的是，這
需要藉助pyspark.sql.functions模組中的方法。

  from pyspark.sql.functions import *
  df = spark.read.csv(`/sql/customers.csv`,header=True)
  df.columns
  df.groupBy(`Genre`).agg(mean(df.Age)).show()
  
  +------+------------------+
  | Genre|          avg(Age)|
  +------+------------------+
  |Female|38.098214285714285|
  |  Male| 39.80681818181818|
  +------+------------------+
複製程式碼

apply(udf),使用pandas中的使用者自定義函式作用在GroupedData的每一組資料之上，返
回結果作為一個DataFrame。udf使用者自定義函式接收pandas.DataFrame作為引數，返回另
外一個pandas.DataFrame物件。這個方法是pyspark2.3中加入的新方法。通過@pandas_udf表示這是一個pandas的方法，引數為id long,v double,指定PandasUDFType
為分組map操作。(測試未通過)

  from pyspark.sql.functions import pandas_udf, PandasUDFType
  from pyspark.sql import SparkSession
  spark = SparkSession.builder.master(`spark://hadoopmaste:7077`).appName(`apply`).getOrCreate()
  df = spark.createDataFrame( [(1, 10.0), (1, 21.0), (2, 34.0), (2, 56.0), (2, 19.0)], ("id",
  "v"))
  @pandas_udf("id long, v double", PandasUDFType.GROUPED_MAP)
  def normalize(pdf):
      v = pdf.v
      print(type(v),type(pdf))
      return pdf.assign(v=(v - v.mean()) / v.std())
      
  df.groupby("id").apply(normalize).show()
  spark.stop()
  Pandas中DataFrame的assign方法是新建一個DataFrame而不會改變原來的DataFrame。
複製程式碼

avg(*cols)，給算給定的數值型別的列的平均值

  df = spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`).groupBy(`Genre`).avg(`age`).show()
  
  +------+------------------+
  | Genre|          avg(age)|
  +------+------------------+
  |Female|38.098214285714285|
  |  Male| 39.80681818181818|
  +------+------------------+
複製程式碼

count(),返回每個分組中資料的條數

  df = spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`).groupBy(`Genre`).count().show()
複製程式碼

max(*cols),計算給定列中數值最大的值。

  df = spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`,`Annual Income
  (k$)`).groupBy(`Genre`).max().show()
複製程式碼

mean(*cols)計算對應列的均值，列需要是數值型別

  spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`,`Annual Income
  (k$)`).groupBy(`Genre`).mean().show()
複製程式碼

min(*cols) 計算對應列的最小值，列數值型別需要是數值型別

  spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`,`Annual Income
  (k$)`).groupBy(`Genre`).min().show()
複製程式碼

sum(*cols)，計算指定列的和，列的型別需要是數值型別。

  spark.read.csv(`/sql/customers.csv`,header=True)
  df.select(df.Age.cast(`int`).alias(`age`),`Genre`,`Annual Income (k$)`).groupBy(`Genre`).sum().show()
複製程式碼

未完待續

2 總結

Python技術棧與Spark交叉資料分析雙向整合，讓我們在大資料融合分析達到了通用，可以發現Spark SQL 其實很大部分功能和Pandas雷同

秦凱新於深圳 201812172352

Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰

1 Spark SQL 分組聚合統計

2 總結

相關文章