SparkSQL 開窗函式

kieron_wei發表於2019-11-15

好用到不行的 [Spark] SQL開窗函式

  • To use window functions, users need to mark that a function is used as a window function by either
    Adding an OVER clause after a supported function in SQL, e.g. avg(revenue) OVER (…); or
    (SparkSQL) Calling the over method on a supported function in the DataFrame API, e.g. rank().over(…).

    如: rank() over( partition by ... order by ... ) ranks

Ranking:

	rank -- 跳躍排序
	dense_rank -- 連續排序
	row_number
	percent_rank
	ntile 
	
	ntile(expr) over([partition_clause] order_by_clause) 
		可以看成是:它把有序的資料集合平均分配到指定的數量(expr)個桶中,將桶號分配給每一行。
		如果不能平均分配,則較小桶號的桶分配額外的行,並且各個桶中能放的行數最多相差1。
	
	使用rank() over()時,用nulls last將null值(null最大,避免在前面有null值)排在最後面。		  
		rank over(partition by empno order by sales desc nulls last)

aggregate:

	count
    max
    min
    sum
    avg
    
	少資料量時,如直接計算各部門當前月及累計銷售額:
	  select distinct 
	  		empno,month
	  		,sum(sales) over(partition by empno,month) sum_sales
	  		,sum(sales) over(partition by empno order by month) acc_sum_sales 
	  from Table

analytic:

	cume_dist
    first_value
    last_value
    lag
    lead

參考資料:

  1. Introducing Window Functions in Spark SQL 可見連結: https://databricks.com/blog/2015/07/15/introducing-window-functions-in-spark-sql.html
  2. [Oracle查詢優化改寫 技巧與案例 有教無類 落落 著]

相關文章