Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank

智慧先行者發表於2016-11-25

原文網址 : https://www.cnblogs.com/wwxbi/p/6102675.html

select gender,
       age,
       row_number() over(partition by gender order by age) as rowNumber,
       rank() over(partition by gender order by age) as ranks,
       dense_rank() over(partition by gender order by age) as denseRank,
       percent_rank() over(partition by gender order by age) as percentRank
from Affairs

val spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()

// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._
	
val dataList: List[(Double, String, Double, Double, String, Double, Double, Double, Double)] = List(
      (0, "male", 37, 10, "no", 3, 18, 7, 4), 
      (0, "female", 27, 4, "no", 4, 14, 6, 4), 
      (0, "female", 32, 15, "yes", 1, 12, 1, 4), 
      (0, "male", 57, 15, "yes", 5, 18, 6, 5), 
      (0, "male", 22, 0.75, "no", 2, 17, 6, 3), 
      (0, "female", 32, 1.5, "no", 2, 17, 5, 5), 
      (0, "female", 22, 0.75, "no", 2, 12, 1, 3), 
      (0, "male", 57, 15, "yes", 2, 14, 4, 4), 
      (0, "female", 32, 15, "yes", 4, 16, 1, 2), 
      (0, "male", 22, 1.5, "no", 4, 14, 4, 5), 
      (0, "male", 37, 15, "yes", 2, 20, 7, 2), 
      (0, "male", 27, 4, "yes", 4, 18, 6, 4), 
      (0, "male", 47, 15, "yes", 5, 17, 6, 4), 
      (0, "female", 22, 1.5, "no", 2, 17, 5, 4), 
      (0, "female", 27, 4, "no", 4, 14, 5, 4), 
      (0, "female", 37, 15, "yes", 1, 17, 5, 5), 
      (0, "female", 37, 15, "yes", 2, 18, 4, 3), 
      (0, "female", 22, 0.75, "no", 3, 16, 5, 4), 
      (0, "female", 22, 1.5, "no", 2, 16, 5, 5), 
      (0, "female", 27, 10, "yes", 2, 14, 1, 5), 
      (0, "female", 22, 1.5, "no", 2, 16, 5, 5), 
      (0, "female", 22, 1.5, "no", 2, 16, 5, 5), 
      (0, "female", 27, 10, "yes", 4, 16, 5, 4), 
      (0, "female", 32, 10, "yes", 3, 14, 1, 5), 
      (0, "male", 37, 4, "yes", 2, 20, 6, 4))

val data = dataList.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

data.printSchema()

// 建立檢視 
data.createOrReplaceTempView("Affairs")

val s1="row_number() over(partition by gender order by age) as rowNumber,"
val s2="rank() over(partition by gender order by age) as ranks,"
val s3="dense_rank() over(partition by gender order by age) as denseRank,"
val s4="percent_rank() over(partition by gender order by age) as percentRank"
val df8=spark.sql("select gender,age,"+s1+s2+s3+s4+" from Affairs")

df8.show(50)
+------+----+---------+-----+---------+------------------+                      
|gender| age|rowNumber|ranks|denseRank|       percentRank|
+------+----+---------+-----+---------+------------------+
|female|22.0|        1|    1|        1|               0.0|
|female|22.0|        2|    1|        1|               0.0|
|female|22.0|        3|    1|        1|               0.0|
|female|22.0|        4|    1|        1|               0.0|
|female|22.0|        5|    1|        1|               0.0|
|female|22.0|        6|    1|        1|               0.0|
|female|27.0|        7|    7|        2|               0.4|
|female|27.0|        8|    7|        2|               0.4|
|female|27.0|        9|    7|        2|               0.4|
|female|27.0|       10|    7|        2|               0.4|
|female|32.0|       11|   11|        3|0.6666666666666666|
|female|32.0|       12|   11|        3|0.6666666666666666|
|female|32.0|       13|   11|        3|0.6666666666666666|
|female|32.0|       14|   11|        3|0.6666666666666666|
|female|37.0|       15|   15|        4|0.9333333333333333|
|female|37.0|       16|   15|        4|0.9333333333333333|
|  male|22.0|        1|    1|        1|               0.0|
|  male|22.0|        2|    1|        1|               0.0|
|  male|27.0|        3|    3|        2|              0.25|
|  male|37.0|        4|    4|        3|             0.375|
|  male|37.0|        5|    4|        3|             0.375|
|  male|37.0|        6|    4|        3|             0.375|
|  male|47.0|        7|    7|        4|              0.75|
|  male|57.0|        8|    8|        5|             0.875|
|  male|57.0|        9|    8|        5|             0.875|
+------+----+---------+-----+---------+------------------+

Oracle vs PostgreSQL Develop（14） - 分析函式KEEP DENSE_RANK
2019-08-20
OracleSQLdev函式
Hive ROW_NUMBER,RANK(),DENSE_RANK()
2020-04-04
Hive
Hive中row_number()、dense_rank()、rank()的區別
2020-06-10
Hive
mysql自動排序函式dense_rank() over()、rank() over()、row_num() over()用法和區別
2020-12-31
MySql排序函式
排名前100的PHP函式及分析
2018-11-05
PHP函式
【SQL】Lag/Rank/Over視窗函式揭秘，資料分析之旅
2024-07-22
SQL函式
7.78 DENSE_RANK
2020-03-28
MySQL排名函式實現
2020-07-22
MySql函式
Oracle分析函式與視窗函式
2018-05-29
Oracle函式
MySQL自定義變數實現row_number分析函式的天坑
2018-07-18
MySql變數函式
SQL Server中row_number函式的常見用法
2020-08-14
SQLServer函式
ORALCE函式：LAG()和LEAD() 分析函式詳解
2018-11-08
函式
MySQL函式大全(字串函式，數學函式，日期函式，系統級函式，聚合函式)
2020-11-14
MySql函式字串
python中id()函式、zip()函式、map()函式、lamda函式
2020-09-23
Python函式
Python 擴充之特殊函式（lambda 函式，map 函式，filter 函式，reduce 函式）
2018-12-20
Python函式Filter
Oracle分析函式之開窗函式over()詳解
2019-03-15
Oracle函式
Hive之分析函式
2021-08-05
Hive函式
第7章 IF函式 COUNTIF函式 SUMIF函式
2018-05-26
函式
MySQL（四）日期函式 NULL函式字串函式
2024-09-05
MySql函式Null字串
(譯) 函式式 JS #2: 函式!
2019-01-12
函式JS
（未完成）APC函式的執行，分析 KiDeliverApc 函式
2020-11-30
函式IDE
MySQL中的ROW_NUMBER視窗函式簡單瞭解下
2024-11-24
MySql函式
核函式多項式核函式高斯核函式(常用)
2020-10-30
函式
第 8 節：函式-匿名函式、遞迴函式
2019-11-26
函式遞迴
lambda匿名函式sorted排序函式filter過濾函式map對映函式
2018-08-15
函式排序Filter
MySQL分析函式實現
2018-10-29
MySql函式
Linux中select()函式分析
2020-04-07
Linux函式
count 函式原始碼分析
2019-05-10
函式原始碼
oracle資料庫常用分析函式與聚合函式的用法
2019-01-27
Oracle資料庫函式
main函式的入口函式
2019-05-12
AI函式
SQL-函式 - 聚合函式
2024-12-04
SQL函式
【每日函式】每日函式（2021.08.16）
2021-08-16
函式
【每日函式】每日函式（2021.08.10）
2021-08-10
函式
【每日函式】每日函式（2021.08.05）
2021-08-05
函式
【每日函式】每日函式（2021.08.06）
2021-08-06
函式
【每日函式】每日函式（2021.08.14）
2021-08-14
函式
【每日函式】每日函式（2021.08.08）
2021-08-08
函式
【每日函式】每日函式（2021.08.09）
2021-08-09
函式
【知識點】inline函式、回撥函式、普通函式
2021-07-12
inline函式

Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank

相關文章