Spark2 Dataset去重、差集、交集

智慧先行者發表於2016-11-25

import org.apache.spark.sql.functions._
      
// 對整個DataFrame的資料去重 
data.distinct() 
data.dropDuplicates() 
      
// 對指定列的去重 
val colArray=Array("affairs", "gender") 
data.dropDuplicates(colArray) 
//data.dropDuplicates("affairs", "gender") 
      
  
val df=data.filter("gender=='male' ") 
// data與df的差集 
data.except(df).show 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 
|affairs|gender| age|yearsmarried|children|religiousness|education|occupation|rating| 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 
|    0.0|female|32.0|        15.0|     yes|          1.0|     12.0|       1.0|   4.0| 
|    0.0|female|32.0|         1.5|      no|          2.0|     17.0|       5.0|   5.0| 
|    0.0|female|32.0|        15.0|     yes|          4.0|     16.0|       1.0|   2.0| 
|    0.0|female|22.0|        0.75|      no|          2.0|     12.0|       1.0|   3.0| 
|    0.0|female|27.0|         4.0|      no|          4.0|     14.0|       6.0|   4.0| 
+-------+------+----+------------+--------+-------------+---------+----------+------+ 


// data與df的交集
data.intersect(df)

C# 交集、差集、並集、去重
2018-08-02
C#
C# Linq 交集、並集、差集、去重
2014-09-26
C#
【轉】 js陣列 Array 交集並集差集去重
2017-04-13
JS陣列
NET 集合交集、並集、差集操作
2018-09-18
【資料集合】並集、交集、差集、子集
2019-06-26
JS實現並集，交集和差集
2017-08-12
JS
Spark2 Dataset聚合操作
2016-11-25
Spark
JS求陣列的交集、並集、差集
2018-11-18
JS陣列
MySQL實現差集(Minus)和交集(Intersect)
2014-06-20
MySql
利用Underscore求陣列的交集、並集和差集
2019-03-04
陣列
Python求兩個list的交集、並集、差（補）集、對稱差集的方法
2019-03-19
Python
sql_intersect交集_minus差集_並集union_union all
2010-06-30
SQL
Spark2 Dataset之檢視與SQL
2016-11-25
SparkSQL
Linux求兩個文字檔案的交集、差集、並集
2018-07-05
Linux
Python求兩個list的差集、交集與並集的方法
2017-12-20
Python
Spark2 DataSet 建立新行之flatMap
2016-11-28
Spark
Spark2 Dataset行列操作和執行計劃
2016-11-25
Spark
Spark2 Dataset持久化儲存級別StorageLevel
2016-11-25
Spark持久化
python-進階教程-對兩個集合/字典求交集、差集、並集
2018-12-08
Python
Linux 對比兩個文字的交集和差集（comm）
2016-06-02
Linux
Spark2 Dataset之collect_set與collect_list
2016-11-25
Spark
Spark2 Dataset多維度統計cube與rollup
2016-11-25
Spark
C# 集合交、並、差、去重，物件集合交併差
2024-11-15
C#物件
List和set集合：交集、差集、合集的區別retainAll，removeAll、addAll
2016-07-29
AIREM
Spark2 Dataset DataFrame空值null,NaN判斷和處理
2016-10-29
SparkNullNaN
Spark2 Dataset統計指標：mean均值，variance方差，stddev標準差，corr(Pearson相關係數)，skewness偏度，kurtosis峰度
2016-11-25
Spark指標dev
切片去重(string,int型別去重)
2020-10-10
型別
sql 去重
2015-12-14
SQL
列表去重
2024-08-17
Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank
2016-11-25
Spark函式
dataset 判斷整列是否有重複，找出重複資料
2024-03-09
JS陣列去重 – JSON陣列去重
2019-09-05
陣列JSON
陣列去重
2019-02-28
陣列
字串切片去重
2022-02-08
字串
Redis去重方法
2021-11-06
Redis
MySQL 去重SQL
2017-12-05
MySql
datagridView 去重
2016-04-10
View
結果去重
2024-10-30

Spark2 Dataset去重、差集、交集

相關文章