Spark2 Dataset之collect_set與collect_list

智慧先行者發表於2016-11-25

collect_set去除重複元素；collect_list不去除重複元素
select gender,
concat_ws(',', collect_set(children)),
concat_ws(',', collect_list(children))
from Affairs
group by gender

// 建立檢視 
data.createOrReplaceTempView("Affairs")

val df3= spark.sql("select gender,concat_ws(',',collect_set(children)),concat_ws(',',collect_list(children)) from Affairs group by gender")
df3: org.apache.spark.sql.DataFrame = [gender: string, concat_ws(,, collect_set(children)): string ... 1 more field]

df3.show  // collect_set去除重複元素；collect_list不去除重複元素
+------+-----------------------------------+------------------------------------+
|gender|concat_ws(,, collect_set(children))|concat_ws(,, collect_list(children))|
+------+-----------------------------------+------------------------------------+
|female|                             no,yes|                    no,yes,no,no,yes|
|  male|                             no,yes|                    no,yes,no,yes,no|
+------+-----------------------------------+------------------------------------+

Spark2 Dataset之檢視與SQL
2016-11-25
SparkSQL
Spark2 DataSet 建立新行之flatMap
2016-11-28
Spark
Spark2 Dataset聚合操作
2016-11-25
Spark
Spark2 Dataset多維度統計cube與rollup
2016-11-25
Spark
Spark2 Dataset去重、差集、交集
2016-11-25
Spark
Spark2 Dataset行列操作和執行計劃
2016-11-25
Spark
Spark2 Dataset持久化儲存級別StorageLevel
2016-11-25
Spark持久化
Spark2 Dataset DataFrame空值null,NaN判斷和處理
2016-10-29
SparkNullNaN
Spark2 Dataset分析函式--排名函式row_number,rank,dense_rank,percent_rank
2016-11-25
Spark函式
Spark Streaming之dataset例項
2017-07-31
Spark
XML與DataSet的相互轉換
2017-11-03
XML
spark2
2017-09-07
Spark
C#與資料庫訪問技術總結（十六）之 DataSet物件
2014-11-05
C#資料庫物件
dataset與setAttribute()、getAttribute()的區別
2017-04-13
JavaScript dataset
2018-12-05
JavaScript
DataSet與泛型集合間的互相轉換
2009-09-01
泛型
Tensorflow 1.x 之 dataset.make_initializable_iterator
2020-03-10
VS2005入門之DATASET介紹
2008-03-04
Spark2學習1之基本環境搭建（win）問題
2016-07-30
Spark
Spark2 Model selection and tuning 模型選擇與調優
2016-12-22
Spark模型
Spark2 Dataset統計指標：mean均值，variance方差，stddev標準差，corr(Pearson相關係數)，skewness偏度，kurtosis峰度
2016-11-25
Spark指標dev
【Dataset】Maple-IDS - Network Security Malicious Traffic Detection Dataset
2024-07-15
tensorflow dataset API
2020-12-18
API
image-classification-dataset
2024-06-23
Spark2 生存分析Survival regression
2016-12-09
Spark
Mmdetection dataset pipline
2023-04-15
淺談DataSet 的用法
2005-04-21
Pytorch Dataset入門
2024-04-16
PyTorch
加速訓練之並行化 tf.data.Dataset 生成器
2022-06-11
並行
Spark2 ML包之決策樹分類Decision tree classifier詳細解說
2016-11-29
Spark
Spark2 broadcast廣播變數
2016-11-14
SparkAST變數
Spark2 AccumulatorV2累加器
2016-11-15
Spark
Spark2 Random Forests 隨機森林
2016-12-26
SparkrandomREST隨機森林
asp.net---Dataset的用法
2008-09-18
ASP.NET
DataSet的幾個基本操作
2008-09-08
DataAdapter & DataSet 使用小結
2011-08-05
APT
SqlDataAdapter DataSet DataTable 詳解
2012-05-31
SQLLDAAPT
Spark SQL學習——DataFrame和DataSet
2019-04-04
SparkSQL

Spark2 Dataset之collect_set與collect_list

相關文章