Spark2 探索性資料統計分析

智慧先行者發表於2016-12-02

data資料來源，請參考我的部落格http://www.cnblogs.com/wwxbi/p/6063613.html

import org.apache.Spark.sql.DataFrameStatFunctions

import org.apache.spark.sql.functions._

相關係數

val df = Range(0,10,step=1).toDF("id").withColumn("rand1", rand(seed=10)).withColumn("rand2", rand(seed=27))
df: org.apache.spark.sql.DataFrame = [id: int, rand1: double ... 1 more field]

df.show
+---+-------------------+-------------------+
| id|              rand1|              rand2|
+---+-------------------+-------------------+
|  0|0.41371264720975787|  0.714105256846827|
|  1| 0.7311719281896606| 0.8143487574232506|
|  2| 0.9031701155118229| 0.5282207324381174|
|  3|0.09430205113458567| 0.4420100497826609|
|  4|0.38340505276222947| 0.9387162206758006|
|  5| 0.5569246135523511| 0.6398126862647711|
|  6| 0.4977441406613893| 0.9895498513115722|
|  7| 0.2076666106201438| 0.3398720242725498|
|  8| 0.9571919406508957|0.15042237695815963|
|  9| 0.7429395461204413| 0.7302723457066639|
+---+-------------------+-------------------+


df.stat.corr("rand1", "rand2", "pearson")
res24: Double = -0.10993962467082698

檢視資料的統計分佈情況

val colArray = Array("age", "yearsmarried", "religiousness", "education", "occupation", "rating")

// 檢視資料的統計分佈情況
val descrDF = data.describe("age", "yearsmarried", "religiousness", "education", "occupation", "rating")
descrDF: org.apache.spark.sql.DataFrame = [summary: string, age: string ... 5 more fields]

descrDF.selectExpr("summary",
        "round(age,2) as age",
        "round(yearsmarried,2) as yearsmarried",
        "round(religiousness,2) as religiousness",
        "round(education,2) as education",
        "round(occupation,2) as occupation",
        "round(rating,2) as rating").show(10, truncate = false)
+-------+-----+------------+-------------+---------+----------+------+
|summary|age  |yearsmarried|religiousness|education|occupation|rating|
+-------+-----+------------+-------------+---------+----------+------+
|count  |601.0|601.0       |601.0        |601.0    |601.0     |601.0 |
|mean   |32.49|8.18        |3.12         |16.17    |4.19      |3.93  |
|stddev |9.29 |5.57        |1.17         |2.4      |1.82      |1.1   |
|min    |17.5 |0.13        |1.0          |9.0      |1.0       |1.0   |
|max    |57.0 |15.0        |5.0          |20.0     |7.0       |5.0   |
+-------+-----+------------+-------------+---------+----------+------+

統計欄位中元素的個數

// 統計欄位中元素的個數
val fi = data.stat.freqItems(colArray)
fi: org.apache.spark.sql.DataFrame = [age_freqItems: array<double>, yearsmarried_freqItems: array<double> ... 4 more fields]

fi.printSchema()
root
 |-- age_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)
 |-- yearsmarried_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)
 |-- religiousness_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)
 |-- education_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)
 |-- occupation_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)
 |-- rating_freqItems: array (nullable = true)
 |    |-- element: double (containsNull = false)


val f = fi.selectExpr(
     |   "size(age_freqItems)",
     |   "size(yearsmarried_freqItems)",
     |   "size(religiousness_freqItems)",
     |   "size(education_freqItems)",
     |   "size(occupation_freqItems)",
     |   "size(rating_freqItems)")
f: org.apache.spark.sql.DataFrame = [size(age_freqItems): int, size(yearsmarried_freqItems): int ... 4 more fields]

f.show(10, truncate = false)
+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+
|size(age_freqItems)|size(yearsmarried_freqItems)|size(religiousness_freqItems)|size(education_freqItems)|size(occupation_freqItems)|size(rating_freqItems)|
+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+
|9                  |8                           |5                            |7                        |7                         |5                     |
+-------------------+----------------------------+-----------------------------+-------------------------+--------------------------+----------------------+

集合欄位的元素

// 集合欄位的元素
val f1 = data.stat.freqItems(Array("age", "yearsmarried", "religiousness"))
f1: org.apache.spark.sql.DataFrame = [age_freqItems: array<double>, yearsmarried_freqItems: array<double> ... 1 more field]

f1.show(10, truncate = false)
+------------------------------------------------------+-----------------------------------------------+-------------------------+
|age_freqItems                                         |yearsmarried_freqItems                         |religiousness_freqItems  |
+------------------------------------------------------+-----------------------------------------------+-------------------------+
|[32.0, 47.0, 22.0, 52.0, 37.0, 17.5, 27.0, 57.0, 42.0]|[0.75, 0.125, 1.5, 0.417, 4.0, 7.0, 10.0, 15.0]|[2.0, 5.0, 4.0, 1.0, 3.0]|
+------------------------------------------------------+-----------------------------------------------+-------------------------+


// 對陣列的元素排序

f1.selectExpr("sort_array(age_freqItems)", "sort_array(yearsmarried_freqItems)", "sort_array(religiousness_freqItems)").show(10, truncate = false)
+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+
|sort_array(age_freqItems, true)                       |sort_array(yearsmarried_freqItems, true)       |sort_array(religiousness_freqItems, true)|
+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+
|[17.5, 22.0, 27.0, 32.0, 37.0, 42.0, 47.0, 52.0, 57.0]|[0.125, 0.417, 0.75, 1.5, 4.0, 7.0, 10.0, 15.0]|[1.0, 2.0, 3.0, 4.0, 5.0]                |
+------------------------------------------------------+-----------------------------------------------+-----------------------------------------+




// 集合欄位的元素
val f2 = data.stat.freqItems(Array("education", "occupation", "rating"))
f2: org.apache.spark.sql.DataFrame = [education_freqItems: array<double>, occupation_freqItems: array<double> ... 1 more field]

f2.show(10, truncate = false)
+-----------------------------------------+-----------------------------------+-------------------------+
|education_freqItems                      |occupation_freqItems               |rating_freqItems         |
+-----------------------------------------+-----------------------------------+-------------------------+
|[17.0, 20.0, 14.0, 16.0, 9.0, 18.0, 12.0]|[2.0, 5.0, 4.0, 7.0, 1.0, 3.0, 6.0]|[2.0, 5.0, 4.0, 1.0, 3.0]|
+-----------------------------------------+-----------------------------------+-------------------------+


// 對陣列的元素排序
f2.selectExpr("sort_array(education_freqItems)", "sort_array(occupation_freqItems)", "sort_array(rating_freqItems)").show(10, truncate = false)
+-----------------------------------------+--------------------------------------+----------------------------------+
|sort_array(education_freqItems, true)    |sort_array(occupation_freqItems, true)|sort_array(rating_freqItems, true)|
+-----------------------------------------+--------------------------------------+----------------------------------+
|[9.0, 12.0, 14.0, 16.0, 17.0, 18.0, 20.0]|[1.0, 2.0, 3.0, 4.0, 5.0, 6.0, 7.0]   |[1.0, 2.0, 3.0, 4.0, 5.0]         |
+-----------------------------------------+--------------------------------------+----------------------------------+

大量STATSPACK資料統計分析
2019-05-20
資料分析 | 用 SeaTable 表格快速統計分析訂單資料
2021-10-16
時間序列預測:探索性資料分析和特徵工程的實用指南
2024-05-15
特徵工程
Spark2 生存分析Survival regression
2016-12-09
Spark
資料統計分析 — 泊松分佈
2023-10-30
R——助力大資料統計與分析
2012-09-29
大資料
空間統計之點資料分析
2016-03-02
web統計資料蒐集及分析原理
2016-03-04
Web
對資料庫的統計和分析。
2007-09-02
資料庫
SciTech-Mathmatics-Probability+Statistics:Quantifing Uncertainty_統計資料分析: 多後設資料 + 多元統計分析
2024-10-06
AI
Spark2 Dataset多維度統計cube與rollup
2016-11-25
Spark
資料統計分析的 16 個基礎概念
2022-09-14
網站資料統計分析相關入門
2017-07-22
網站
聚類分析-案例：客戶特徵的聚類與探索性分析
2020-09-28
聚類特徵
[譯] 使用 Pandas 對 Kaggle 資料集進行統計資料分析
2018-11-12
資料庫redolog切換頻率統計分析
2021-02-10
資料庫
分析資料時常見的 7 類統計陷阱
2018-08-14
統計資料
2011-11-06
資料統計分析功能在CRM軟體系統中的作用
2023-10-07
Python資料分析之 pandas彙總和計算描述統計
2019-09-30
Python
如何通過統計分析工具做好APP的資料分析和運營
2015-11-20
APP
spark2
2017-09-07
Spark
電商系統商品資料表設計分析與總結
2021-07-12
資料分析系統有哪些
2024-01-02
MYSQL 統計資料
2015-09-09
MySql
Spark2 載入儲存檔案，資料檔案轉換成資料框dataframe
2016-10-30
Spark
Oracle資料庫Table,Index,Database分析統計資料方式總結及注意點（zt）
2007-12-18
Oracle資料庫IndexDatabase
OLAP引擎：基於Druid元件進行資料統計分析
2021-04-05
UI元件
R資料分析：如何簡潔高效地展示統計結果
2022-06-04
資料庫大設計需求分析（門診掛號系統）
2018-04-08
資料庫
Python爬蟲學習－大資料統計分析（基礎）
2016-05-26
Python爬蟲大資料
ORACLE資料庫Table (index) 分析統計及其生成方式
2007-12-18
Oracle資料庫Index
頭歌實踐教學平臺-泰坦尼克生還預測——視覺化與探索性資料分析-答案
2024-06-29
視覺化
資料分析用哪個系統
2023-12-13
資料分析與資料探勘 - 04科學計算
2020-09-09
Spark2 Dataset行列操作和執行計劃
2016-11-25
Spark
Hadoop高階資料分析使用Hadoop生態系統設計和構建大資料系統
2018-11-28
Hadoop大資料
Oracle資料庫的資料統計(Analyze)
2010-11-16
Oracle資料庫

Spark2 探索性資料統計分析

相關文章