Spark2 載入儲存檔案，資料檔案轉換成資料框dataframe

智慧先行者發表於2016-10-30

hadoop fs -put /home/wangxiao/data/ml/Affairs.csv /datafile/wangxiao/

hadoop fs -ls -R /datafile
drwxr-xr-x - wangxiao supergroup 0 2016-10-15 10:46 /datafile/wangxiao
-rw-r--r-- 3 wangxiao supergroup 16755 2016-10-15 10:46 /datafile/wangxiao/Affairs.csv
-rw-r--r-- 3 wangxiao supergroup 16755 2016-10-13 21:48 /datafile/wangxiao/Affairs.txt

import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.DataFrame
import org.apache.spark.rdd.RDD
import org.apache.spark.sql.catalyst.encoders.ExpressionEncoder
import org.apache.spark.sql.Encoder

object ML1 {
def main(args: Array[String]) {

val spark = SparkSession.builder().appName("Spark SQL basic example").config("spark.some.config.option", "some-value").getOrCreate()

// For implicit conversions like converting RDDs to DataFrames
import spark.implicits._

// 建立資料框
// val data1:DataFrame=spark.read.csv("hdfs://ns1/datafile/wangxiao/Affairs.csv")

val data1: DataFrame = spark.read.format("csv").load("hdfs://ns1/datafile/wangxiao/Affairs.csv")

val df = data1.toDF("affairs", "gender", "age", "yearsmarried", "children", "religiousness", "education", "occupation", "rating")

df.printSchema()

//##############################################
// 指定欄位名和欄位型別
case class Affairs(affairs: Int, gender: String, age: Int,
yearsmarried: Double, children: String, religiousness: Int,
education: Double, occupation: Double, rating: Int)

val res1 = data1.rdd.map { r =>
Affairs(r(0).toString().toInt, r(1).toString(), r(2).toString().toInt,
r(3).toString().toDouble, r(4).toString(), r(5).toString().toInt,
r(6).toString().toDouble, r(7).toString().toDouble, r(8).toString().toInt)
}.toDF()

res1.printSchema()

//################################################
//建立RDD
val data2: RDD[String] = spark.sparkContext.textFile("hdfs://ns1/datafile/wangxiao/Affairs.txt")

case class Affairs1(affairs: Int, gender: String, age: Int,
yearsmarried: Double, children: String, religiousness: Int,
education: Double, occupation: Double, rating: Int)

// RDD轉換成資料框
val res2 = data2.map { _.split(" ") }.map { line =>
Affairs1(line(0).toInt, line(1).trim.toString(), line(2).toInt,
line(3).toDouble, line(4).trim.toString(), line(5).toInt,
line(6).toDouble, line(7).toDouble, line(8).toInt)
}.toDF()

//###############################################
// 建立檢視
df.createOrReplaceTempView("Affairs")

// 子查詢
//val df1 = spark.sql("SELECT * FROM Affairs WHERE age BETWEEN 20 AND 25")
val df1 = spark.sql("select gender, age,rating from ( SELECT * FROM Affairs WHERE age BETWEEN 20 AND 25 ) t ")

df1.show

// 儲存資料框到檔案
df.select("gender", "age", "education").write.format("csv").save("hdfs://ns1/datafile/wangxiao/data123.csv")

// 請務必保證jar包執行完成，退出spark，釋放資源
spark.stop
}
}

hadoop fs -ls -R /datafile
drwxr-xr-x - wangxiao supergroup 0 2016-10-15 11:43 /datafile/wangxiao
-rw-r--r-- 3 wangxiao supergroup 16755 2016-10-15 10:46 /datafile/wangxiao/Affairs.csv
-rw-r--r-- 3 wangxiao supergroup 16755 2016-10-13 21:48 /datafile/wangxiao/Affairs.txt
drwxr-xr-x - wangxiao supergroup 0 2016-10-15 11:43 /datafile/wangxiao/data123.csv

資料儲存--檔案儲存
2024-05-26
資料檔案是否是smallfile型別檔案，其儲存是否達到資料檔案儲存上限，是否是多個資料檔案
2012-08-03
型別
IOS資料儲存之檔案沙盒儲存
2016-05-11
iOS
Android中的資料儲存之檔案儲存
2020-03-11
Android
大資料檔案儲存系統HDFS
2019-01-15
大資料
Go Web：資料儲存(2)——CSV檔案
2018-12-03
GoWeb
ORACLE資料檔案儲存之我見
2008-09-17
Oracle
把檔案系統的資料檔案遷移到ASM儲存
2014-05-14
ASM
載入和儲存properties檔案
2011-12-09
Pandas之EXCEL資料讀取/儲存/檔案分割/檔案合併
2019-01-30
Excel
資料載入、儲存及檔案格式知識圖譜-《利用Python進行資料分析》
2020-07-11
Python
微信儲存的檔案在哪個資料夾
2021-11-04
儲存系統實現-資料檔案格式
2013-05-19
oracle資料檔案頭轉儲說明
2016-02-25
Oracle
【原創】ASM下的資料檔案轉換為普通檔案
2008-06-22
ASM
檔案系統儲存與oracle資料庫儲存對比
2009-11-09
Oracle資料庫
資料儲存(歸檔解檔，沙河儲存)
2018-03-27
WOR檔案轉換成GST檔案
2014-01-07
PHP匯出大量資料,儲存為CSV檔案
2021-04-29
PHP
mysql 資料儲存檔案及6類日誌
2021-01-25
MySql
[資料庫系統]儲存和檔案結構
2018-07-24
資料庫
【iOS資料儲存】iOS檔案系統介紹
2015-04-09
iOS
資料庫檔案儲存（DBFS），是一款針對資料庫場景的雲原生共享檔案儲存服務
2022-05-04
資料庫
轉換RDBA的檔案和資料塊地址(轉)
2007-12-17
把 .xyz 檔案轉換成 .ply 檔案
2024-06-15
RMAN 資料庫克隆檔案位置轉換方法
2013-12-05
資料庫
MYSQL資料檔案匯入
2016-01-14
MySql
建立資料庫檔案-日誌檔案-次要資料庫檔案
2017-04-01
資料庫
(12)caffe總結之影像資料轉換成db（leveldb/lmdb)檔案
2020-04-04
CentOS修改Mariadb資料庫檔案儲存路徑
2018-06-19
CentOS資料庫
伺服器儲存檔案誤刪資料恢復
2024-06-28
伺服器資料恢復
資料檔案
2009-03-12
Oracle使用RMAN將普通資料檔案轉成ASM
2018-03-27
OracleASM
【儲存資料恢復】IBM儲存檔案NTFS系統損壞的資料恢復案例
2022-09-19
資料恢復IBM
機器學習之儲存與載入.pickle模型檔案
2020-11-08
機器學習模型
java資料list寫入檔案
2024-05-31
Java
oracle資料庫移動資料檔案、日誌檔案和控制檔案
2012-02-01
Oracle資料庫
IOS資料儲存之歸檔/解檔
2016-05-11
iOS

Spark2 載入儲存檔案，資料檔案轉換成資料框dataframe

相關文章