spark 三種建立資料集的方法，及測試（Scala程式碼）

強子no2發表於2018-06-14

原文網址 : https://blog.csdn.net/czq850114000/article/details/80697133

1 通過建立RDD執行查詢

/**
  *
  * 優點:
  *
  * 編譯時型別安全
  * 編譯時就能檢查出型別錯誤
  * 物件導向的程式設計風格
  * 直接通過類名點的方式來運算元據
  * 缺點:
  *
  * 序列化和反序列化的效能開銷
  * 無論是叢集間的通訊, 還是IO操作都需要對物件的結構和資料進行序列化和反序列化.
  * GC的效能開銷
  * 頻繁的建立和銷燬物件, 勢必會增加GC
  */
def rddTest(): Unit ={
  val conf = new SparkConf().setAppName("test").setMaster("local")
  val sc = new SparkContext(conf)
  sc.setLogLevel("WARN")
  val sqlContext = new SQLContext(sc)

  case class Person(id: Int, age: Int)
  val idAgeRDDPerson = sc.parallelize(Array(Person(1, 30), Person(2, 29), Person(3, 21)))
  // 優點1
  // idAge.filter(_.age > "") // 編譯時報錯, int不能跟String比
  // 優點2
  idAgeRDDPerson.filter(_.age > 25).take(1000).foreach(println); // 直接操作一個個的person物件
}

2 通過 DataFrame引入了schema和off-heap

**
  *
  * DataFrame引入了schema和off-heap
  *
  * schema : RDD每一行的資料, 結構都是一樣的. 這個結構就儲存在schema中. Spark通過schame就能夠讀懂資料, 因此在通訊和IO時就只需要序列化和反序列化資料, 而結構的部分就可以省略了.
  *
  * off-heap : 意味著JVM堆以外的記憶體, 這些記憶體直接受作業系統管理（而不是JVM）。Spark能夠以二進位制的形式序列化資料(不包括結構)到off-heap中, 當要運算元據時, 就直接操作off-heap記憶體. 由於Spark理解schema, 所以知道該如何操作.
  *
  * off-heap就像地盤, schema就像地圖, Spark有地圖又有自己地盤了, 就可以自己說了算了, 不再受JVM的限制, 也就不再收GC的困擾了.
  *
  * 通過schema和off-heap, DataFrame解決了RDD的缺點, 但是卻丟了RDD的優點. DataFrame不是型別安全的, API也不是物件導向風格的.
  */
def dataFrameTest(): Unit ={

  val conf = new SparkConf().setAppName("test").setMaster("local")
  val sc = new SparkContext(conf)
  sc.setLogLevel("WARN")
  val sqlContext = new SQLContext(sc)

  val idAgeRDDRow = sc.parallelize(Array(Row(1, 30), Row(2, 29), Row(4, 21)))

  val schema = StructType(Array(StructField("id", DataTypes.IntegerType), StructField("age", DataTypes.IntegerType)))

  val idAgeDF = sqlContext.createDataFrame(idAgeRDDRow, schema)
  // API不是物件導向的
  idAgeDF.filter(idAgeDF.col("age") > 25).take(1000).foreach(println);
  // 不會報錯, DataFrame不是編譯時型別安全的
  idAgeDF.filter(idAgeDF.col("age") > "").take(1000).foreach(println);
}

3 DataSet結合了RDD和DataFrame的優點, 並帶來的一個新的概念Encoder

**
  * DataSet結合了RDD和DataFrame的優點, 並帶來的一個新的概念Encoder
  *
  * 當序列化資料時, Encoder產生位元組碼與off-heap進行互動, 能夠達到按需訪問資料的效果, 而不用反序列化整個物件. Spark還沒有提供自定義Encoder的API, 但是未來會加入.
  *
  * 下面看DataFrame和DataSet在2.0.0-preview中的實現
  */
def dataSetTest(): Unit ={

  val conf = new SparkConf().setAppName("test").setMaster("local") // 除錯的時候一定不要用local[*]
  val sc = new SparkContext(conf)
  val sqlContext = new SQLContext(sc)
  import sqlContext.implicits._

  val idAgeRDDRow = sc.parallelize(Array(Row(1, 30), Row(2, 29), Row(4, 21)))

  //
  val schema = StructType(Array(StructField("id", DataTypes.IntegerType), StructField("age", DataTypes.IntegerType)))

  // 在2.0.0-preview中這行程式碼建立出的DataFrame, 其實是DataSet[Row]
  val idAgeDS = sqlContext.createDataFrame(idAgeRDDRow, schema)

  idAgeDS.registerTempTable("test")

  sqlContext.sql("SELECT * FROM test").show()

  // 在2.0.0-preview中, 還不支援自定的Encoder, Row型別不行, 自定義的bean也不行
  // 官方文件也有寫通過bean建立Dataset的例子，但是我執行時並不能成功
  // 所以目前需要用建立DataFrame的方法, 來建立DataSet[Row]
  // sqlContext.createDataset(idAgeRDDRow)

  // 目前支援String, Integer, Long等型別直接建立Dataset
  //Seq(1, 2, 3).toDS().take(1000).foreach(println);
  //sqlContext.createDataset(sc.parallelize(Array(1, 2, 3))).take(1000).foreach(println);
}

4 通過Main 方法呼叫

def main(args: Array[String]): Unit = { //建立spark的執行環境
  rddTest()
  dataFrameTest()
  dataSetTest()
}

Redis快速產生測試資料的三種方法
2018-12-24
Redis
在IntelliJ IDEA中建立和執行java/scala/spark程式
2020-05-18
IntelliJIdeaJavaSpark
Android 自動化測試及效能資料採集的 Python 指令碼
2018-05-29
AndroidPython指令碼
MySQL建立資料庫的兩種方法
2021-09-09
MySql資料庫
好程式設計師大資料培訓分享spark之Scala
2020-06-04
程式設計師大資料Spark
JS混淆程式碼資料集構建方法
2024-04-17
JS
好程式設計師大資料學習路線分享spark之Scala
2019-08-16
程式設計師大資料Spark
C++中有三種建立物件的方法
2018-07-29
C++物件
三種提高Python程式碼效能的簡便方法
2020-08-03
Python
程式碼面試需要知道的8種資料結構(附面試題及答案連結)
2018-08-27
資料結構面試題
UCI資料集詳解及其資料處理（附148個資料集及處理程式碼）
2022-04-19
程式碼重構與單元測試——“提取方法”重構（三）
2021-07-15
交換兩個資料的三種方法
2020-11-09
TCP 的連線建立與關閉狀態及資料傳輸通訊過程【含有 PHP 測試實驗程式碼】
2019-06-19
TCPPHP
代理IP檢測的三種方法
2021-09-11
三層登陸程式碼及錯誤集錦
2018-07-02
Spring Boot(三)：RestTemplate提交表單資料的三種方法
2018-08-06
Spring BootREST
Java併發(三)----建立執行緒的三種方式及檢視程式執行緒
2023-04-24
Java執行緒
各種測試方法的問題
2019-04-01
測試方法的七種分類
2018-08-05
Sovit2D對接MQTT資料來源的方法及測試
2022-06-13
MQQT
大資料Spark叢集模式配置
2020-10-16
大資料Spark模式
測試必存！12種網站崩潰的原因及排查方法！
2024-04-08
網站
weblogic服務建立資料來源連線測試更新mysql驅動包的問題及解決方法LHQJ
2022-03-01
WebMySql
一種新的UI測試方法：視覺感知測試
2022-07-15
UI視覺
TestComplete使用關鍵字測試的資料驅動測試（三）
2019-01-21
大資料測試學習筆記之測試工具集
2019-05-15
大資料筆記
測試面試（三）--資料庫與linux
2020-10-23
面試資料庫Linux
讓測試更方便系列：快速建立資料
2020-05-17
Spark SQL三種join和資料傾斜的產生和解決辦法
2022-02-28
SparkSQL
程式碼共享的四種方法
2024-05-13
一種不通過UI給C4C自定義BO建立測試資料的方式
2018-03-11
UI
qt程式建立及模板程式碼分析
2020-11-29
QT
EOS原始碼解析建立賬號的三種方式。
2018-11-06
原始碼
JAVA各種OOM程式碼樣例及解決方法
2020-07-18
JavaOOM
spark三種清理資料的方式：UDF，自定義函式，spark.sql；Python中的zip()與*zip()函式詳解//及python中的*args和**kwargs
2018-07-30
Spark函式SQLPython
幾種軟體測試方法
2024-07-16
好程式設計師大資料教程Scala系列之方法的巢狀和方法多型
2019-10-12
程式設計師大資料巢狀多型

spark 三種建立 資料集的方法，及測試（Scala程式碼）

相關文章

spark 三種建立資料集的方法，及測試（Scala程式碼）