Spark SQL的官網解釋

yunqiublog發表於2019-08-09

一.官網位置

1.位置

2.解釋


官網位置 DataSet1.6出現的
SchemaRDD < 1.3    1.3版本前叫 SchemaRDD   1.3以後 叫DataFrame 
DataSet支援 Scala , JAVA 不支援python
DataFrame 支援四種 JAVA,Scala.Python,R
DataFrame:並不是spark sql獨創的,原來就有的,從其他框架借鑑過來的

二.DataFrame 注意事項

1.注意


分散式的資料集
按列進行組織的
就是等於關係型資料庫總的一張表
DataFrame=DataSet[Row] 型別是Row

三.DataFram 與RDD的區別

1.定義層面


RDD定義裡面有泛型 RDD[person ]  RDD不知道Person裡面有什麼的
DataFrame  不一樣 ,裡面是張表,所以暴露的資訊多


2.底層方面


RDD開發各種語言有各自的執行環境,所以效能不一樣,差異很大,但是DataFrame 是統一都經
過計劃,在執行,不用管語言開發,效能差不多

3.API方面


DataFrame   比RDD 更加豐富

三.其餘注意事項

1.注意點


Spark SQL入口點   2.0版本
    <2: SQLContext   HiveContext
    >=2: SparkSession
spark-shell  啟動會預設啟動sc,spark 兩個  SparkContext,SparkSession
spark.read.json() 不推薦
可以這樣寫
   spark.read.format("json").load(path)    
   spark.read.format("text").load(path)

2.支援hive模式程式碼


  val spark = SparkSession.builder()
      .appName("Test")
      .master("local[2]")
      .enableHiveSupport() //支援hive
      .getOrCreate()

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69941978/viewspace-2653164/,如需轉載,請註明出處,否則將追究法律責任。

相關文章