Spark3學習【基於Java】3. Spark-Sql常用API

山不在高水不在深發表於2021-12-03

學習一門開源技術一般有兩種入門方法，一種是去看官網文件，比如Getting Started - Spark 3.2.0 Documentation (apache.org)，另一種是去看官網的例子，也就是%SPARK_HOME%\examples下面的程式碼。開啟IDEA，選擇File-Open...

跟前面文章中方法一樣匯入jars目錄到classpath。

Spark解析json字串

第一個例子是讀取並解析Json。這個例子的結果讓我有些震驚，先上程式碼：

public static void main(String[] args) {
SparkSession session = SparkSession.builder().master("local[1]").appName("SparkSqlApp").getOrCreate();
Dataset<Row> json = session.read().json("spark-core/src/main/resources/people.json");
json.show();
}

讓我驚訝的是檔案的內容。例子裡面的檔案是三個大括號並列，副檔名是.json，由於沒有中括號，所以格式是錯的：

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}

但是spark解析出來了：

於是我把檔案改成下面這樣向看下結果

[{"name":"Michael"},
{"name":"Andy", "age":30},
{"name":"Justin", "age":19}
]

你猜輸出是什麼？

顯然，spark沒有解析出第一行，而且把第4行也解析了。這也說明了為什麼樣例的檔案可以解析：首先跟副檔名是沒啥關係的，另外spark是按行解析，只要考慮這一行是否符合解析要求就可以，行末可以有逗號。所以把檔案改成下面也是可以的

{"name":"Michael"},
{"name":"Andy", "age":30},..
{"name":"Justin", "age":19}

第一行後面有逗號，第二行後面還有兩個點。

SQL 查詢

在之前的例子中，讀取檔案返回的是Dataset<String>，因為之前確實是讀取的檔案內容。現在使用json()方法返回的是DataFrame，資料是經過spark處理過的。

DataFrame提供了一些好用的方法，用的最多的就是show()。它主要用於除錯，可以把資料以表格形式列印。spark確實給DataFrame生成了表結構，可以通過printSchema()方法檢視

不但有欄位名，還有欄位型別，還有是否可空（好像都能空）。

DF還提供了類似於sql查詢的方法，比如select()/groupBy()，和where類似的filter()等：

這裡我們首先給年齡欄位+1，並通過別名（相等於SQL裡的AS）讓他覆蓋之前的欄位，然後查詢比19大的記錄，最後根據年齡分組彙總。

如果我們把新欄位不覆蓋原欄位呢？你猜是執行報錯還是啥結果？

That's all？當然不是，Spark提供了更強大的SQL操作：檢視

View

檢視分臨時檢視和全域性檢視。臨時檢視時會話級別的，會話結束了檢視就沒了；全域性檢視時應用級別的，只要Spark應用不停，檢視就可以跨會話使用。

可見臨時檢視和全域性檢視可以叫一樣的名字，它們的內容互不干擾。因為要訪問全域性檢視需要通過global_temp庫。不信你可以這樣試一下

Dataset<Row> group = json.select(col("name"), col("age").plus(1).alias("age1"))
.filter(col("age").gt(19))
.groupBy("age1")
.count();
group.createOrReplaceTempView("people");
json.createOrReplaceGlobalTempView("people");
Dataset<Row> temp = session.sql("select * from people");
Dataset<Row> global = session.sql("select * from global_temp.people");
Dataset<Row> global1 = session.newSession().sql("select * from global_temp.people");
temp.show();
global.show();
global1.show();