Spark SQL：Hive資料來源複雜綜合案例實戰

豐澤發表於2018-09-28

原文網址 : https://juejin.im/post/5bae1017e51d450e57671f18

一、Hive資料來源實戰

Spark SQL支援對Hive中儲存的資料進行讀寫。操作Hive中的資料時，必須建立HiveContext，而不是SQLContext。HiveContext繼承自SQLContext，但是增加了在Hive後設資料庫中查詢表，以及用HiveQL語法編寫SQL的功能。除了sql()方法，HiveContext還提供了hql()方法，從而用Hive語法來編譯sql。

使用HiveContext，可以執行Hive的大部分功能，包括建立表、往表裡匯入資料以及用SQL語句查詢表中的資料。查詢出來的資料是一個Row陣列。

將hive-site.xml拷貝到spark/conf目錄下，將mysql connector拷貝到spark/lib目錄下

HiveContext sqlContext = new HiveContext(sc);
sqlContext.sql("CREATE TABLE IF NOT EXISTS students (name STRING, age INT)");
sqlContext.sql("LOAD DATA LOCAL INPATH '/usr/local/spark-study/resources/students.txt' INTO TABLE students");
Row[] teenagers = sqlContext.sql("SELECT name, age FROM students WHERE age<=18").collect();
複製程式碼

二、將資料儲存到表中

Spark SQL還允許將資料儲存到Hive表中。呼叫DataFrame的saveAsTable命令，即可將DataFrame中的資料儲存到Hive表中。與registerTempTable不同，saveAsTable是會將DataFrame中的資料物化到Hive表中的，而且還會在Hive後設資料庫中建立表的後設資料。

預設情況下，saveAsTable會建立一張Hive Managed Table，也就是說，資料的位置都是由後設資料庫中的資訊控制的。當Managed Table被刪除時，表中的資料也會一併被物理刪除。

registerTempTable只是註冊一個臨時的表，只要Spark Application重啟或者停止了，那麼表就沒了。而saveAsTable建立的是物化的表，無論Spark Application重啟或者停止，表都會一直存在。

呼叫HiveContext.table()方法，還可以直接針對Hive中的表，建立一個DataFrame。

案例：查詢分數大於80分的學生的完整資訊

Git程式碼連結

Spark SQL：JSON資料來源複雜綜合案例實戰
2018-09-28
SparkSQLJSON
Spark SQL：JDBC資料來源複雜綜合案例實戰
2018-09-28
SparkSQLJDBC
Spark SQL外部資料來源與實現機制
2019-08-14
SparkSQL
Hive SQL 綜合應用案例實戰及多項效能指標深入講解-DW商業環境實戰
2018-12-22
HiveSQL指標
Flink SQL Client綜合實戰
2020-11-17
SQLclient
hive複雜資料型別的用法
2021-02-25
Hive資料型別
Spark綜合使用及使用者行為案例訪問session統計分析實戰-Spark商業應用實戰
2018-12-24
SparkSession
複雜SQL構造資料：
2022-07-21
SQL
Spark學習進度7-綜合案例
2021-01-10
Spark
Spark綜合使用及使用者行為案例區域內熱門商品統計分析實戰-Spark商業應用實戰
2018-12-25
Spark
spark2.2.0 配置spark sql 操作hive
2018-09-23
SparkSQLHive
Hive on Spark和Spark sql on Hive，你能分的清楚麼
2022-01-04
HiveSparkSQL
Hive on Spark 和 Spark sql on Hive，你能分的清楚麼
2022-09-26
HiveSparkSQL
Spark SQL：Parquet資料來源之自動分割槽推斷
2018-09-26
SparkSQL
spark寫入hive資料
2019-04-09
SparkHive
綜合設計——多源異構資料採集與融合應用綜合實踐
2023-12-14
spark streaming執行kafka資料來源
2020-11-14
SparkKafka
Flume+Spark+Hive+Spark SQL離線分析系統
2018-09-18
SparkHiveSQL
Spark SQL知識點與實戰
2021-11-23
SparkSQL
Hive中的資料型別以及案例實操
2020-10-01
Hive資料型別
Python技術棧與Spark交叉資料分析雙向整合進階實戰–大資料ML樣本集案例實戰
2019-03-01
PythonSpark大資料
Python技術棧與Spark交叉資料分析雙向整合進階實戰--大資料ML樣本集案例實戰
2018-12-17
PythonSpark大資料
Python技術棧與Spark交叉資料分析雙向整合技術實戰--大資料ML樣本集案例實戰
2018-12-17
PythonSpark大資料
分散式資料庫下子查詢和 Join 等複雜 SQL 如何實現？
2022-06-07
分散式資料庫SQL
Spark SQL知識點大全與實戰
2021-11-21
SparkSQL
Hadoop大資料實戰系列文章之Hive
2020-11-16
Hadoop大資料Hive
SQL 複雜查詢
2022-03-14
SQL
1個好方案，幫你實現複雜資料來源中小區資訊的準確歸一化
2018-12-12
DataPipeline「自定義」資料來源，解決複雜請求邏輯外部資料獲取難題
2020-02-13
API
spark with hive
2018-11-21
SparkHive
大資料4.1 - Flume整合案例+Hive資料倉
2018-04-08
大資料Hive
資料複製策略綜述
2023-10-30
如何將SQL寫成複雜邏輯和構造資料
2022-07-20
SQL
MVC + EFCore 專案實戰 - 數倉管理系統7 - 資料來源管理中--新增資料來源
2020-07-22
MVC
最新！SQL Server 2019將結合Spark建立統一資料平臺！
2018-09-25
SQLServerSpark
MyBatis初級實戰之四：druid多資料來源
2021-01-20
MyBatisUI
專題課：綜合案例6
2024-11-17
DDD函式程式設計案例：戰勝軟體開發的複雜性！戰勝方式本身有點複雜哦！
2019-07-05
函式程式設計

Spark SQL：Hive資料來源複雜綜合案例實戰

一、Hive資料來源實戰

二、 將資料儲存到表中

相關文章

二、將資料儲存到表中