SparkSQL 概述
Spark SQL是Spark用於結構化資料(structured data)處理的Spark模組。
二、Hive and SparkSQL
SparkSQL的前身是Shark,給熟悉RDBMS但又不理解 MapReduce 的技術人員提供快速上手的工具。
Hive是早期唯一執行在 Hadoop 上的SQL-on-Hadoop工具。 但是MapReduce計算過程中大量的中間磁碟落地過程消耗了大量的I/O,降低的執行效率,為了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具開始產生,其中表現較為突出的是:
SQL-on-Hadoop工具開始產生,其中表現較為突出的是:
其中Shark是伯克利實驗室Spark生態環境的元件之一,是基於Hive所開發的工具,它修改了下圖所示的右下角的記憶體管理、物理計劃、執行三個模組,並使之能執行在Spark引擎上。
SparkSQL拋棄原有Shark的程式碼,汲取了Shark的一些優點,如記憶體列儲存(In-Memory Columnar Storage)、Hive相容性等,重新開發了SparkSQL程式碼;由於擺脫了對Hive的依賴性,SparkSQL無論在資料相容、效能最佳化、元件擴充套件方面都得到了極大的方便,真可謂“退一步,海闊天空”。
元件擴充套件方面 無論是SQL的語法解析器、分析器還是最佳化器都可以重新定義,進行擴充套件。
三.SparkSQL 優點:
無縫的整合了 SQL 查詢和 Spark 程式設計
3.2 統一的資料訪問
3.3 相容Hive
3.4 標準資料連線
五。
———
DataSet是什麼
DataSet是分散式資料集合。DataSet是Spark 1.6中新增的一個新抽象,是DataFrame的一個擴充套件。它提供了RDD的優勢(強型別,使用強大的lambda函式的能力)以及Spark SQL最佳化執行引擎的優點。
DataSet也可以使用功能性的轉換(操作map,flatMap,filter等等)。
DataFrame是DataSet的特列,DataFrame=DataSet[Row],所以可以透過as方法將DataFrame轉換為DataSet。Row是一個型別,跟Car、Person這些的型別一樣,所有的表結構資訊都用Row來表示。獲取資料時需要指定順序
https://blog.csdn.net/mengxianglong123/article/details/121392689
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949806/viewspace-2914331/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- SparkSQL 調優SparkSQL
- SparkSQL手冊SparkSQL
- SparkSQL概念學習系列之為什麼使用SparkSQL?(二)SparkSQL
- SparkSQL 相關APISparkSQLAPI
- SparkSQL 開窗函式SparkSQL函式
- SparkSQL開窗函式SparkSQL函式
- SparkSQL與Hive metastore ParquetSparkSQLHiveAST
- 03-SparkSQL入門SparkSQL
- SparkSQL /DataFrame /Spark RDD誰快?SparkSQL
- SparkSql 06 開窗函式SparkSQL函式
- SparkSQL部署與簡單使用SparkSQL
- SparkSQL外部資料來源SparkSQL
- SparkSQL 在有讚的實踐SparkSQL
- SparkSql與Redis綜合練習SparkSQLRedis
- Spark開發-SparkSql的開發SparkSQL
- SparkSQL---開窗函式(java)SparkSQL函式Java
- 05-快速理解SparkSQL的DataSetSparkSQL
- SparkSQL中的UDF、UDAF、UDTF實現SparkSQL
- 【Spark篇】---SparkSQL on Hive的配置和使用SparkSQLHive
- SparkSQL -- 02 【SparkSQL檔案的讀取與落地,和Hive的整合,內建函式,自定義函式】SparkSQLHive函式
- SparkSQL,如何將DataFrame轉為json格式SparkSQLJSON
- 《深入理解Spark》之sparkSQL 處理流程SparkSQL
- 看SparkSql如何支撐企業數倉SparkSQL
- SparkSQL介紹並實現開窗函式SparkSQL函式
- SparkSQL讀取Parquet格式的資料載入DatFrameSparkSQL
- 【Spark篇】---SparkSQL初始和建立DataFrame的幾種方式SparkSQL
- 【Spark篇】---SparkSql之UDF函式和UDAF函式SparkSQL函式
- Spark的基本結構及SparkSQL元件的基本用法SparkSQL元件
- 概述
- (十二)SparkSQL Catalog訪問Hive後設資料資訊SparkSQLHive
- JVM 概述JVM
- Java 概述Java
- mongodb 概述MongoDB
- Java概述Java
- TCP 概述TCP
- CloudHub概述Cloud
- ElasticSearch 概述Elasticsearch
- Kafka 概述Kafka