Spinach: 使用Spark SQL進行即席查詢 [session]

OReillyData發表於2017-05-26

SparkSQLSession

講師：Daoyuan Wang (Intel), 李元健 (百度)

13:10–13:50 Friday, 2017-07-14

Spark及更多發展 (Spark & beyond)

地點：紫金大廳B

觀眾水平：中級

必要預備知識

觀眾需要了解Spark SQL或瞭解資料查詢相關知識，最好能夠了解Spark SQL的data source API。

您將學到什麼

使用分散式索引對大規模分散式資料查詢進行優化的思想，利用Spark提供的data source API對Spark進行擴充套件的設計思想與實現能力。

描述

在資料倉儲中用Spark SQL進行批量查詢，已經是工業界較為常見的做法，然而儘管Spark SQL已經能支援對豐富的資料來源進行高效的資料處理，但對於秒級的查詢需求，Spark SQL尚有不足，而很多企業對此也有很大需求。我們基於Spark SQL開發的專案Spinach，正是為了滿足秒級甚至更高要求的即席查詢需求。

Spinach以Fiber為基本單位提供了一套細粒度的分層快取機制，將資料快取在堆外記憶體中，可以有效加速資料的載入。同時，Spinach擴充了Spark SQL的DDL，允許使用者自定義索引，目前支援B+樹索引和布隆過濾器，可以讓使用者根據資料特點定義高效的索引，進一步減少IO操作，提升查詢效率。Spinach執行時與Spark SQL共享同一個程式，不會引入額外的維護成本。

2016年，Intel與百度合作的Spinach平臺首個版本在百度內部開放使用，幫助多個核心產品團隊從過去低效的批量作業查詢方式升級至即席查詢模式。在百度的鳳巢廣告系統中，資料工程師基於每日數T的點選、展現日誌進行廣告效果分析，Spinach將查詢效能提升至原生Spark SQL的5倍，尤其在複雜查詢及大資料量分析的場景下將平均延遲從分鐘級降低至秒級，同時僅增加3%的索引資料消耗。

講師介紹

Daoyuan Wang (Intel)

640?wx_fmt=jpeg

王道遠，英特爾亞太研發有限公司資深軟體研發工程師，Apache Spark社群的活躍貢獻者，自2014年起參與Spark SQL開發。在此之前，曾參與IDH版本Hive的開發工作。譯有《Spark快速大資料分析》一書。

李元健 (百度)

640?wx_fmt=jpeg

李元健，百度基礎架構部資深研發工程師，Apache Spark contributor。11年加入百度，先後參與並負責百度實時計算平臺DStream，Tracing平臺Rig，Spark平臺及公有云BigSQL等核心服務的研發工作。

Strata Data Conference北京站正在報名中，點選閱讀原文可登入會議網站。

注意：早期票價優惠期截止到6月9日，儘快註冊以確保留位。

640?wx_fmt=png

如何使用PL/SQL進行分級查詢WP
2022-03-21
SQL
自適應查詢執行：在執行時提升Spark SQL執行效能
2020-12-21
SparkSQL
Databricks 第11篇：Spark SQL 查詢（行轉列、列轉行、Lateral View、排序）
2021-02-09
SparkSQLView排序
適用於即席查詢（Ad-Hoc）的OLAP引擎
2023-11-09
LangChain SQL介紹以及使用Qwen1.5執行SQL查詢教程
2024-03-29
LangChainSQL
sql查詢是如何執行的？
2019-04-26
SQL
Spark SQL解析查詢parquet格式Hive表獲取分割槽欄位和查詢條件
2020-12-03
SparkSQLHive
如何使用Java Streams進行資料庫查詢？
2018-09-14
Java資料庫
在MySQL中使用explain查詢SQL的執行計劃
2021-09-09
MySqlAI
Java 中如何使用 SQL 查詢 TXT
2020-06-24
JavaSQL
SQL查詢的：子查詢和多表查詢
2020-11-18
SQL
根據emp,dept,salgrade表進行的sql查詢語句(1)
2021-04-23
SQL
SQL Server 資料訪問策略：即席SQLCU
2022-03-21
SQLServer
SQL Server 查詢歷史執行的SQL語句
2020-12-07
SQLServer
原生SQL查詢
2018-11-14
SQL
SQL--查詢
2024-10-05
SQL
SQL 聚合查詢
2022-03-08
SQL
oracle查詢sql執行耗時、執行時間、sql_id
2023-11-23
OracleSQL
如何使用SQL查詢檢視，Postico使用技巧分享~
2020-07-31
SQL
Laravel 框架查詢執行的 SQL 語句
2019-07-11
Laravel框架SQL
使用Spring Reactive MongoDB進行自定義更新查詢 -Yuri Mednikov
2020-03-08
SpringReactMongoDB
如何使用 Eloquent 在兩個日期之間進行查詢？
2021-10-09
使用sql語句查詢平均值,使用sql語句查詢資料總條數, not in 篩選語句的使用
2024-06-13
SQL
資料庫原理實驗指導（三）使用SQL語言進行簡單查詢【轉載csdn】
2020-05-30
資料庫SQL
查詢使用者登入資訊sql
2020-01-18
SQL
在檔案上使用 SQL 查詢的示例
2020-12-10
SQL
SQL查詢總結
2018-07-12
SQL
SQL連線查詢
2020-04-06
SQL
SQL高階查詢
2019-05-30
SQL
sql常用查詢命令
2021-09-11
SQL
SQL 複雜查詢
2022-03-14
SQL
資料庫查詢優化：使用explain分析sql語句執行效率
2018-06-05
資料庫優化AISQL
GaussDB SQL查詢語句執行過程解析
2024-04-24
SQL
查詢SQL Server的歷史執行記錄
2024-04-27
SQLServer
SQL 查詢語句的執行順序解析
2019-12-03
SQL
查詢oracle正在執行的SQL和事務
2018-03-05
OracleSQL
ORDER對查詢結果進行排序
2020-09-25
排序
如何在Django ORM中進行not查詢？
2021-09-11
DjangoORM
filter的pk進行多值查詢操作
2021-04-27
Filter

Spinach: 使用Spark SQL進行即席查詢 [session]

相關文章