Spinach: 使用Spark SQL進行即席查詢 [session]

OReillyData發表於2017-05-26

講師:Daoyuan Wang (Intel), 李元健 (百度)

13:10–13:50 Friday, 2017-07-14

Spark及更多發展 (Spark & beyond)

地點: 紫金大廳B

觀眾水平:中級

必要預備知識

觀眾需要了解Spark SQL或瞭解資料查詢相關知識,最好能夠了解Spark SQL的data source API。

您將學到什麼

使用分散式索引對大規模分散式資料查詢進行優化的思想,利用Spark提供的data source API對Spark進行擴充套件的設計思想與實現能力。

描述

在資料倉儲中用Spark SQL進行批量查詢,已經是工業界較為常見的做法,然而儘管Spark SQL已經能支援對豐富的資料來源進行高效的資料處理,但對於秒級的查詢需求,Spark SQL尚有不足,而很多企業對此也有很大需求。我們基於Spark SQL開發的專案Spinach,正是為了滿足秒級甚至更高要求的即席查詢需求。

Spinach以Fiber為基本單位提供了一套細粒度的分層快取機制,將資料快取在堆外記憶體中,可以有效加速資料的載入。同時,Spinach擴充了Spark SQL的DDL,允許使用者自定義索引,目前支援B+樹索引和布隆過濾器,可以讓使用者根據資料特點定義高效的索引,進一步減少IO操作,提升查詢效率。Spinach執行時與Spark SQL共享同一個程式,不會引入額外的維護成本。

2016年,Intel與百度合作的Spinach平臺首個版本在百度內部開放使用,幫助多個核心產品團隊從過去低效的批量作業查詢方式升級至即席查詢模式。在百度的鳳巢廣告系統中,資料工程師基於每日數T的點選、展現日誌進行廣告效果分析,Spinach將查詢效能提升至原生Spark SQL的5倍,尤其在複雜查詢及大資料量分析的場景下將平均延遲從分鐘級降低至秒級,同時僅增加3%的索引資料消耗。


講師介紹

Daoyuan Wang (Intel)

640?wx_fmt=jpeg

王道遠,英特爾亞太研發有限公司資深軟體研發工程師,Apache Spark社群的活躍貢獻者,自2014年起參與Spark SQL開發。在此之前,曾參與IDH版本Hive的開發工作。譯有《Spark快速大資料分析》一書。


李元健 (百度)

640?wx_fmt=jpeg

李元健,百度基礎架構部資深研發工程師,Apache Spark contributor。11年加入百度,先後參與並負責百度實時計算平臺DStream,Tracing平臺Rig,Spark平臺及公有云BigSQL等核心服務的研發工作。



Strata Data Conference北京站正在報名中,點選閱讀原文可登入會議網站。

注意:早期票價優惠期截止到6月9日儘快註冊以確保留位

640?wx_fmt=png


相關文章