Apache Kylin 2.0:從Hadoop上的OLAP 引擎到實時資料倉儲 [session]

OReillyData發表於2017-06-08

Strata Data Conference早期門票優惠本週五即將截止!

還有一天歡迎大家踴躍報名!

點選閱讀原文可登入會議網站,儘快報名以確定留位!




Apache Kylin 2.0:從Hadoop上的OLAP 引擎到實時資料倉儲

講師:Dong Li (Kyligence)

11:15–11:55 Saturday, 2017-07-15

資料工程和架構 (Data engineering and architecture)

地點: 紫金大廳B(Grand Hall B)

觀眾水平 (Level): 中級 (Intermediate)

必要預備知識

瞭解Hadoop基本原理,瞭解OLAP基礎知識

您將學到什麼

對以Kylin為代表的預處理資料類資料引擎的理解,啟發觀眾從不同的角度思考如何面對不斷升級的規模資料的挑戰

描述

Apache Kylin v2.0即將釋出!作為領先的大資料OLAP分析引擎,現在的Apache Kylin羽翼更豐:支援雪花模型、更加全面的SQL語法、初出茅廬的Spark Cubing、更好地支援實時流式資料接入等等。Apache Kylin正逐漸從一個Hadoop上的傳統OLAP平臺,演變為一個Hadoop上的實時資料倉儲。本演講將介紹Apache Kylin v2.0帶來的最新特性,以及它們背後的技術架構和設計理念:

自v1.5起,Apache Kylin就支援通過micro-batch載入Kafka資料,實現了分鐘級的準實時分析。到v2.0,Apache Kylin對Kafka資料來源的支援更加穩定和友好,使用者可以在同一個平臺對流式資料和歷史資料進行分析。

在過去,Apache Kylin只支援星型資料模型,給部分應用帶來了侷限。從v2.0開始,Apache Kylin將支援雪花模型,使用者無需進行模型轉換,就可以直接按現有資料模型在Kylin中建模,這使得Kylin可以更容易地應用在複雜案例當中。

預計算類分析平臺意味著離線的資料預處理過程。對Apache Kylin而言,這個過程就是Cube的構建(Cubing),我們嘗試使用Spark對現有的構建引擎進行大幅改進,並且收穫了不錯的初期結果。

Apache Kylin對SQL語法的支援也在不斷改進,如支援時間函式、視窗函式、百分位等複雜函式。這些改進的需求起源於社群,也最終由社群的力量推動而實現。

區別於其他的SQL on Hadoop技術,Apache Kylin始終專注於盡量使用離線預計算替代線上計算。在這個資料規模日益激增的時代,如果希望以穩定的效能面對各類規模的資料挑戰,Apache Kylin或許才是你的首選!


講師介紹:

Dong Li (Kyligence)

640?wx_fmt=jpeg

Kyligence Inc技術合夥人兼高階軟體架構師,Apache Kylin Committer & PMC Member,專注於大資料技術研發,KyBot技術負責人。畢業於上海交通大學計算機系;曾任eBay全球分析基礎架構部高階工程師、微軟雲端計算和企業產品部軟體開發工程師;曾是微軟商業產品Dynamics亞太團隊核心成員,參與開發了新一代基於雲端的ERP解決方案。

640?wx_fmt=png


相關文章