使用大資料推動東南亞前行 [session]

OReillyData發表於2017-05-26

講師:Feng Cheng (Grab), Edwin Law (Grab)

11:15–11:55 Friday, 2017-07-14 

資料工程和架構 (Data engineering and architecture)

英文講話

地點: 紫金大廳B

觀眾水平:Non-technical


必要預備知識

A basic understanding of ride-hailing platforms, distributed computing, SQL on Hadoop, Spark, and stream processing

您將學到什麼

Understand how Grab improved the performance, reliability and availability of its data infrastructure, migrated from Redshift to Presto and managed to reduce query running time from 30 minutes to 5 minutes with only 20% of the cost, and build a real-time big data platform with Spark Streaming and key-value storage

描述

在東南亞,Grab位於數字與物理世界的交匯處。我們的願景是推動東南亞交通運輸的前行,並變革本地區的移動網際網路生態系統。Grab帶領著超過60萬的司機,他們的任務就是提升東南亞各家的6億2千萬使用者的出行體驗和推進經濟增長。這個單純的商業計劃給了我們一個巨大的機遇來使用資料從根本上完善這個過程。

大體上,Grab的目標是建立和維護一個資料驅動的文化,使用資料來解決整個公司裡最困難的問題。資料工程團隊的責任是搭建一個可靠的供全公司共享的資料分析平臺。因此,我們在幫助不同的團隊從P位元組規模的資料倉儲/資料湖裡來發現產品和消費者的洞察時扮演了一個重要的角色。他們的應用案例包括隨機查詢(訂單和日誌等)、分析使用者體驗以及訓練機器學習模型等。

在本議題裡,Cheng Feng將介紹Grab在把它的後端辦公應用進行擴充套件時面臨的一些挑戰,以及我們是如何應對這一需求的。他還會分享一些架構軌跡從Redshift變為EMR+S3的歷史。在早期,Redshift是一個簡單且高費效比的分析我們資料的解決方案。但隨著近年來我們資料量的爆炸性增長,它就變的很貴且慢了。因此我們決定對架構做出重大改變。我們用AWS的EMR+S3做為我們的資料倉儲。這一架構讓我們能把計算層和資料儲存層分離。也可以讓多個叢集共享同樣的S3上的資料,而且叢集可以是長時執行的,或出於靈活性的考慮而僅是臨時存在的。我們的使用者通常是編寫Spark或是Presto的任務來進行ETL和資料分析。

主題包括:

  • Grad的分析基礎設施

  • Redshift和資料湖的對比

  • Presto:背景和場景

  • EMR上的Presto

  • Grab使用Spark Streaming的應用案例


講師介紹:

Feng Cheng (Grab)

640?wx_fmt=jpeg

Cheng Feng is a data engineer at Grab, where he works on the big data platform, distributed computing, streaming processing, and data science. Previously, he was a data scientist at the Lazada Group, working on Lazada’s tracker, customer segmentation and recommendation systems, and fraud detection.


Edwin Law (Grab)

Edwin Law was the third person and first engineer on the Data team at Grab (formerly MyTeksi and Grab Taxi), which encompasses data engineering, data science, and data analytics. Edwin leads the almost-15-member-strong Data Engineering and Database Operations teams as their engineering manager.




Strata Data Conference北京站正在報名中,點選閱讀原文可登入會議網站。

注意:早期票價優惠期截止到6月9日儘快註冊以確保留位

640?wx_fmt=png


相關文章