使用大資料推動東南亞前行 [session]
講師:Feng Cheng (Grab), Edwin Law (Grab)
11:15–11:55 Friday, 2017-07-14
資料工程和架構 (Data engineering and architecture)
英文講話
地點: 紫金大廳B
觀眾水平:Non-technical
必要預備知識
A basic understanding of ride-hailing platforms, distributed computing, SQL on Hadoop, Spark, and stream processing
您將學到什麼
Understand how Grab improved the performance, reliability and availability of its data infrastructure, migrated from Redshift to Presto and managed to reduce query running time from 30 minutes to 5 minutes with only 20% of the cost, and build a real-time big data platform with Spark Streaming and key-value storage
描述
在東南亞,Grab位於數字與物理世界的交匯處。我們的願景是推動東南亞交通運輸的前行,並變革本地區的移動網際網路生態系統。Grab帶領著超過60萬的司機,他們的任務就是提升東南亞各家的6億2千萬使用者的出行體驗和推進經濟增長。這個單純的商業計劃給了我們一個巨大的機遇來使用資料從根本上完善這個過程。
大體上,Grab的目標是建立和維護一個資料驅動的文化,使用資料來解決整個公司裡最困難的問題。資料工程團隊的責任是搭建一個可靠的供全公司共享的資料分析平臺。因此,我們在幫助不同的團隊從P位元組規模的資料倉儲/資料湖裡來發現產品和消費者的洞察時扮演了一個重要的角色。他們的應用案例包括隨機查詢(訂單和日誌等)、分析使用者體驗以及訓練機器學習模型等。
在本議題裡,Cheng Feng將介紹Grab在把它的後端辦公應用進行擴充套件時面臨的一些挑戰,以及我們是如何應對這一需求的。他還會分享一些架構軌跡從Redshift變為EMR+S3的歷史。在早期,Redshift是一個簡單且高費效比的分析我們資料的解決方案。但隨著近年來我們資料量的爆炸性增長,它就變的很貴且慢了。因此我們決定對架構做出重大改變。我們用AWS的EMR+S3做為我們的資料倉儲。這一架構讓我們能把計算層和資料儲存層分離。也可以讓多個叢集共享同樣的S3上的資料,而且叢集可以是長時執行的,或出於靈活性的考慮而僅是臨時存在的。我們的使用者通常是編寫Spark或是Presto的任務來進行ETL和資料分析。
主題包括:
Grad的分析基礎設施
Redshift和資料湖的對比
Presto:背景和場景
EMR上的Presto
Grab使用Spark Streaming的應用案例
講師介紹:
Feng Cheng (Grab)
Cheng Feng is a data engineer at Grab, where he works on the big data platform, distributed computing, streaming processing, and data science. Previously, he was a data scientist at the Lazada Group, working on Lazada’s tracker, customer segmentation and recommendation systems, and fraud detection.
Edwin Law (Grab)
Edwin Law was the third person and first engineer on the Data team at Grab (formerly MyTeksi and Grab Taxi), which encompasses data engineering, data science, and data analytics. Edwin leads the almost-15-member-strong Data Engineering and Database Operations teams as their engineering manager.
Strata Data Conference北京站正在報名中,點選閱讀原文可登入會議網站。
注意:早期票價優惠期截止到6月9日,儘快註冊以確保留位。
相關文章
- 東南亞 ASM 資料包告(2019):ASM
- 新視角看東南亞、南亞、中東遊戲市場現狀遊戲
- 東南亞最大消費App:大資料分析為什麼大多數會失敗?APP大資料
- GlobalWebIndex:東南亞使用者社交網路分析WebIndex
- 觸寶大資料:2019年Q2東南亞市場APP新洞察大資料APP
- GlobalWebIndex:資料顯示東南亞地區微信使用者數量增長迅速WebIndex
- 觸寶大資料:2020年Q1東南亞市場APP排行榜大資料APP
- 觸寶大資料:2019年Q3東南亞市場APP排行榜大資料APP
- yStats:泰國網路零售市場快速發展將推動其東南亞第二大市場
- 2022年東南亞主要國家電動汽車銷量市場份額(附原資料表)
- 恆訊科技分析:東南亞vps為東南亞外貿企業帶來哪些好處?
- 使用R和Apache Spark處理大規模資料 [session]ApacheSparkSession
- 東南亞的遊戲市場趨勢遊戲
- 中國軟體業薄利中前行 東軟限價不成熟使用者
- 恆訊科技分析:租用東南亞vps注意4大事項
- Gfk:過去12個月東南亞智慧手機銷量為1.2億臺 受中國廉價機推動
- SensorTower:2020年Q2東南亞手遊市場資料
- 絲芙蘭資料洩露事件涉及東南亞和澳新銀行的客戶事件
- 聊聊東南亞情況和遊戲發行遊戲
- 越南住宅IP:開闢東南亞新航線
- 遊戲大廠爭相進入東南亞市場,它還有待挖掘嗎?遊戲
- 大資料工程師需要的東西大資料工程師
- 2022年Q3東南亞主要國家電動汽車銷售市場份額(附原資料表)
- 2022年Q3東南亞主要電動汽車廠商銷量市場份額(附原資料表)
- SHAREit茄子快傳助力遊戲出海東南亞遊戲
- 軟體業的變革推動者:東軟
- CAMIA:為什麼企業要將資料中心遷往東南亞
- 工信部:加快推動大資料和實體經濟深度融合大資料
- 營銷DT化,大資料推動品牌戰術升級大資料
- 大資料如何推動金融業的商業變革?大資料
- 大資料驅動下的電商個性化推薦(PPT)大資料
- 載譽前行|綠盟科技膺選“2021大資料企業50強”大資料
- 從資料中自動分析死亡原因,這是東南亞國家正在流行的公共衛生策略
- 2023年東南亞主要智慧手機廠商出貨量及同比(附原資料表)
- 2024年9月東南亞主要國家航空運力座位數(附原資料表)
- 2024年9月東南亞主要機場航空運力座位數(附原資料表)
- 2024年8月東南亞主要國家航空運力座位數(附原資料表)
- 2024年7月東南亞主要航線航空運力座位數(附原資料表)