基於 Flink 的實時數倉生產實踐

芊寶寶最可愛發表於2019-11-28

資料倉儲的建設是“資料智慧”必不可少的一環,也是大規模資料應用中必然面臨的挑戰。在智慧商業中,資料的結果代表了使用者反饋、獲取資料的及時性尤為重要。快速獲取資料反饋能夠幫助公司更快地做出決策,更好地進行產品迭代,實時數倉在這一過程中起到了不可替代的作用。


基於 Flink 的實時數倉生產實踐


如何更好的建設實時數倉、有哪些優秀的生產實踐經驗可借鑑?

11月28-30日,Flink Forward Asia 邀請來自 Netflix、美團點評、小米、OPPO、菜鳥等數倉專家,聚焦 Flink 實時數倉在資料鏈路中扮演的角色與在智慧商業中的重要價值,分享實時數倉的應用實踐及平臺智慧化的探索與思考。

美團點評基於 Apache Flink 的實時數倉平臺實踐

魯昊 | 美團點評高階技術專家

美團點評的業務眾多,涉及幾十條業務線;資料量大,處理峰值達到 1.5 億條每秒,每天資料增長量超過 3 萬億條;大多數業務都是交易場景,鏈路長、狀態多樣,業務在數倉建設中面臨著很大挑戰。隨著業務對時效性的要求越來越高,如即時配送、實時營銷,越來越多的業務對實時數倉提出了需求和探索。實時計算團隊調研彙總了多個業務線在實時數倉方面的建設經驗,建設了一站式的實時數倉開發平臺,以更好得支援業務發展。

本次分享將主要介紹實時計算的業務應用和規模、多個業務在實時數倉方面的建設情況,以及基於 Flink 的實時計算平臺和實時數倉平臺。

小米流式平臺架構演進與實踐

夏軍 | 小米流式平臺負責人,高階研發工程師

小米叢集業務線眾多,從資訊流,電商 ,廣告到金融等覆蓋了眾多了領域,小米流式平臺為小米集團各業務提供一體化的流式資料解決方案,主要包括資料採集,資料整合和流式計算三個模組。目前每天資料量達到 2 萬億條,實時同步任務 1.5 萬,實時計算的資料 1 萬億條。伴隨著小米業務的發展,流式平臺也經歷三次大升級改造,滿足了眾多業務的各種需求。

最新的一次迭代基於 Apache Flink,對於流式平臺內部模組進行了徹底的重構,同時小米各業務也在由 Spark Streaming 逐步切換到 Flink。本次分享主要包括小米流式平臺架構演進、基於 Flink 的新版本流式平臺架構設計與產品化,小米典型業務應用實踐,未來挑戰與規劃等。

Netflix:Evolving Keystone to an Open Collaborative Real-time ETL Platform

徐振中 | Senior Software Engineer at Netflix

Netflix 致力於我們會員的喜悅。我們不懈地專注於提高產品體驗和高質量內容。近年來,我們一直在技術驅動的 Studio 和內容製作方面進行大量投資。在這個過程中,我們發現在實時資料平臺的領域裡中出現了許多獨特並有意思的挑戰。例如,在微服務架構中,Domain object 分佈在不同的 App 及其有狀態儲存中,這使得低延遲高一致性的實時報告和 entity 搜尋發現特別具有挑戰性。

在本次演講中,我們將討論一些有趣的案例,分享分散式系統基礎方面的各種挑戰以及解決方案。我們還將討論在開發運維過程中的收穫,對開放式自助式實時資料平臺的一些新願景,以及我們對 Realtime ETL 基礎平臺的一些新思考。

菜鳥供應鏈實時數倉的架構演進及應用場景

賈元喬 | 菜鳥高階資料技術專家

賈元喬老師就職於菜鳥網路供應鏈資料團隊,致力於菜鳥供應鏈數倉建設、資料產品開發以及資料技術創新。

本次分享主要從資料模型、資料計算、資料服務等幾個方面介紹菜鳥供應鏈資料團隊在實時資料技術架構上的演進,以及在供應鏈場景中,典型的實時應用場景及Flink實現方案。

OPPO 基於 Apache Flink 的實時數倉實踐

張俊 | Apache Flink Contributor,OPPO大資料平臺研發負責人

張俊老師主導了 OPPO 涵蓋“資料接入-資料治理-資料開發-資料應用”全鏈路的資料中臺建設。曾先後工作於摩根士丹利、騰訊,具有豐富的資料系統研發經驗,目前重點關注數倉建設、實時計算、OLAP引擎方向,同時也是Flink開源社群貢獻者。本次演講主要分享 OPPO 基於 Flink 構建實時數倉的:

1.建設背景
2.頂層設計
3.落地實踐
4.未來展望

原文連結

本文為雲棲社群原創內容,未經允許不得轉載。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69949601/viewspace-2666060/,如需轉載,請註明出處,否則將追究法律責任。

相關文章