從誕生到成長!數家名企大資料平臺應用演進之路解析!
十餘年來,企業架構經過了數次迭代和變遷,ITPUB是這一切的重要見證者,同樣陪伴了無數架構師的成長。10月17日,第十屆中國系統架構師大會以“十年架構,成長之路”為主題,雲集了國內CTO、研發總監、高階系統架構師、開發工程師和IT經理等技術人群,與會規模超千人。本屆大會特設四大主線,其中,主線二為基於大資料平臺的應用實踐,數位技術專家傾囊相授,SACC十年磨礪,涅槃起航!
美團點評高階技術專家曾林西:美團點評Spark的演進與實踐
Spark作為美團點評主流的離線大資料計算引擎,在數倉生產、查詢分析、機器學習等領域都有重度使用。曾林西介紹了Spark在美團點評的演進過程以及主要應用場景和現狀;對於Spark任務管理、互動式開發、問題診斷等需求的平臺化架構選型和建設思路;基於Spark做數倉生產計算引擎以及Spark on GPU叢集實現批次深度學習預測等實踐過程遇到的功能性、穩定性、效能問題對引擎核心進行改造的經驗等內容。
從正常執行到成熟應用場景的落地,美團點評的Spark演進之路可以概括為能用、好用、用好三個階段。整個演進過程圍繞解決平臺和介面定義,定位分散式執行計算失敗原因,落地資料倉儲生產Spark等問題逐一展開,最終提升了整個Spark引擎的魯棒性。
小米資料流平臺負責人夏軍:小米資料流服務:大資料整合架構演化之路
對大多數企業而言,讓資料去到該去的地方併發揮最大的價值一直是技術人員窮盡探索的難題。小米有眾多智慧終端和裝置,資料規模非常大,對於資料採集和大資料整合提出了非常高的要求。其內部大資料系統眾多,如何高效整合Kafka、OLAP等多個系統?如何保證資料低延遲傳輸?如何實時發現並警報資料流異常?如何量化資料流整體鏈路情況等問題同樣是小米技術團隊亟待解決的難題。
基於上述問題,小米的資料流平臺共分為三部分:Talos為中間層,小米自研的訊息佇列,主要扮演資料中轉站的角色,類似於開源元件Kafka;下層為Source或Sink的擴充套件,目標是連線大資料應用場景下的不同平臺;上層依賴底層的資料收集進行監控、分析等工作。整套系統主要應用於小米的埋點資料收集、實時日誌分析、泛OLAP場景以及流式計算等場景。
eBay資深主任工程師郭躍鵬:Apache Griffin - 分散式系統的資料質量方案
在大資料、雲端計算、流式計算為基礎的分散式環境下,資料本身的質量問題越發重要。Apache Griffin專案是eBay發起並貢獻給Apache社群的資料質量方案。它試圖提供一套可擴充套件,可伸縮的框架來解決資料質量的幾個典型問題:如資料的精確性問題、一致性問題、合法性問題、時效性問題、唯一性問題以及完整性問題。面臨streaming和batch的企業資料環境,Apache Griffin如何透過提供一整套的流程來定義,測量並彙報資料質量,以試圖解決資料質量問題?
在資料服務領域從業多年,郭躍鵬發現不少企業內部跨多個系統和團隊沒有統一的資料質量檢視,沒有共享平臺來管理資料質量,也沒有近乎實時的系統健康狀況報告,Apache Griffin的初級需求便誕生了。除了解決上述問題,Apache Griffin也支援Streaming,基於Spark2.2.0版本並有新的DSL。之後,該團隊將繼續最佳化該專案,新增更多聯結器並實現基於拓撲的資料質量監控(專案開源地址:https://github.com/apache/incubator-griffin)。
百度技術經理張建偉:百度雲Spark最佳化及大規模應用
從2003年至今,百度雲經歷了從分散式搜尋系統到如今的視覺化分析挖掘、視覺化報表大屏和安全計算。在這個過程中,Spark證明了其大資料計算核心引擎的地位,百度雲內部也在進行全面的Spark化,並本著“開源開放”的原則將研究改進成果積極與社群分享。
目前,百度雲內部Spark叢集規模在15000臺左右,團隊進行了執行時最佳化、獨立Shuffle以及純流式等改進。在效能最佳化方面,百度雲與Intel聯合開源了OAP專案,其效能提升了大概5倍;外掛式易部署;類似傳統資料庫的索引和cache,易於使用。AE(Adaptive Execution)方案主要針對執行時最佳化,解決Reduce數量設定等問題。流式shuffle的加入減少了舊 shuffle map merge、reduce pull 時間消耗等問題。如果感興趣,大部分技術成果都可以透過開源社群查詢實踐。
在本屆SACC大會的主線二《大資料平臺架構實踐》上半場,我們瞭解了不同企業在資料分析、資源排程和叢集配置等方面的實踐最佳化。“十年磨一劍,礪得梅花香”,第十屆中國系統架構師大會準備了三天傳統技術大會演講,兩天深度主題培訓,更多精彩議題歡迎訪問大會專題頁面(http://zt.it168.com/topic/sacc2018/)。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31545816/viewspace-2217077/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 某二手交易平臺大資料平臺從 0 到 1 演進與實踐大資料
- 京東物流資料同步平臺“資料蜂巢”架構演進之路架構
- 新一代雲資料平臺架構演進之路架構
- 從GrowingIO產品到平臺的進化看資料分析的演變
- 得物資料庫中介軟體平臺“彩虹橋”演進之路資料庫
- 廣告引擎平臺化演進之路
- 數塔•Datale企業大資料,六大行業應用平臺分析大資料行業
- 從0到1搭建DeltaLake大資料平臺大資料
- 獨家解讀 | 滴滴機器學習平臺架構演進之路機器學習架構
- OPPO大資料離線計算平臺架構演進大資料架構
- 基於 ShardingSphere 的得物資料庫中介軟體平臺演進之路資料庫
- Java成長之路--一個非科班生的進階之路Java
- 從 ClickHouse 到 Apache Doris,騰訊音樂內容庫資料平臺架構演進實踐Apache架構
- 回顧·大資料平臺從0到1之後大資料
- 滴滴機器學習平臺架構演進之路機器學習架構
- Flutter:移動端跨平臺技術演進之路Flutter
- 大快搜尋企業大資料管理平臺DKM功能解析大資料
- 資料視覺化平臺搭建,警務實戰平臺大資料應用視覺化大資料
- 璞華AI大模型應用的探索之路:從AI大模型開發與運營平臺到應用寶庫的最佳實踐AI大模型
- 企業大資料平臺MapReduce應用之Join實踐!大資料
- 螞蟻金服楊軍:螞蟻資料分析平臺的演進及資料分析方法的應用
- 萬字乾貨:從訊息流平臺Serverless之路,看Serverless標準演進Server
- HTML5到跨平臺App應用深度解析HTMLAPP
- 數字絲綢之路大資料應用需求盤點大資料
- 滴滴資料通道服務演進之路
- 大資料成神之路大資料
- 聯童科技基於incubator-dolphinscheduler從0到1構建大資料排程平臺之路BAT大資料
- 從 OpenTSDB 到 TDengine,至數物聯網平臺技術改造之路
- 企業研發流程演進之路
- 資料全生命週期管理應用平臺的組成
- 從SOL到NoSQL,資料庫還要向何處演進?SQL資料庫
- Caffe作者賈揚清:AI,從大資料演進到高效能運算AI大資料
- 愛奇藝平臺的架構設計與演進之路架構
- 面向平臺的智慧客服系統之實踐演進之路
- 可信賴資料平臺:決定成長型企業未來十年資料前景
- 從虛擬到現實:數字孿生與數字樣機的進化之路
- 打造“資料金字塔”,小米大資料平臺建設之路大資料
- 從SaaS到PaaS,企業的個性化成長之路