領英大資料平臺--超過1萬節點,每天15萬個作業,智慧連線4.7億職場使用者 [session]

OReillyData發表於2017-06-08

Strata Data Conference早期門票優惠本週五即將截止!

還有一天歡迎大家踴躍報名!

點選閱讀原文可登入會議網站,儘快報名以確定留位!



領英大資料平臺--超過1萬節點,每天15萬個作業,智慧連線4.7億職場使用者 

講師:Zhe Zhang (領英)

11:15–11:55 Saturday, 2017-07-15

資料工程和架構 (Data engineering and architecture)

地點: 多功能廳2(Function Room 2)

描述

領英是全球最早應用大資料技術的公司之一。早在2008年,領英就開始在一個20臺節點的機群上執行Hadoop,支援大概10個Hadoop使用者。在過去的9年裡,領英的大資料平臺擴充套件了將近500倍。現在領英有超過10個Hadoop機群,總共超過1萬臺節點,支援超過1000個工程師,資料科學家,商業分析師執行大規模資料分析程式。資料分析工具也從最開始單一的MapReduce/Pig,發展到現在的MR,Pig,Hive,Presto,Spark SQL,Spark ML,TensorFlow,Scalding,Casdading。


在這個報告中我很高興和大家分享一下領英大資料平臺團隊怎樣解決大規模和高速增長帶來的各種挑戰。這其中有基礎架構系統的規模挑戰,包括Hadoop的儲存和排程系統的單一主機架構。還有複雜性的規模挑戰:怎麼樣在一個統一的平臺上支援大量的各種特性的應用,從毫秒級的互動式SQL查詢到執行數天的深度學習模型訓練。最後,還有使用者體驗,系統管理,和可持續性這些圍繞人的規模型挑戰:怎麼樣在平臺層面把底層系統的細節遮蔽掉,為資料和服務提供者和消費者創造一個乾淨,簡潔,可以信賴的契約和介面。



講師介紹:

Zhe Zhang (領英)

640?wx_fmt=jpeg

現任領英公司研發經理,領導核心大資料團隊。該團隊開發和應用HDFS,YARN,Spark,TensorFlow等開源技術,為領英公司的大資料平臺提供核心的儲存/計算引擎。

張喆同時還是Apache Hadoop專案的管理委員會(PMC)成員。也是Hadoop3的主要功能之一,HDFS糾刪碼(HDFS-EC)的作者。在加入領英之前,張喆就職於Cloudera和IBM沃森研究中心。2006年至今,在國際會議和期刊上發表論文20餘篇,擁有5項美國專利。在IBM期間,獲傑出技術成就獎(Outstanding Technology Achievement Award)。

640?wx_fmt=png


相關文章