使用Apache Spark和BigDL來構建深度學習驅動的大資料分析

OReillyData發表於2017-04-12

講師:Yiheng Wang (Intel)

13:30–17:00 週四, 2017-07-13

Spark及更多發展

地點: 報告廳

觀眾水平: 中級

必要預備知識

Basic understand of deep learning, and has experience of Apache Spark.


您將學到什麼

The attendees will know how to develop deep learning applications on Apache Spark and learn some real use case.


描述

深度學習已經在很多的領域(例如計算機視覺、自然語言處理和語音識別等)取得了頂尖水準的表現,對工業界有極大的潛在應用價值。我們應該注意到深度學習和大資料的聯絡非常得緊密。首先,深度學習的模型需要使用大量的資料來訓練,這就是為什麼它直到大資料時代才開始蓬勃發展。其次,現在絕大部分的大資料都是視訊、音訊和文字資料,非常適合使用深度學習演算法來處理。為了能釋放深度學習的能力,我們就應該把它運用在大資料的環境裡。


工業界已經構建了豐富的大資料生態系統,從分散式資料儲存,到高速流計算系統,以及資料處理引擎。Apache Spark就是一個廣為人知的大資料處理引擎。它提供了一個完整的框架來統一支援不同的大資料任務(SQL、流計算和機器學習)。大家已經使用它構建了大量的大資料應用。


這就是為什麼我們要引入BigDL。BigDL是一個基於Apache Spark的大資料分散式的深度學習框架。它整合了“高效能運算”和“大資料”架構的優點,為Spark提供了原生的深度學習的支援。同時為現成的使用單節點的開源深度學習框架(如Caffeh和Torch)帶來了數量級的效能速度提升,併為它們提供了基於Spark架構的對深度學習任務的水平擴充套件的能力。


在這個教學課程裡,我們會介紹BigDL的功能,用例子來展示如何進行開發。我們還會分享我們的使用者是如何在他們的深度學習應用(如影象識別、物體檢測和自然語言處理等)中採用BigDL的案例。這些案例顯示了使用者可以使用他們的大資料平臺(例如使用Apache Hadoop和Spark)作為一個統一的資料分析平臺來進行資料儲存、資料處理和挖掘、特徵工程、傳統的(非深度)機器學習和深度學習等各種任務。


講師介紹

Yiheng Wang

Intel

Yiheng Wang is a software development engineer on the Big Data Technology team at Intel who works in the area of big data analytics. He and his colleagues are developing and optimizing distributed machine-learning algorithms (e.g., neural network and logistic regression) on Apache Spark. He also helps Intel customers build and optimize their big data analytics applications.




Strata Data Conference北京站已經開啟註冊系統,閱讀原文可瀏覽截止到目前為止的講師名單和已經確認的議題,最優惠票價期截止到5月5日為止儘快註冊以確保留位

640?wx_fmt=png


相關文章