EMR:一體化Hadoop雲上工作平臺

程式碼派就是我發表於2018-09-06

Hadoop生態體系日臻完善,如何利用Hadoop生態各項技術與阿里雲更好的服務於企業。EMR最新發布的工作流管理、彈性伸縮、異構計算多項功能,更好的助力使用者在阿里雲上利用Hadoop、Spark生態體系解決企業大資料問題。

EMR資料開發工作臺(提升開發工程師開發效率,在作業量大的情況下,效能更加明顯,競標的產品是騰訊大資料開發套件)
EMR資料開發工作臺整合了作業編輯、工作編輯和臨時查詢等功能,能更好的滿足使用者雲上離線資料處理、資料分析和探索挖掘等場景。主要特點在於:

  1. 支援多樣化的大資料作業,支援shell,Hive,MapReduce,Spark,SparkStreaming等多種離線,實時型別作業,企業資料開發人員可線上編輯,除錯。

  2. 更低的資料開發門檻,使用者透過拖拽式的大資料開發完成資料的接入,相較於Oozie、Azkaban等開源解決方案,運營人員,資料科學家可以更直觀的進行大資料開發。

  3. 互動式資料探索,為使用者提供互動式Hive、SparkSQL查詢、分析,快速提取海量資料價值。

叢集彈性伸縮
EMR彈性伸縮能更好的縫合公有云計算資源彈性和Hadoop生態體系開放的兩大優勢,實現計算資源根據叢集繁忙程度彈性伸縮,幫助企業降低Hadoop資源的使用成本。

  1. 定時擴縮容叢集,使用者設定在制定時間對叢集進行擴容、縮容,滿足日報、週報、月報等需臨時追加計算資源的場景。

  2. 支援多種ECS例項,受ECS庫存影響,彈性伸縮會由於庫存不足造成執行失敗,為提升伸縮動作執行成功機率,彈性伸縮可同時支援多種ECS例項,且能一次性把儘量多的庫存資源全部買出,保證叢集資源。

EMR Learning
深度學習、AI以成為目前炙手可熱的詞彙,EMR Learning將深度學習和開源大資料技術深度結合,提供一體化的大資料+深度學習服務。利用一個叢集,構建企業資料湖,同時進行機器學習和深度學習。

  1. 支援ECS CPU+GPU的異構計算,透過Hadoop YARN排程叢集GPU資源

  2. 支援Horvod,TensorFlow,SparkML等計算框架,一個叢集內進行機器學習和深度學習。

  3. 可採用PS、MPI等資料通訊模式,解決深度學習的通訊瓶頸

  4. 支援Docker,Muti-Env多執行環境隔離

瞭解更多大資料家族產品詳情,歡迎點選:

點選觀看大資料家族產品釋出會:

【阿里雲新品釋出】開啟新一代資料智慧開發之路:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31550522/viewspace-2213643/,如需轉載,請註明出處,否則將追究法律責任。

相關文章