基於EMR離線資料分析-反饋有禮

哈哈哈hh發表於2022-01-18

“雲上漫步”第三期-反饋有禮

參與體驗產品,提交反饋,就有機會獲得定製揹包,T恤,超萌虎年滑鼠墊,以及5到100元阿里雲通用代金券~ 反饋地址:
https://developer.aliyun.com/adc/series/ysmb3

簡介

資料量爆發式增長的今天,數字化轉型成為IT行業的熱點,資料需要更深度的價值挖掘,應對未來不斷變化的需求。海量離線資料分析可以應用於多種商業系統環境,例如電商海量日誌分析、使用者行為畫像分析、科研行業的海量離線計算分析任務等場景。

本場景將透過開通登入EMR Hadoop叢集,簡單進行hive操作,使用hive對資料進行載入,計算等操作。展示瞭如何構建彈性低成本的離線大資料分析。

體驗此場景後,可以掌握的知識有:

1.EMR叢集的基本操作,對EMR產品有初步的瞭解

2.EMR叢集的資料傳輸和hive的簡單操作,對如何進行離線大資料分析有初步的掌握

背景知識

E-MapReduce(簡稱“EMR”)是雲原生開源大資料平臺,向客戶提供簡單易整合的Hadoop、Hive、Spark、Flink、Presto、Clickhouse、Delta、Hudi等開源大資料計算和儲存引擎。EMR計算資源可以根據業務的需要調整。EMR可以部署在阿里雲公有云的ECS和ACK、專有云平臺。產品文件地址:

產品優勢

開源生態:提供高效能、穩定版本Hadoop、Spark、Hive、Flink、Kafka、HBase、Presto、Impala、Hudi等開源大資料元件,客戶可根據場景靈活搭配使用

引擎最佳化:多引擎效能最佳化,如Spark SQL較開源版本提升6倍。採用JindoFS+OSS,保證資料可靠性基礎上,效能大幅提升

便捷運維:在阿里雲控制檯和OpenAPI方便地對叢集、節點和服務進行監控和運維操作。助您大幅提升運維工作效率,讓資料工程師更專注於業務開發

節約成本:叢集資源可自動按需匹配,您只需要按實際使用量付費,減少資源浪費成本。支援阿里雲搶佔式例項、預留例項券(RI),進一步降低成本

彈性資源:可以靈活調整叢集資源,在數分鐘內建立出基於雲伺服器 ECS、容器 ACK的叢集,快速響應業務需求

安全可靠:透過 VPC 和安全組設定叢集網路安全策略,支援Kerberos身份認證和資料加密,使用Ranger資料訪問控制。支援資料加密,保證資料安全

對比維度 EMR 自建Hadoop
成本 資源按量付費,支援叢集資源靈活調整,資料分層儲存,資源使用率高。無額外軟體License費用。 提前預估資源,且資源相對固定,資源使用率低。採用Hadoop發行版,需額外支付License費用。
效能 較開源版本效能大幅提升,如EMR SparkSQL效能是開源版本6倍。 採用開源社群版本,效能需自行最佳化。
易用 分鐘級別啟動Hadoop叢集,敏捷響應業務需求。 採購伺服器,部署Hadoop生態元件,週期長達數週。
彈性 可根據作業臨時啟動和銷燬叢集。叢集資源可根據時間週期或叢集負載動態自動調整。基於JindoFS計算儲存分離架構,輕鬆分別擴充套件計算和儲存資源。 計算和儲存耦合,資源相對固定,無法彈性調整資源。
安全 支援企業級多租戶資源管理能力,支援對錶、列、行級別的許可權控制和日誌審計,支援資料加密。 多租戶管理能力需自行配置,能力不完善,無法滿足企業級需求。
可靠 大規模、企業級環境的檢驗,隨開源版本升級,並經過專業的相容性驗證測試,提供優於社群版本的使用體驗。 需自行更新和升級開源版本,驗證各元件版本相容性,自行修復社群bug。
服務 專業和資深大資料專家技術服務團隊提供售後支援。 社群版本無服務支援,Hadoop發行版,需額外支付License和服務費用。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70003733/viewspace-2852865/,如需轉載,請註明出處,否則將追究法律責任。

相關文章