他來了!袋鼠雲大資料基礎平臺EasyMR正式上線

數棧DTinsight發表於2022-09-22

7 月 28 日,在袋鼠雲 2022 產品釋出會上,袋鼠雲技術負責人思樞正式宣佈旗下產品「大資料基礎平臺 EasyMR」釋出。

EasyMR 是袋鼠雲自研的大資料基礎平臺,提供 Hadoop、Hive、Spark、Trino、HBase、Kafka 等元件,完全相容 Apache 開源生態;支援企業級安全管控,一鍵開啟 LDAP+Kerberos+Ranger 認證許可權體系;提供一站式運維管理平臺,幫助企業快速構建大資料平臺,降低運維成本。

結合袋鼠雲在數字化領域多年的寸積銖累,此次全新發布的大資料基礎平臺 EasyMR 緊跟開源生態的先進技術,不僅可以幫助客戶輕鬆應對海量資料的採集、儲存、計算、分析挖掘和資料安全等應用場景,並且對於智慧運維的部署、升級、擴縮容、監控等進行全方位支援,真正做到成為企業便捷、智慧、高效的 “資料底座”。

六大特性打造國產大資料基礎平臺

不同於十年前的新奇,現在大家已經完全習慣自己身處於 “大資料時代” 這件事情,所有人都能夠深切地感受到大資料對於生活帶來的各種改變和便利,資料爆發的時代推動著每個個人、企業、行業,甚至是國家往前走。

當前國際形勢風雲變幻,中美雙邊關係的割裂,國家對於信創國產化的大力支援,給國內的大資料行業帶來巨大沖擊的同時,也帶來了全新機遇。

資料基礎平臺作為一切的基礎和底座,自然成為國產替代的重中之重。只有真正擁有了自主可控的平臺建設能力,才能逐步建立基於自己的 IT 底層架構和標準,形成自有開放生態。

EasyMR 就是這樣一款自主研發、完全可控的,致力於助力企業資訊化智慧轉型的 “企業資料底座”。

file

下面透過描述 EasyMR 的主要特性,來具體說說,EasyMR 是如何幫助企業實現智慧的?

● 介面化叢集運維

Hadoop 叢集、大資料平臺在日常運維中涉及到的節點擴容縮容、元件停止啟動、服務滾動重啟、服務引數修改、版本升級與回滾等多種運維操作,透過邏輯化、流程化的產品介面展現,方便運維人員操作和監控,提高運維效率。

● 自動化部署

EasyMR 透過規範化的步驟和引數約定製作出產品安裝包,釋出包中的 Schema 檔案中配置了安裝包中所有的服務,包含各服務的配置引數、健康檢查引數,服務之間的依賴關係等。產品部署時可根據 Schema 中的相關配置實現一鍵全自動化部署。

● 儀表盤叢集監控

透過整合開源的 Promethus 和 Grafana,實現對叢集、服務、節點的核心引數監控,並透過靈活形象的儀表盤進行資料展現。包含 CPU 佔用率,RAM 使用率、磁碟空間、IO 讀寫速率等核心引數進行監控,實時掌握叢集、服務、節點的執行狀態,降低運維故障率。同時,支援使用者自建儀表盤及監控項,實現自定義監控項。

● 實時告警

支援實時監控叢集中各元件服務的執行指標,如 CPU、記憶體、磁碟、讀寫 IO 等,並支援簡訊、釘釘、郵件告警通道配置,整合多種第三方訊息外掛。當叢集服務出現異常時,可觸發告警條件,系統將及時通知接收人。

● 強擴充套件性

透過自研的 Easyagent Server 抽象出七大 REST 介面,安裝、啟動、停止、更新、配置修改、解除安裝、執行等與上層應用進行互動,可使 agent 類別和功能可輕鬆無限擴充套件。

● 安全穩定

資料安全、產品安全是大資料產品需要重點考慮的問題。EasyMR 在產品設計中過濾掉 rm、drop 等命令列,防止對資料庫的誤操作,透過更加安全的方式執行相關命令。同時提供服務的滾動重啟、產品的斷電重啟,解決運維時服務不停止執行的場景並節省運維時間。

豐富的大資料元件夯實資料基座

EasyMR 支援 Hadoop2.8.5、Hadoop3.2.1 大資料叢集搭建,支援豐富的大資料元件,使用者可以根據業務需要進行元件的選擇。

那麼,EasyMR 具體支援那些大資料元件呢?

● Yarn

版本支援:

・Yarn 支援 Hadoop 2.8.5、3.2.1

主要功能為 Hadoop 的資源排程器,負責管理整個 Hadoop 叢集的資源(CPU 和記憶體)管理和排程。

● Hdfs

版本支援:

・Hdfs 支援 Hadoop 2.8.5、3.2.1

Hdfs 即 Hadoop 分散式檔案系統,是 Hadoop 的三大基礎元件之一,主要是處理大資料場景下資料的增、刪、改、查、檔案切片等功能。

● Flink

版本支援:

· Flink 1.12

面向資料流處理和批次資料處理的可分散式的開源計算框架。

● Spark

版本支援:

· Spark 2.4.8

基於記憶體的新一代分散式開源大資料框架,支援離線,實時計算,也支援 SQL 語法以及機器學習的處理。

EasyMR 對開源元件的 SQL 的 DDL 能力進行了增強,支援 Add Column 語法。

● Hive

版本支援:

· Hive 2.3.8

· Hive 3.1.2

基於 Hadoop 的一套離線資料處理系統,在 HDFS 之上提供了結構化的表資料的管理能力,提供類 SQL 的查詢語法進行資料分析處理。

● Trino

版本支援:

· Trino 0.359

分散式 SQL 查詢引擎, 用來專門進行高速、實時的資料分析。

EasyMR 對 Trino 的 Connector 進行了增強,支援 Connector 的動態載入;對社群的 Connector 進行了擴充套件,支援星環 Inceptor 外掛。

● Hbase

版本支援:

· Hbase 1.3.5

· Hbase 2.3.4

一款高可靠性、高效能、面向列、可伸縮、實時讀寫的分散式資料庫。

● Zookeeper

版本支援:

· Zookeeper 3.6.2

分散式應用程式協調服務,分散式應用程式可基於它實現同步服務,配置維護和命名服務等,為分散式叢集提供一種可靠、可擴充套件、分散式、可配置的協調機制來統一系統的狀態。

一起進行一次安裝部署吧

其中,簡潔、易上手也是 EasyMR 的一大優勢。EasyMR 既希望幫助企業實現多源資料的高效整合,全量資料的高效分析,同時也希望能夠降低平臺的使用門檻,不會讓上手難度成為影響企業數字化轉型程式的一道壁壘。

所以,和我們一起進行一次大資料產品的安裝部署吧!

建立叢集

EasyMR 支援多叢集的統一管理。

file

基於物理機 / 虛擬機器進行主機叢集建立。

file

「新增主機」,透過賬號接入、命令列接入的方式進行主機節點的新增

file  file

上傳元件安裝包

選擇平臺已有的元件安裝包進行安裝部署,或者透過本地上傳、網路上傳的方式上傳自己的元件安裝包。

file

一鍵快速自動化部署

EasyMR 支援單個產品包的手動部署和多個產品包的自動部署兩種部署方式。

自動部署透過上傳產品線定義元件部署流程,平臺解析篩選相關元件,根據定義的主機角色實現自動資源自動編排,平臺根據依賴關係完成元件的順序部署,大大節省了運維逐個部署、資源配置的時間。

file

產品安裝過程中,我們可以實時看到服務部署進度、檢視部署日誌,服務部署情況一目瞭然。

file

7*24 小時實時監控告警

EasyMR 透過整合開源的 promethus 和 grafana,實現對叢集、服務、節點的核心引數監控,並透過靈活形象的儀表盤進行資料展現。包含 CPU 佔用率,RAM 使用率、磁碟空間、I/O 讀寫速率等核心引數進行監控,實時掌握叢集、服務、節點的執行狀態,降低運維故障率。同時,支援使用者自建儀表盤及監控項,實現自定義監控項。

file

設定告警規則

平臺提供 “簡訊通道、郵件通道、釘釘通道、企業微信通道、自定義通道” 5 種通道配置,使用者根據需要選擇合適通道並填寫通道配置資訊、訊息模板、地址等完成通道配置。

file  file

寫在最後

沒錯,EasyMR 就是這樣一款好用、易用、高效的大資料基礎工具,覆蓋企業服務監控運維、元件的升級與回滾、離線資料分析、流式資料處理等多種應用場景。

未來 EasyMR 將堅持自主創新,不斷進化,將積累的大資料實踐經驗複製到更多的企業。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69995740/viewspace-2915750/,如需轉載,請註明出處,否則將追究法律責任。

相關文章