EMR重磅釋出智慧運維診斷系統(EMR Doctor)——開源大資料平臺運維利器

阿里雲大資料AI技術發表於2022-09-15

大資料運維的挑戰—如何保證叢集穩定與執行效率

企業級大資料叢集通常擁有海量的資料儲存、日常運算成幹上萬的計算任務,需要滿足各類上層業務的計算需求。對於這類叢集的運維往往充滿著挑戰:海量的資料、龐雜的元件以及元件之間複雜的依賴關係、對於時效要求的的運算任務,都會提升運維難度。作為支撐平臺,大資料叢集的穩定性和執行效率,會直接影響到公司業務的正常運作和發展。

1662540673450-2fda9e17-b918-4ecc-b0ef-9b51e95c7157.png

叢集管理員往往對整體叢集做好了監控運維體系,對於大資料叢集,簡單的監控運維體系能夠幫助管理員在遇到故障的時候定位問題。但對於整體叢集的執行效率,叢集的狀態,透過單純的監控指標很難給出一個全面的解答。


對於大資料叢集,管理員以及 CIO 等更關注以下的內容:

  • 叢集內的節點的執行狀態和資源使用狀況;
  • 執行在叢集上的服務元件的狀態監控和異常處理,包括 YARN、HDFS、Hive 和 Spark 等;
  • 計算任務執行情況和執行效率;
  • 整體叢集的健康程度和如何改進。



面對運維挑戰,EMR重磅推出:智慧運維診斷系統(EMR Doctor)

為了提升大資料叢集運維效率,輔助 EMR 使用者完善叢集監控體系。E-MapReduce 推出面向開源大資料叢集的智慧運維診斷系統 E-MapReduce Doctor(簡稱EMR Doctor)。 EMR Doctor 作為開源大資料叢集的管家,會自動每日巡檢叢集。叢集管理員只需要定期檢視健康檢查報告,並且根據報告中的建議對叢集做相應的最佳化調整,即可全域性瞭解叢集的健康狀況和動態走勢,並保持叢集的健康度。


如何使用 EMR Doctor

  1. 進入 EMR 控制檯健康檢查頁面。
    1. 在頂部選單欄處,根據實際情況選擇地域 和資源組
    2. 叢集管理 頁面,單擊目標叢集的 叢集ID
    3. 單擊上方的 健康檢查 頁籤。


  1. 在健康檢查頁面,您可以看到當前叢集的健康檢查報告(T+1)。健康狀態列顯示了該叢集的健康度,您可以點選檢視報告進入檢查報告頁面。

1111.gif


  1. 健康檢查報告中包含叢集計算資源的總體分析

3333.gif


  1. 健康檢查報告中包含計算任務從各個維度的排名並給出任務調優建議

2222.gif


  1. 健康檢查報告中包含對叢集儲存的總體分析,以及大小檔案和冷熱資料的詳細分析

4444.gif


  1. 健康檢查報告主要分析內容如下,更詳細說明請參見 檢視健康檢查狀態和報告

計算資源分析

概述

狀態概述

需要關注的問題

計算基礎資訊

叢集計算評分

叢集算力記憶體時

叢集算力CPU時

計算引擎記憶體算力時

計算任務資訊

計算任務算力記憶體時分析

計算任務評分排行榜

Spark

Spark任務算力分析及調優建議

Tez

Tez任務算力分析及調優建議

MapReduce

MapReduce任務算力分析及調優建議

HDFS儲存資源分析

(需開啟儲存資源資訊採集開關)

概述

狀態概述

需要關注的問題

HDFS基礎資訊

HDFS儲存資源使用趨勢

檔案總數隨時間變化趨勢

評分趨勢

HDFS檔案大小分佈

HDFS檔案大小比例

一級目錄空檔案個數Top10

一級目錄極小檔案個數Top10

一級目錄小檔案個數Top10

一級目錄中等檔案個數Top10

一級目錄大檔案個數Top10

HDFS冷熱資料分佈

HDFS冷熱資料

一級目錄極冷資料大小Top10

一級目錄冷資料大小Top10

一級目錄溫資料大小Top10

一級目錄熱資料大小Top10

HIVE儲存資源分析

(需開啟儲存資源資訊採集開關)

概述

狀態概述

需要關注的問題

Hive基礎資訊

儲存趨勢

檔案數量趨勢

評分趨勢

Hive庫資訊

庫儲存排名

庫檔案總數排名

庫評分

Hive表檔案大小分佈

Hive表檔案大小分佈比例

Hive表空檔案個數Top10

Hive表極小檔案個數Top10

Hive表小檔案個數Top10

Hive中等檔案個數Top10

Hive大檔案個數Top10

Hive冷熱資料分佈

Hive冷熱資料分佈

Hive表極冷資料大小Top10

Hive表冷資料大小Top10

Hive表溫資料大小Top10

Hive表熱資料大小Top10

Hive表儲存格式分佈

Hive表儲存格式分佈

Hive表TextFile/Parquet/ORC格式檔案分析



如何開通EMR Doctor

開通及使用諮詢問題請見 EMR Doctor常見問題

  • EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本 需要手動開通健康檢查功能,請參見 開通指南
  • EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本預設提供健康檢查功能, 無需手動開通


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004426/viewspace-2914825/,如需轉載,請註明出處,否則將追究法律責任。

相關文章