EMR重磅釋出智慧運維診斷系統(EMR Doctor)——開源大資料平臺運維利器
大資料運維的挑戰—如何保證叢集穩定與執行效率
企業級大資料叢集通常擁有海量的資料儲存、日常運算成幹上萬的計算任務,需要滿足各類上層業務的計算需求。對於這類叢集的運維往往充滿著挑戰:海量的資料、龐雜的元件以及元件之間複雜的依賴關係、對於時效要求的的運算任務,都會提升運維難度。作為支撐平臺,大資料叢集的穩定性和執行效率,會直接影響到公司業務的正常運作和發展。
叢集管理員往往對整體叢集做好了監控運維體系,對於大資料叢集,簡單的監控運維體系能夠幫助管理員在遇到故障的時候定位問題。但對於整體叢集的執行效率,叢集的狀態,透過單純的監控指標很難給出一個全面的解答。
對於大資料叢集,管理員以及 CIO 等更關注以下的內容:
- 叢集內的節點的執行狀態和資源使用狀況;
- 執行在叢集上的服務元件的狀態監控和異常處理,包括 YARN、HDFS、Hive 和 Spark 等;
- 計算任務執行情況和執行效率;
- 整體叢集的健康程度和如何改進。
面對運維挑戰,EMR重磅推出:智慧運維診斷系統(EMR Doctor)
為了提升大資料叢集運維效率,輔助 EMR 使用者完善叢集監控體系。E-MapReduce 推出面向開源大資料叢集的智慧運維診斷系統 E-MapReduce Doctor(簡稱EMR Doctor)。 EMR Doctor 作為開源大資料叢集的管家,會自動每日巡檢叢集。叢集管理員只需要定期檢視健康檢查報告,並且根據報告中的建議對叢集做相應的最佳化調整,即可全域性瞭解叢集的健康狀況和動態走勢,並保持叢集的健康度。
如何使用 EMR Doctor
- 進入 EMR 控制檯健康檢查頁面。
- 。
- 在頂部選單欄處,根據實際情況選擇地域 和資源組 。
- 在 叢集管理 頁面,單擊目標叢集的 叢集ID 。
- 單擊上方的 健康檢查 頁籤。
- 在健康檢查頁面,您可以看到當前叢集的健康檢查報告(T+1)。健康狀態列顯示了該叢集的健康度,您可以點選檢視報告進入檢查報告頁面。
- 健康檢查報告中包含叢集計算資源的總體分析
- 健康檢查報告中包含計算任務從各個維度的排名並給出任務調優建議
- 健康檢查報告中包含對叢集儲存的總體分析,以及大小檔案和冷熱資料的詳細分析
- 健康檢查報告主要分析內容如下,更詳細說明請參見 檢視健康檢查狀態和報告
計算資源分析 |
概述 |
狀態概述 |
需要關注的問題 | ||
計算基礎資訊 |
叢集計算評分 | |
叢集算力記憶體時 | ||
叢集算力CPU時 | ||
計算引擎記憶體算力時 | ||
計算任務資訊 |
計算任務算力記憶體時分析 | |
計算任務評分排行榜 | ||
Spark |
Spark任務算力分析及調優建議 | |
Tez |
Tez任務算力分析及調優建議 | |
MapReduce |
MapReduce任務算力分析及調優建議 | |
HDFS儲存資源分析 (需開啟儲存資源資訊採集開關) |
概述 |
狀態概述 |
需要關注的問題 | ||
HDFS基礎資訊 |
HDFS儲存資源使用趨勢 | |
檔案總數隨時間變化趨勢 | ||
評分趨勢 | ||
HDFS檔案大小分佈 |
HDFS檔案大小比例 | |
一級目錄空檔案個數Top10 | ||
一級目錄極小檔案個數Top10 | ||
一級目錄小檔案個數Top10 | ||
一級目錄中等檔案個數Top10 | ||
一級目錄大檔案個數Top10 | ||
HDFS冷熱資料分佈 |
HDFS冷熱資料 | |
一級目錄極冷資料大小Top10 | ||
一級目錄冷資料大小Top10 | ||
一級目錄溫資料大小Top10 | ||
一級目錄熱資料大小Top10 | ||
HIVE儲存資源分析 (需開啟儲存資源資訊採集開關) |
概述 |
狀態概述 |
需要關注的問題 | ||
Hive基礎資訊 |
儲存趨勢 | |
檔案數量趨勢 | ||
評分趨勢 | ||
Hive庫資訊 |
庫儲存排名 | |
庫檔案總數排名 | ||
庫評分 | ||
Hive表檔案大小分佈 |
Hive表檔案大小分佈比例 | |
Hive表空檔案個數Top10 | ||
Hive表極小檔案個數Top10 | ||
Hive表小檔案個數Top10 | ||
Hive中等檔案個數Top10 | ||
Hive大檔案個數Top10 | ||
Hive冷熱資料分佈 |
Hive冷熱資料分佈 | |
Hive表極冷資料大小Top10 | ||
Hive表冷資料大小Top10 | ||
Hive表溫資料大小Top10 | ||
Hive表熱資料大小Top10 | ||
Hive表儲存格式分佈 |
Hive表儲存格式分佈 | |
Hive表TextFile/Parquet/ORC格式檔案分析 |
如何開通EMR Doctor
開通及使用諮詢問題請見 EMR Doctor常見問題
- EMR-3.39.0之前版本、EMR-5.5.0之前版本,EMR-4.10之前版本 需要手動開通健康檢查功能,請參見 開通指南
- EMR-3.39.0及更高版本,EMR-5.5.0及更高版本,EMR-4.10及更高版本預設提供健康檢查功能, 無需手動開通。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70004426/viewspace-2914825/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 銳捷釋出智慧運維平臺,讓IT運維“樂享其成”運維
- 資料庫簡化運維,智慧診斷助手幫你搞定!資料庫運維
- 阿里巴巴雲原生大資料運維平臺 SREWorks 正式開源阿里大資料運維
- 京東資料庫智慧運維平臺建設之路資料庫運維
- IT統一運維平臺案例運維
- 開源自動化運維平臺 BigOps 1.0.0 釋出運維Go
- 龍蜥利器:系統運維工具 SysAK的雲上應用效能診斷 | 龍蜥技術運維
- 深度解析大快DKadoop大資料運維管理平臺功能OOP大資料運維
- 資料庫的智慧化運維和故障平臺預測資料庫運維
- 阿里雲釋出ECS運維體系,提供原生運維能力阿里運維
- 京東科技全鏈路故障診斷智慧運維實踐運維
- Linux運維人員必會開源運維工具體系Linux運維
- Istio的運維-診斷工具(istio 系列五)運維
- 阿里海量大資料平臺的運維智慧化實踐阿里大資料運維
- Linux 系統日常運維 9 大技能,搞定 90% 日常運維Linux運維
- 重磅釋出 | 博睿資料釋出「中國力量」先進企業IT運維精選案例集運維
- 智慧化IT運維平臺建設方案,基於智和信通運維體系的高敏捷二次開發運維敏捷
- 智和信通,部署智慧交通運維繫統,構建一站式運維監控平臺運維
- 開源交流丨一站式大資料平臺運維管家ChengYing安裝原理剖析大資料運維
- 智慧交通:數智化地鐵大屏管控運維平臺運維
- 智慧運維,雲資料中心運維的未來之路運維
- IT運維和自動化運維以及運維開發有啥不同?能解釋下嗎?運維
- 滴滴夜鶯 Nightingale 釋出 v3 版本,從運維監控演化成了運維平臺運維
- 運維平臺的建設思考-後設資料管理運維
- 中通訊息服務運維平臺實踐(已開源)運維
- 運維平臺的建設思考運維
- [ 智慧運維服務平臺 ]PIGOSS TOC 多資料中心多監控工具的運維解決方案運維Go
- 開源運維堡壘機(跳板機)系統 python運維Python
- IT管理運維工單系統如何賦能新運維運維
- 如何落地資料庫智慧化運維?資料庫運維
- 助力企業提升運維效率 螞蟻數科釋出業務智慧可觀測平臺運維
- 便捷、高效、智慧—從運維視角看星環科技大資料基礎平臺TDH運維大資料
- IT運維人員的神兵利器運維
- 運維利器萬能的 strace運維
- 運維監控利器nagios運維iOS
- 運維利器:萬能的 strace運維
- 重磅釋出|博睿資料2023年度精選案例集—— IT運維之光運維
- 運維審計系統運維