【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

路邊兩盞燈發表於2021-01-05

原文網址 : https://www.cnblogs.com/lulight/p/14235059.html

Cloud伺服器

問題描述

雲服務(Cloud Services)在使用期間，頻繁發生崩潰事件，在崩潰期間，檢視CPU負載為100%，而且同時伴隨以下情況：

部署在雲服務上的應用無法訪問
遠端連線雲服務例項（RDP）訪問黑屏，無法載入或Busy狀態

排查方案

在問題的關鍵點中，CPU負載達到了100%。所以首先需要排查如下幾點：

當前雲服務是單例項還是多例項?
例項的機型是小還是大？是什麼型號的機器呢？
例項中執行的服務是不是非常耗費CPU？
CPU出現滿負載的情況是否有時間規律？
部署在雲服務上的應用請求量是否與CPU100%的規律一致?

針對以上每一點，採用不同的解決方案。

一：修改雲服務的例項數量

有多種方式修改雲服務例項的數量。在門戶中直接修改或修改雲服務配置檔案ServiceConfiguration.Cloud.cscfg中<Instances count="1" />數量

雲服務門戶 -> 配置

修改ServiceConfiguration.Cloud.cscfg後重新發布

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

二：修改雲服務中例項機型的大小和型號

ServiceDefinition.csdef 檔案指定 Azure 用於配置雲服務的設定，在其中可以指定A，D，E等不同的系列機型。修改完成後重新打包雲服務並進行部署。

修改方式如下：

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

三：檢視例項中具體是那個程式消耗CPU最高及時間規律

在CPU高的情況下RDP到當前例項上，開啟工作管理員，到程式選項，看一下是哪個程式佔用的CPU比較高，這是當前直觀的方式之一。其他方式還包含：

開啟Performance Monitor並設定抓取程式，詳細步驟參考文章：【Azure微服務 Service Fabric 】在SF節點中開啟Performance Monitor及設定抓取程式的方式
在Azure中開啟Application Insights收集 Azure 雲服務的效能計數器, 詳細步驟參考文章：Application Insights

Performance Monitor 配置頁面：

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

四：當CPU消耗與部署在雲服務中的應用相關時，通過獲取應用DUMP檔案來判斷CPU的具體消耗

當判斷出是由於某個程式而引起的CPU消耗過高，但是需要進一步分析改程式為何會佔用如此多資源時。就需要藉助抓取dump和分析dump的工具，如：Procdump(抓取)，DebugDiag(分析)

Procdump抓取Dump的執行下面的命令如下：

procdump.exe -ma 9332 -c 90 -s 30 -n 3

引數說明：

-ma: 表示抓full dump

-c: 設定CPU的閾值，比如例子中閾值是90%

-s: CPU 連續超過閾值的時間長度，比如例子中是30s,即只有在這個程式連續佔用CPU 超多90%且持續30s才會抓dump;

-n: 抓dump的數量，比如3 

9332 是程式id

參考資料

配置雲服務的大小: https://docs.azure.cn/zh-cn/cloud-services/cloud-services-sizes-specs#configure-sizes-for-cloud-services

服務為什麼會崩潰
2021-04-06
【Azure 雲服務】如何從Azure Cloud Service中獲取專案的部署檔案
2021-02-23
Cloud
【Azure 雲服務】Azure Cloud Service (Extended Support) 雲服務開啟診斷日誌外掛 WAD Extension (Windows Azure Diagnostic) 無法正常工作的原因
2022-04-08
CloudWindows
Qt程式繼承QApplication發生崩潰的原因
2021-09-09
QT繼承APP
域賬戶頻繁鎖定排查
2024-10-10
記在Linux上定位後臺服務偶發崩潰的問題
2020-11-17
Linux
iOS | 零程式碼快速整合AGC崩潰服務
2020-11-05
iOSGC
Android | 零程式碼快速整合AGC崩潰服務
2020-10-27
AndroidGC
【Azure 雲服務】為Azure雲服務配置上自簽名的SSL證書步驟
2022-12-27
REDIS主從頻繁切換事件排查
2020-06-05
Redis事件
Now冥想：崩潰服務和效能服務助力提升應用質量
2021-12-28
win10系統下資源管理器頻繁崩潰重啟如何解決
2020-05-02
Win10
A站大流量導致服務崩潰異常分析
2021-07-15
React Native | 零程式碼快速整合AGC崩潰服務
2021-01-11
React NativeGC
服務限頻限次的場景方案
2019-04-03
Flutter平臺 | 零程式碼快速整合AGC崩潰服務
2021-01-13
FlutterGC
Cordova平臺 | 零程式碼快速整合AGC崩潰服務
2021-01-07
GC
Cocos平臺 | 零程式碼快速整合AGC崩潰服務
2021-01-08
GC
Spring Cloud Netflix—服務發現：Eureka伺服器
2018-03-02
SpringCloud伺服器
記一次線上崩潰問題的排查過程
2021-11-10
記一次生產頻繁發生FullGC問題
2023-03-16
GC
iOS開發的底線-崩潰
2019-03-04
iOS
【Azure 雲服務】Azure Cloud Service 建立 Alert 指南 [基於舊版 Alert(Classic)不可用情況下]
2021-05-25
Cloud
Android12版本鬧鐘服務崩潰問題
2023-12-06
Android
伺服器站點崩潰的原因有哪些
2023-02-14
伺服器
Android7.1.1Toast崩潰解決方案
2018-09-10
AndroidAST
CrashSight異常崩潰管理解決方案
2022-04-22
測試必存！12種網站崩潰的原因及排查方法！
2024-04-08
網站
告別伺服器崩潰，華為雲ECS有何優勢
2022-10-14
伺服器
[翻譯]Java排錯指南 - 5 確定崩潰何地發生
2018-12-05
Java
WWDC 2018：理解崩潰以及崩潰日誌
2018-06-11
一個不相容的 JS 方法，讓你的網站發生崩潰
2021-01-21
JS網站
突發:當機崩潰OOM
2024-10-14
OOM
伺服器崩潰前的資料拯救實踐
2023-10-12
伺服器
伺服器停機或者崩潰的原因有哪些
2022-11-10
伺服器
8 Apply Services 應用服務
2020-03-23
APP
app 崩潰的原因
2024-03-12
APP
spring cloud微服務分散式雲架構（一）-spring cloud 服務註冊與發現
2019-03-21
SpringCloud微服務分散式架構

【Azure Cloud Services】雲服務頻繁發生伺服器崩潰的排查方案

問題描述

排查方案

一：修改雲服務的例項數量

二：修改雲服務中例項機型的大小和型號

三：檢視例項中具體是那個程式消耗CPU最高及時間規律

四：當CPU消耗與部署在雲服務中的應用相關時，通過獲取應用DUMP檔案來判斷CPU的具體消耗

參考資料

相關文章