先於使用者發現服務故障-內網可用性監控

裴旻發表於2018-05-22

原文網址 : https://flycode.co/archives/184481

背景：

任何服務都避免不了出現以下問題，你的使用者訪問不了你的服務或者站點，使用者偶爾碰到5xx，服務響應延遲比較慢，某臺應用程式掛掉，導致訪問時好時壞。問題在於，_你是否要等你的使用者來告訴你，你的程式出問題了_。

出問題的原因很多，應用程式掛了，java應用大GC導致應用不響應，應用依賴的rds，redis響應慢或者乾脆不響應。應用依賴的其他http服務響應慢或者不響應等。

困難：

然而，當企業上雲後，應用程式的執行環境也變得複雜。
也許你的應用程式跑在了ecs上，可能是在vpc的內網環境裡，無法有效的觸達到你的應用程式。
也許你的應用程式跑在docker容器裡。
也許你的應用程式是直接run在serverless架構裡。
也許你懶於自己維護了一個zabbix，需要付出較大的維護成本。

以上這些，都讓應用程式的執行時可用性監控變得困難。

另外，出問題的原因很多，應用程式掛了，java應用大GC導致應用不響應，應用依賴的rds，redis響應慢或者乾脆不響應。應用依賴的其他http服務響應慢或者不響應等。

如何用一個方案，簡單的把這些全部監控起來？出問題的時候及時的告訴應用開發人員？

解決方案：

可用性監控

雲監控推出了應用可用性監控，可以通過在控制檯建立一個可用性監控任務，從分組內選擇部分機器，發起到本地127.0.0.1或者到內網元件（rds，oss，redis等），或者是遠端api的探測任務，並將探測結果反饋到雲監控，同時使用者可以對探測結果設定一個報警，當探測不通或者不符合預期時，通過簡訊，郵件，釘釘，訊息，回撥等方式，在出問題的第一時間通知給你，讓你在第一時間作出反應。

目前支援的探測型別包括：ping，telnet，http(s)三種，其中http支援對返回結果做簡單檢驗，判斷是否包括某些關鍵字等。

可用性探測示意圖:

image.png | center | 832x435

具體步驟：

建立分組，例項資源加入分組，並給分組指定相關人（管理分組，接收報警通知）

image.png | center | 776x564

image.png | center | 776x564

建立應用本身的可用性監控

image.png | center | 832x605

image.png | center | 832x605

建立應用對rds/redis的依賴監控

前提是，需要將依賴也加入到本應用分組內。

這個監控只能對應用分組的資源進行監控。

image.png | center | 832x548

報警通知

目前雲監控支援簡訊，釘釘，郵件，訊息MNS，公網http回撥等多種通知方式。同時支援報警後靜默多長時間再次通知，在哪個時間段內生效（也許白天你上班時間自己盯著，不希望白天發簡訊）。

另外，雲監控提供每月1000條簡訊免費使用。在下個版本，大概3月底，雲監控還將支援電話報警。

到這裡，安全可靠的應用可用性監控就配置好了，如果應用發生問題，比如程式掛掉，埠不響應，響應延遲等，就可以及時得到通知了。

最後

同時，雲監控還支援

主機監控（提供秒級的豐富的監控指標，支援非阿里雲主機，打通線上線下），
雲服務監控（包括阿里雲上30+商業化產品），
站點監控，
日誌監控，
自定義監控，
錯誤事件監控，
豐富靈活的自定義監控大盤，
支援跨產品跨地域的應用資源分組

等豐富完善的端到端的監控功能棧。相信一定可以解決您的雲上監控需求。

雲監控地址：https://www.aliyun.com/product/jiankong?spm=5176.8142029.388261.412.3836dbccqatHrh

image.png | center | 832x477

相關文章

談服務可用性監控
2020-12-24
python監控MongoDB服務程序，故障釘釘告警
2024-04-22
PythonMongoDB
Prometheus監控神器-服務發現篇（二）
2020-09-07
Prometheus
如何監控docker容器內的服務程式
2020-04-22
Docker
服務監控工具
2024-12-07
go-kit 微服務服務監控 (prometheus 實現)
2020-02-12
Go微服務Prometheus
如何使用zabbix內建 key 配置windows服務監控
2024-09-11
Windows
使用Prometheus監控Golang服務-基於YoyoGo框架
2020-08-11
PrometheusGolang框架
Ubuntu下監控服務
2020-04-16
Ubuntu
Prometheus+Grafana實現服務效能監控：windows主機監控、Spring Boot監控、Spring Cloud Alibaba Seata監控
2023-11-02
PrometheusGrafanaWindowsSpring BootCloud
SpringBoot系列——admin服務監控
2021-06-17
Spring Boot
APM效能監控軟體的監控型別服務及監控流程
2022-06-08
型別
Grafana+Prometheus 監控 MySql服務
2018-08-13
GrafanaPrometheusMySql
prometheus監控golang服務實踐
2020-11-17
PrometheusGolang
在Linux中，如何進行網路服務的監控？
2024-06-01
Linux
SpringBoot快速整合SpringBootAdmin管控臺監控服務
2021-09-09
Spring Boot
Conntrack 監控，別等故障了再回來加監控
2024-06-12
基於阿里雲日誌服務快速打造簡版業務監控看板
2020-11-08
阿里
shell監控服務程式是否啟動
2018-09-17
搭建私有的前端監控服務: sentry
2018-06-15
前端
當基礎設施故障後，聲網 SD-RTN™ 如何保障 RTE 服務的高可用性
2022-01-17
基於Nginx+Keepalived的LB服務監控（郵件報警）
2018-09-20
Nginx
基於工業物聯網的中藥生產過程監控和故障監測系統
2023-05-05
「服務端」node服務的監控預警系統架構
2019-03-03
服務端架構
普後設資料服務監控解密
2019-07-04
解密
shell指令碼：監控MySQL服務是否正常
2021-09-09
指令碼MySql
分散式監控系統之Zabbix網路發現
2020-11-22
分散式
在 Node 服務中發生 OOM 時，如何監控記憶體？
2020-07-03
OOM記憶體
如何實現在家訪問公司內網服務
2020-09-09
內網
網站內容監控工具：Website Watchman for Mac
2022-07-14
網站WebMac
高可用服務之Keepalived利用指令碼實現服務的可用性檢測
2020-09-14
指令碼
服務端思維指南 | 常用效能監控指南
2018-09-16
服務端
shell指令碼監控啟動停止weblogic服務
2018-09-16
指令碼Web
一文聊透如何監控 Kafka 服務
2023-05-11
Kafka
硬貨！Zabbix監控AIX系統服務案例
2024-10-10
AI
Java服務端監控：Prometheus與Grafana的整合
2024-09-01
Java服務端PrometheusGrafana
【合集】Linux運維常用的服務監控工具
2022-02-14
Linux運維
運維架構服務監控Open-Falcon
2021-09-09
運維架構