看完這篇文章,你就明白運維監控體系了

網路通訊頻道發表於2022-11-14

總結歸納運維工作中的監控內容。

監控目標

明白監控的重要性以及使用監控要實現的業務目標

通常包括以下三點:

  • 對目標系統進行實時監控

  • 監控可以實時反饋目標系統的當前狀態 目標系統硬體、軟體、業務是否正常、目前處於何種狀態

  • 保證目標系統可靠性,業務可以持續穩定執行 有問題第一時間反饋出來,便於運維人員處理

監控方法

  • 瞭解監控物件 例如:CPU如何工作?

  • 效能基準指標 例如: CPU使用率、負載、使用者態、核心態、上下文切換

  • 報警閾值定義 例如: CPU負載高的定義,核心態、使用者態多少算高

  • 故障處理流程 如何更高效處理故障的流程

監控核心

  • 發現問題

  • 定位問題

  • 解決問題

  • 總結問題,對故障原因及問題防範進行歸納總結,避免以後重複出現

監控工具

  • 老牌監控

  • Cacti

  • Nagios

  • smokeping

  • 流行監控

  • Zabbix

  • OpenFalcon

  • Prometheus+Grafana

  • 滴滴開源夜鶯Nightingale

  • smartping(專用於網路監控)

  • LEPUS天兔(專用於監控資料庫)

  • 自研

  • 第三方監控

  • 監控寶

  • 聽雲

  • newrelic

監控流程

  • 採集

透過SNMP、Agent、ICMP、SSH、IPMI等對系統進行資料採集

  • 儲存

各類資料庫服務,MySQL、PostgreSQL

  • 分析

提供圖形及時間線情況資訊,方便我們定位故障所在

  • 展示

指標資訊、指標趨勢展示

  • 報警

電話、郵件、微信、簡訊、報警升級機制

  • 處理

故障級別判定,找響應人員進行快速處理

監控指標

硬體監控

  • 機器硬體:CPU溫度、物理磁碟、虛擬磁碟、主機板溫度、磁碟陣列

IPMI工具無法獲取到硬體的狀態,可以藉助MegaCli工具探測Raid磁碟佇列狀態

https://www.ibm.com/developerworks/cn/linux/l-ipmi/

系統監控

  • 主機存活

  • CPU、記憶體、硬碟、使用率

  • inode

  • 負載

  • 網路卡出入頻寬

  • TCP連線數

  • 磁碟讀寫、只讀

應用監控

MySQL

  • 服務可用性

  • 記憶體使用率

  • 磁碟使用

  • 主從不同步及延遲

  • 備份情況

  • 連線數

Redis、Redis Cluster

  • 負載

  • 記憶體使用率

  • 連線數量

  • qps

Nginx

  • 狀態碼

  • 連線狀態資訊

  • RabbitMQ

  • PHP-FPM

  • OpenLDAP

  • 接入IP

  • 呼叫次數

  • Zimbra

  • OpenVPN

  • 版本資訊、當前線上

  • 使用者、分配IP、客戶端連線IP、透過IP獲取地址位置、接收傳送流量 連線時間 時長 連線ID

  • ELK

  • Graylog

  • GitLab

  • Jenkins

  • MongoDB

  • HAproxy

網路監控

  • 網路質量

  • 公網出口

  • 專線頻寬

  • 網路裝置

流量分析

日誌監控

安全監控

  • URL、API監控

  • 自研

  • 阿里雲方案

效能監控(APM)java|php|go|nodejs|分散式鏈路追蹤

  • PinPoint

  • Zipkin

  • SkyWalking

  • CAT、Jaeger

業務監控

電商業務為例:

  • 每分鐘產生多少訂單

  • 每分鐘註冊多少使用者

  • 每分鐘多少活躍使用者

  • 每天有多少推廣活動

  • 推廣活動引入多少使用者

  • 推廣活動引入多少流量

  • 推廣活動引入多少利潤

其他

  • SSL證照監控

  • 存活性 程式是否還在,埠監聽、Log滾動

  • 健康指標 MQ訊息堆積量

  • 介面監控 API成功率,延遲情況,QPS等等

監控報警

  • 郵件

  • 簡訊

  • 釘釘、微信、企業微信等其他即時通訊軟體

  • 電話

報警處理

故障自愈: 伺服器當機自動啟動。利用軟體機制supervisor,systemd或者自定義指令碼實現

綜合監控

硬體監控

透過SNMP來進行路由器交換機的監控、其他內容使用IPMI實現。如果都是公有云,可以忽略這部分內容。案例:Open-Falcon監控H3C-ER3260G2路由器

系統監控

服務監控

  • 服務自帶

  • Nginx自帶status模組

  • PHP相應status模組

  • MySQL利用percona官方工具進行監控

  • 透過自定義方法獲取資料

  • MySQL show global status xxx;

  • Redis info指令資訊

  • 網路監控(混合雲架構)

  • smokeping

  • smartping

  • 安全監控

  • 雲服務直接用雲安全組即可,或者補充本機iptables

  • 硬體防火牆

  • Web服務使用Nginx+Lua實現Web層面的防火牆,或者Openresty

  • 日誌監控

ELK、Graylog實現異常日誌,錯誤日誌關鍵字的監控

  • 業務監控

確定監控指標,監控起來,業務不同各不相同

  • 流量分析

建議使用百度統計,google統計,商業,研發嵌入程式碼實現。

或者使用piwik

  • 視覺化

dashboard

自動化監控

透過API,批次操作

監控總結

完整的監控系統,需要對業務有詳盡的瞭解,軟體只是手段。

來自 “ https://zhuanlan.zhihu.com/p/342809838 ”, 原文作者:聆聽幸福;原文連結:https://zhuanlan.zhihu.com/p/342809838,如有侵權,請聯絡管理員刪除。

相關文章