運維監控指標彙總
總結歸納運維工作中的監控內容。
監控目標
明白監控的重要性以及使用監控要實現的業務目標
通常包括以下三點:
-
對目標系統進行實時監控
-
監控可以實時反饋目標系統的當前狀態 目標系統硬體、軟體、業務是否正常、目前處於何種狀態
-
保證目標系統可靠性,業務可以持續穩定執行 有問題第一時間反饋出來,便於運維人員處理
監控方法
-
瞭解監控物件 例如:CPU如何工作? -
效能基準指標 例如: CPU使用率、負載、使用者態、核心態、上下文切換 -
報警閾值定義 例如: CPU負載高的定義,核心態、使用者態多少算高 -
故障處理流程 如何更高效處理故障的流程
監控核心
-
發現問題 -
定位問題 -
解決問題 -
總結問題,對故障原因及問題防範進行歸納總結,避免以後重複出現
監控工具
-
老牌監控
-
Cacti
-
Nagios
-
smokeping
-
流行監控
-
Zabbix
-
OpenFalcon
-
Prometheus+Grafana
-
滴滴開源夜鶯Nightingale
-
smartping(專用於網路監控)
-
LEPUS天兔(專用於監控資料庫)
-
自研
-
第三方監控
-
監控寶
-
聽雲
-
newrelic
監控流程
-
採集
-
儲存
-
分析
-
展示
-
報警
-
處理
監控指標
硬體監控
-
機器硬體:CPU溫度、物理磁碟、虛擬磁碟、主機板溫度、磁碟陣列
IPMI工具無法獲取到硬體的狀態,可以藉助MegaCli工具探測Raid磁碟佇列狀態
https://www.ibm.com/developerworks/cn/linux/l-ipmi/
系統監控
-
主機存活 -
CPU、記憶體、硬碟、使用率 -
inode -
負載 -
網路卡出入頻寬 -
TCP連線數 -
磁碟讀寫、只讀
應用監控
MySQL
-
服務可用性
-
記憶體使用率
-
磁碟使用
-
主從不同步及延遲
-
備份情況
-
連線數
Redis、Redis Cluster
-
負載
-
記憶體使用率
-
連線數量
-
qps
Nginx
-
狀態碼
-
連線狀態資訊
-
RabbitMQ
-
PHP-FPM
-
OpenLDAP
-
接入IP
-
呼叫次數
-
Zimbra
-
OpenVPN
-
版本資訊、當前線上
-
使用者、分配IP、客戶端連線IP、透過IP獲取地址位置、接收傳送流量 連線時間 時長 連線ID
-
ELK
-
Graylog
-
GitLab
-
Jenkins
-
MongoDB
-
HAproxy
網路監控
-
網路質量
-
公網出口
-
專線頻寬
-
網路裝置
流量分析
日誌監控
安全監控
-
URL、API監控
-
自研
-
阿里雲方案
效能監控(APM)java|php|go|nodejs|分散式鏈路追蹤
-
PinPoint
-
Zipkin
-
SkyWalking
-
CAT、Jaeger
業務監控
電商業務為例:
-
每分鐘產生多少訂單
-
每分鐘註冊多少使用者
-
每分鐘多少活躍使用者
-
每天有多少推廣活動
-
推廣活動引入多少使用者
-
推廣活動引入多少流量
-
推廣活動引入多少利潤
其他
-
SSL證照監控
-
存活性 程式是否還在,埠監聽、Log滾動
-
健康指標 MQ訊息堆積量
-
介面監控 API成功率,延遲情況,QPS等等
監控報警
-
郵件
-
簡訊
-
釘釘、微信、企業微信等其他即時通訊軟體
-
電話
報警處理
故障自愈: 伺服器當機自動啟動。利用軟體機制supervisor,systemd或者自定義指令碼實現
綜合監控
硬體監控
透過SNMP來進行路由器交換機的監控、其他內容使用IPMI實現。如果都是公有云,可以忽略這部分內容。案例:Open-Falcon監控H3C-ER3260G2路由器
系統監控
服務監控
-
服務自帶
-
Nginx自帶status模組
-
PHP相應status模組
-
MySQL利用percona官方工具進行監控
-
透過自定義方法獲取資料
-
MySQL show global status xxx;
-
Redis info指令資訊
-
網路監控(混合雲架構)
-
smokeping
-
smartping
-
安全監控
-
雲服務直接用雲安全組即可,或者補充本機iptables
-
硬體防火牆
-
Web服務使用Nginx+Lua實現Web層面的防火牆,或者Openresty
-
日誌監控
ELK、Graylog實現異常日誌,錯誤日誌關鍵字的監控 -
業務監控
確定監控指標,監控起來,業務不同各不相同 -
流量分析
建議使用百度統計,google統計,商業,研發嵌入程式碼實現。或者使用piwik
-
視覺化
dashboard -
自動化監控
透過API,批次操作
監控總結
完整的監控系統,需要對業務有詳盡的瞭解,軟體只是手段。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/70013542/viewspace-2946396/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- Orabbix監控指標指標
- EMQ 監控指標MQ指標
- mongodb 監控指標MongoDB指標
- 運維監控工具運維
- Java程式監控指標Java指標
- 11款企業網路運維監控軟體彙總介紹-行雲管家運維
- 無監控,不運維:解讀企業全棧式監控運維運維全棧
- dble運維命令彙總運維
- Linux基本運維彙總Linux運維
- c語言指標彙總C語言指標
- 如何做好運維監控?運維
- 系統監控&JVM監控指標資料查詢JVM指標
- MYSQL和SQLServer效能監控指標MySqlServer指標
- 微服務:指標和健康監控微服務指標
- ORACLE OGG運維及日常監控Oracle運維
- beta版 tomcat 應用監控指標Tomcat指標
- LED螢幕監控運維管理方案運維
- 分層運維自動化監控運維
- 運維文件:網站監控系統運維網站
- 分散式架構的監控與指標分散式架構指標
- 04、MySQL Case-MySQL常用監控指標MySql指標
- 基於 prometheus 的微服務指標監控Prometheus微服務指標
- 如何高效利用 Grafana 監控分析 TiDB 指標GrafanaTiDB指標
- 徒手教你製作運維監控大屏運維
- 運維文件:伺服器監控系統運維伺服器
- 運維文件:系統監控及告警配置運維
- 使用Prometheus監控Linux系統各項指標PrometheusLinux指標
- Linux運維常用的20個命令彙總!Linux運維
- 運維人員常用的Linux命令彙總運維Linux
- Redis日常運維-常用命令彙總Redis運維
- Linux 運維必備 150 個命令彙總Linux運維
- AI 模型常見的評價指標彙總AI模型指標
- 新晉總監生存指南二——建立指標指標
- 灌漿機遠端監控運維繫統運維
- 智慧檔案館網路監控運維策略運維
- NETCONF工具與智慧化網路監控運維運維
- 運維監控如何做成 BATJ 的水準運維BAT
- 運維文件 - 伺服器效能監控系統運維伺服器