看完這篇文章,你就明白運維監控體系了
總結歸納運維工作中的監控內容。
監控目標
明白監控的重要性以及使用監控要實現的業務目標
通常包括以下三點:
-
對目標系統進行實時監控
-
監控可以實時反饋目標系統的當前狀態 目標系統硬體、軟體、業務是否正常、目前處於何種狀態
-
保證目標系統可靠性,業務可以持續穩定執行 有問題第一時間反饋出來,便於運維人員處理
監控方法
-
瞭解監控物件 例如:CPU如何工作?
-
效能基準指標 例如: CPU使用率、負載、使用者態、核心態、上下文切換
-
報警閾值定義 例如: CPU負載高的定義,核心態、使用者態多少算高
-
故障處理流程 如何更高效處理故障的流程
監控核心
-
發現問題
-
定位問題
-
解決問題
-
總結問題,對故障原因及問題防範進行歸納總結,避免以後重複出現
監控工具
-
老牌監控
-
Cacti
-
Nagios
-
smokeping
-
流行監控
-
Zabbix
-
OpenFalcon
-
Prometheus+Grafana
-
滴滴開源夜鶯Nightingale
-
smartping(專用於網路監控)
-
LEPUS天兔(專用於監控資料庫)
-
自研
-
第三方監控
-
監控寶
-
聽雲
-
newrelic
監控流程
-
採集
透過SNMP、Agent、ICMP、SSH、IPMI等對系統進行資料採集
-
儲存
各類資料庫服務,MySQL、PostgreSQL
-
分析
提供圖形及時間線情況資訊,方便我們定位故障所在
-
展示
指標資訊、指標趨勢展示
-
報警
電話、郵件、微信、簡訊、報警升級機制
-
處理
故障級別判定,找響應人員進行快速處理
監控指標
硬體監控
-
機器硬體:CPU溫度、物理磁碟、虛擬磁碟、主機板溫度、磁碟陣列
IPMI工具無法獲取到硬體的狀態,可以藉助MegaCli工具探測Raid磁碟佇列狀態
https://www.ibm.com/developerworks/cn/linux/l-ipmi/
系統監控
-
主機存活
-
CPU、記憶體、硬碟、使用率
-
inode
-
負載
-
網路卡出入頻寬
-
TCP連線數
-
磁碟讀寫、只讀
應用監控
MySQL
-
服務可用性
-
記憶體使用率
-
磁碟使用
-
主從不同步及延遲
-
備份情況
-
連線數
Redis、Redis Cluster
-
負載
-
記憶體使用率
-
連線數量
-
qps
Nginx
-
狀態碼
-
連線狀態資訊
-
RabbitMQ
-
PHP-FPM
-
OpenLDAP
-
接入IP
-
呼叫次數
-
Zimbra
-
OpenVPN
-
版本資訊、當前線上
-
使用者、分配IP、客戶端連線IP、透過IP獲取地址位置、接收傳送流量 連線時間 時長 連線ID
-
ELK
-
Graylog
-
GitLab
-
Jenkins
-
MongoDB
-
HAproxy
網路監控
-
網路質量
-
公網出口
-
專線頻寬
-
網路裝置
流量分析
日誌監控
安全監控
-
URL、API監控
-
自研
-
阿里雲方案
效能監控(APM)java|php|go|nodejs|分散式鏈路追蹤
-
PinPoint
-
Zipkin
-
SkyWalking
-
CAT、Jaeger
業務監控
電商業務為例:
-
每分鐘產生多少訂單
-
每分鐘註冊多少使用者
-
每分鐘多少活躍使用者
-
每天有多少推廣活動
-
推廣活動引入多少使用者
-
推廣活動引入多少流量
-
推廣活動引入多少利潤
其他
-
SSL證照監控
-
存活性 程式是否還在,埠監聽、Log滾動
-
健康指標 MQ訊息堆積量
-
介面監控 API成功率,延遲情況,QPS等等
監控報警
-
郵件
-
簡訊
-
釘釘、微信、企業微信等其他即時通訊軟體
-
電話
報警處理
故障自愈: 伺服器當機自動啟動。利用軟體機制supervisor,systemd或者自定義指令碼實現
綜合監控
硬體監控
透過SNMP來進行路由器交換機的監控、其他內容使用IPMI實現。如果都是公有云,可以忽略這部分內容。案例:Open-Falcon監控H3C-ER3260G2路由器
系統監控
服務監控
-
服務自帶
-
Nginx自帶status模組
-
PHP相應status模組
-
MySQL利用percona官方工具進行監控
-
透過自定義方法獲取資料
-
MySQL show global status xxx;
-
Redis info指令資訊
-
網路監控(混合雲架構)
-
smokeping
-
smartping
-
安全監控
-
雲服務直接用雲安全組即可,或者補充本機iptables
-
硬體防火牆
-
Web服務使用Nginx+Lua實現Web層面的防火牆,或者Openresty
-
日誌監控
ELK、Graylog實現異常日誌,錯誤日誌關鍵字的監控
-
業務監控
確定監控指標,監控起來,業務不同各不相同
-
流量分析
建議使用百度統計,google統計,商業,研發嵌入程式碼實現。
或者使用piwik
-
視覺化
dashboard
自動化監控
透過API,批次操作
監控總結
完整的監控系統,需要對業務有詳盡的瞭解,軟體只是手段。
來自 “ https://zhuanlan.zhihu.com/p/342809838 ”, 原文作者:聆聽幸福;原文連結:https://zhuanlan.zhihu.com/p/342809838,如有侵權,請聯絡管理員刪除。
相關文章
- 面試裝逼系列|這篇文章,讓運維監控不再成為你的短板!面試運維
- 運維到底是幹什麼的?看完這篇你就懂了運維
- 一篇文章讓你明白運維發展方向運維
- 網站CDN加速是什麼? 看完這篇你就明白了!網站
- 還不懂Redis?看完這個故事就明白了!Redis
- 看完這篇文章你可能就清楚的知道 ZooKeeper的 概念了
- 雲原生技術是什麼?看完這篇文章你就懂了
- MySQL索引-B+樹(看完你就明白了)MySql索引
- 【跨域】jsonp看完這篇文章就夠了跨域JSON
- 蘋果iPhone Xs系列為什麼不值得買?看完這篇看完你就明白了蘋果iPhone
- 運維監控工具運維
- 服裝辦理體系的價值有多大?看完這篇文章你就知道了
- 簡訊介面怎麼對接?看完這篇文章你就知道了!
- iOS程式碼簽名是什麼?看完這篇文章就能明白iOS
- 運維監控!這六款免費管理皮膚你都知道嗎?運維
- Linux零拷貝技術,看完這篇文章就懂了Linux
- 資料視覺化的基本流程是怎樣的,看完這篇你就明白視覺化
- 看完這場直播,SASE你就懂了
- 為什麼嫁人就要嫁Linux運維工程師,看完你就懂了…Linux運維工程師
- 無監控,不運維:解讀企業全棧式監控運維運維全棧
- 機器學習,看完就明白了機器學習
- 如何解除防禦DDoS的疑難?看完這篇文章你就知道了
- 如何做好運維監控?運維
- 買手機記憶體64G和128G怎麼選?看完這3點你就明白了記憶體
- 阿里巴巴為什麼能抗住90秒100億?看完這篇你就明白了!阿里
- 為什麼說遊戲策劃要懂點美術?看完這篇你就明白了遊戲
- Docker視覺化監控?看這篇文章Docker視覺化
- CTQ難理解?這樣說你就明白了
- Sql Or NoSql,看完這一篇你就懂了SQL
- 運維監控指標彙總運維指標
- ORACLE OGG運維及日常監控Oracle運維
- DV、OV、EV SSL證書如何選擇?看完這篇文章就知道
- 四、聊聊併發 - 看完你應該就明白synchronized是怎麼回事了synchronized
- 別找了!這篇文章帶你看完今年爆款SLG素材
- MySQL的鎖這麼多,不知從何學起,看完這篇文章就夠了MySql
- 看完這篇 Linux 的基本操作你就會了!Linux
- LED螢幕監控運維管理方案運維
- 分層運維自動化監控運維