使用shell批量監控磁碟壞塊(一)
硬體的監控其實還是蠻重要的,這個部分在嘉年華中也著重強調過,不過做起來確實還是有一些難度,我們也嘗試了一些方法,最終準備兩條腿走路,一邊使用中控的方式來統一監控管理,同事考慮把硬體監控揉入zabbix的監控體系之中。今天來說使用統一監控的方式。
在強調硬體監控的重要性時,最好的說明方式就是用資料說話。
下面的是我在Oracle嘉年華分享中提到的一個部分,對於監控硬體監控還是很容易忽略的一個環節,但是又是最無奈的一個環節。
在各類故障之中,硬體故障佔用了絕大部分的故障比例。當然這個數字也有一些針對性,不具有普遍性。不過總體來看硬體故障中的主機板故障等等都是重中之中。
![](https://i.iter01.com/images/e279797701585b2116e250fbf8647c9b217949e1049df08d73b0f7e1279d8dd8.png)
那麼這些故障的影響情況怎麼樣呢,我們再來看看一個圖形,下面說明的是累計幾年的故障影響時長。
硬體故障的影響時長几乎就是滿配了,一臺伺服器故障影響時長1分鐘,那麼幾千臺伺服器幾年下來就是幾千分鐘,這個數字是這麼解讀的。
![](https://i.iter01.com/images/1c53490e68b5a1f840b06ed64131f63a8e557e07f899edc84cfa5525d7569cf9.png)
好了,強調了硬體故障,這些監控也要開始做了。對我們來說一個比較直接而且相對來說容易實現的方式就是硬碟的監控了,其中的磁碟壞塊就是一個典型例子了。
硬體壞塊的監控做好了,其它的監控其實也就是觸類旁通,縫縫補補即可。
總體的思路如下:
是通過一臺中控機器來訪問所有的伺服器,然後傳送響應的命令,然後在各個伺服器本地執行,回撥返回到中控機器。所有每臺伺服器都要統一部署一個類似客戶端的軟體,目前我先採用MegaCli來統一部署。
![](https://i.iter01.com/images/7e35f104c6d296b8b0f22ad0e1be722a20437353e7df724d09d69d0babe7c1ae.png)
那麼監控的實現方式方式和實現細節呢,我們來用下面的圖形來說明這個流程。
![](https://i.iter01.com/images/28c5403a26ec2196f8e50b0e56fb838834d667896294d0bfbb50dfd13a7bceea.png)
首先在中控的機器中採用遠端呼叫的方式來呼叫各個伺服器端的megacli,得到壞塊的情況
然後大批量的伺服器就會生成一個報告來,得到了報告就可以做進一步的改進,把它格式化一番,我們可以通過郵件的方式來顯示html的表格效果。
簡訊中可以得到一個概要的資訊,可以直接統計出一個概要的壞塊數作為參考,如果壞塊數小於10個,暫時可以不需要進一步處理。
上面的也是一個實現思路,目前框架已經完成,html郵件已經實現,後面給大家共享一個第三方指令碼,可以做美化的效果。
在強調硬體監控的重要性時,最好的說明方式就是用資料說話。
下面的是我在Oracle嘉年華分享中提到的一個部分,對於監控硬體監控還是很容易忽略的一個環節,但是又是最無奈的一個環節。
在各類故障之中,硬體故障佔用了絕大部分的故障比例。當然這個數字也有一些針對性,不具有普遍性。不過總體來看硬體故障中的主機板故障等等都是重中之中。
![](https://i.iter01.com/images/e279797701585b2116e250fbf8647c9b217949e1049df08d73b0f7e1279d8dd8.png)
那麼這些故障的影響情況怎麼樣呢,我們再來看看一個圖形,下面說明的是累計幾年的故障影響時長。
硬體故障的影響時長几乎就是滿配了,一臺伺服器故障影響時長1分鐘,那麼幾千臺伺服器幾年下來就是幾千分鐘,這個數字是這麼解讀的。
![](https://i.iter01.com/images/1c53490e68b5a1f840b06ed64131f63a8e557e07f899edc84cfa5525d7569cf9.png)
好了,強調了硬體故障,這些監控也要開始做了。對我們來說一個比較直接而且相對來說容易實現的方式就是硬碟的監控了,其中的磁碟壞塊就是一個典型例子了。
硬體壞塊的監控做好了,其它的監控其實也就是觸類旁通,縫縫補補即可。
總體的思路如下:
是通過一臺中控機器來訪問所有的伺服器,然後傳送響應的命令,然後在各個伺服器本地執行,回撥返回到中控機器。所有每臺伺服器都要統一部署一個類似客戶端的軟體,目前我先採用MegaCli來統一部署。
![](https://i.iter01.com/images/7e35f104c6d296b8b0f22ad0e1be722a20437353e7df724d09d69d0babe7c1ae.png)
那麼監控的實現方式方式和實現細節呢,我們來用下面的圖形來說明這個流程。
![](https://i.iter01.com/images/28c5403a26ec2196f8e50b0e56fb838834d667896294d0bfbb50dfd13a7bceea.png)
首先在中控的機器中採用遠端呼叫的方式來呼叫各個伺服器端的megacli,得到壞塊的情況
然後大批量的伺服器就會生成一個報告來,得到了報告就可以做進一步的改進,把它格式化一番,我們可以通過郵件的方式來顯示html的表格效果。
簡訊中可以得到一個概要的資訊,可以直接統計出一個概要的壞塊數作為參考,如果壞塊數小於10個,暫時可以不需要進一步處理。
上面的也是一個實現思路,目前框架已經完成,html郵件已經實現,後面給大家共享一個第三方指令碼,可以做美化的效果。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23718752/viewspace-1872978/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【shell】磁碟監控指令碼指令碼
- 監控磁碟使用率的shell指令碼指令碼
- 用於自動監控磁碟使用情況的 Shell 指令碼指令碼
- 5. 監控磁碟使用率
- 用 Linux Shell 指令碼來監控磁碟使用情況併傳送郵件Linux指令碼
- 15. 監控磁碟IO使用率
- 磁碟IO效能監控
- 如何用bash shell 指令碼監控 Linux記憶體、磁碟和 CPU?指令碼Linux記憶體
- RabbitMQ - 記憶體磁碟監控MQ記憶體
- 問題:未清空磁碟被新增到磁碟組觸發壞塊
- 使用Shell指令碼程式監控網站URL是否正常指令碼網站
- shell監控mysql 8.0資料庫MySql資料庫
- shell監控mysql 5.7資料庫MySql資料庫
- 分享實用監控指令碼:使用Shell檢查程式是否存在指令碼
- shell監控服務程式是否啟動
- Shell 系統資訊監控指令碼指令碼
- 在 Linux 中如何使用 iotop 和 iostat 監控磁碟 I/O 活動?LinuxiOS
- PowerShell 指令碼來監控 CPU、記憶體和磁碟使用情況:指令碼記憶體
- Linux中監控磁碟分割槽及使用情況的命令有哪些?Linux
- Linux中監控磁碟分割槽和使用情況的幾個工具Linux
- iOS使用shell指令碼批量修改屬性iOS指令碼
- 監視磁碟使用情況
- 在Linux中,如何進行磁碟效能監控?Linux
- shell指令碼:監控MySQL服務是否正常指令碼MySql
- Shell指令碼監控MySQL主從狀態指令碼MySql
- 使用Admin監控
- iOS使用Shell指令碼批量修改類名稱iOS指令碼
- 通過shell指令碼 批量新增使用者指令碼
- TenSunS監控REDIS:使用一個redis_exporter監控所有的Redis例項RedisExport
- linux實現shell指令碼監控磁碟記憶體達到閾值時清理catalina.out日誌Linux指令碼記憶體
- shell實戰之Linux主機系統監控Linux
- shell指令碼監控啟動停止weblogic服務指令碼Web
- SpringBoot使用prometheus監控Spring BootPrometheus
- 使用Prometheus監控FlinkPrometheus
- Zabbix 5.0:磁碟自動發現和讀寫監控
- 使用Python建立一個系統監控程式Python
- 阿里雲容器Kubernetes監控(一)-資源監控阿里
- Java 監控基礎 - 使用 JMX 監控和管理 Java 程式Java
- upptime:使用GitHub Actions監控你的網站健康監控Github網站