使用shell批量監控磁碟壞塊(一)

jeanron100發表於2015-12-15
硬體的監控其實還是蠻重要的,這個部分在嘉年華中也著重強調過,不過做起來確實還是有一些難度,我們也嘗試了一些方法,最終準備兩條腿走路,一邊使用中控的方式來統一監控管理,同事考慮把硬體監控揉入zabbix的監控體系之中。今天來說使用統一監控的方式。
在強調硬體監控的重要性時,最好的說明方式就是用資料說話。
下面的是我在Oracle嘉年華分享中提到的一個部分,對於監控硬體監控還是很容易忽略的一個環節,但是又是最無奈的一個環節。
在各類故障之中,硬體故障佔用了絕大部分的故障比例。當然這個數字也有一些針對性,不具有普遍性。不過總體來看硬體故障中的主機板故障等等都是重中之中。

那麼這些故障的影響情況怎麼樣呢,我們再來看看一個圖形,下面說明的是累計幾年的故障影響時長。
硬體故障的影響時長几乎就是滿配了,一臺伺服器故障影響時長1分鐘,那麼幾千臺伺服器幾年下來就是幾千分鐘,這個數字是這麼解讀的。

好了,強調了硬體故障,這些監控也要開始做了。對我們來說一個比較直接而且相對來說容易實現的方式就是硬碟的監控了,其中的磁碟壞塊就是一個典型例子了。
硬體壞塊的監控做好了,其它的監控其實也就是觸類旁通,縫縫補補即可。
總體的思路如下:
是通過一臺中控機器來訪問所有的伺服器,然後傳送響應的命令,然後在各個伺服器本地執行,回撥返回到中控機器。所有每臺伺服器都要統一部署一個類似客戶端的軟體,目前我先採用MegaCli來統一部署。

那麼監控的實現方式方式和實現細節呢,我們來用下面的圖形來說明這個流程。

首先在中控的機器中採用遠端呼叫的方式來呼叫各個伺服器端的megacli,得到壞塊的情況
然後大批量的伺服器就會生成一個報告來,得到了報告就可以做進一步的改進,把它格式化一番,我們可以通過郵件的方式來顯示html的表格效果。
簡訊中可以得到一個概要的資訊,可以直接統計出一個概要的壞塊數作為參考,如果壞塊數小於10個,暫時可以不需要進一步處理。
上面的也是一個實現思路,目前框架已經完成,html郵件已經實現,後面給大家共享一個第三方指令碼,可以做美化的效果。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23718752/viewspace-1872978/,如需轉載,請註明出處,否則將追究法律責任。

相關文章