監控磁碟使用率的shell指令碼

首席提問官發表於2018-10-23

本指令碼來自有學習阿銘的博文學習:
公司監控最基本的一般都要監控磁碟的使用情況,否則將導致業務上的事故。
一般監控要求如下:每分鐘都要掃描一下磁碟的狀況。
當磁碟空間使用率或者inode使用率高於90%的情況,就需要報警。
並把統計使用率超過90%的分割槽的所有的子目錄的,按照大小依次排列,把前3的目錄名稱發給到郵箱。
第一次未處理,30分鐘後在一次。

#!/bin/bash
#用途:監控磁碟的使用情況。
#作者:Caron maktini
#日期:2018年10月18日
#版本:v0.1
#把指令碼名字存在變數l-name
l_name=`echo $0 | awk -F `/` `print $NF``
#定義收件人的郵箱
mail_user=admin@admin.com

#定義檢查磁碟的空間使用率函式
chk_sp()
{
    df -m | sed `1d` | awk -F `% | +` `$5>90 {print $7,$5}`>/tmp/chk_sp.log
    n=`wc -l /tmp/chk_sp.log | awk `print $1``
    if [ $n -gt 0 ]
    then 
      tag=1
      for d in `awk `{print $1}` /tmp/chk_sp.log`
      do 
           find $d -type d | sed `1d` | xargs du -sm | sort -nr | head -3
      done >/tmp/most_sp.txt
   fi
               
}

#定義檢查inode使用率函式

chk_in()
{
  df -i | sed `1d` | awk -F `% | +` `$5>90 {print $7,$5}`>/tmp/chk_in.log
    n=`wc -l /tmp/chk_in.log | awk `{print $1}``
    if [ $n -gt 0 ]
    then 
        tag=2
    fi
 }

#定義告警函式

m_mail(){
    log=$1
    t_s=`date +%s`
    t_s2=`data -d "1 hours ago" +%s`
    if [ ! -f /tmp/$log ]
    then
        #建立$log檔案
        touch /tmp/$log
        #增加a許可權,只允許追加內容,不允許更改或刪除
        chattr +a /tmp/$log
        #第一次告警,可以直接寫入1小時以前的時間戳
        echo $t_s2 >> /tmp/$log
     fi
    #無論#log檔案是否剛剛建立,都需要檢視最後一行的時間戳
    t_s2=`tail -l /tmp/$log | awk `{print $1}``
    # 取出最後一行及上次告警的時間戳,立即寫入當期的時間戳
    echo $t_s >>/tmp/$log
    #取兩次時間戳差值
    v=$[ $t_s-$t_s2 ]
    #如果差值超過100,立即傳送郵件。
    if [ $v -gt 1800 ]
    then
      #發郵件,其中$2為mail函式的第二個函式,這裡為一個檔案
      python  mail.py $mail_user "磁碟使用率超過90%"
      #定義技數器臨時檔案,並寫入0
      echo "0" > /tmp/$log.count
     else
      #如果技數器臨時檔案不存在,需要建立並寫入0
      if [ ! -f /tmp/$log.count }
      then
         echo "0" > /tmp/$log.count 

      fi

      nu=`cat /tmp/$log.count`
      #30分鐘內每發生1次告警,計算器加1
      nu2=$[ $nu+1 ]
      echo $nu2>/tmp/$log.count
      #當告警次數超過30次,需要再次髮油件
      if [ $nu2 -gt 30 ]
      then 
          python mail.py $mail_user "磁碟使用率90%持續30分鐘了" "`cat $2`" 2>/dev/null
          #第二次告警後,將計算器再次從0開始
          echo "0" > /tmp/$log.count
      fi
 fi 
}
#把程式數大於0.則說明上次的指令碼還未執行完
if [ $p_n -gt 0 ]
then
    exit

fi
 

chk_sp
chk_in

if [ $tag == 1 ]
then
    m_mail chk_sp /tmp/most_sp.txt
elif [ $tag == 2 ]
then
    m_mail chk_in /tmp/chk_in.log
fi 


相關文章