shell -5 告警系統郵件

chunyang315發表於2018-04-25

告警系統郵件引擎

  • 郵件需要一個mail.py,寫入(/usr/local/sbin/shares/mail/mail/py)以下內容
#!/usr/bin/env python
#-*- coding: UTF-8 -*-
import os,sys
reload(sys)
sys.setdefaultencoding('utf8')
import getopt
import smtplib
from email.MIMEText import MIMEText
from email.MIMEMultipart import MIMEMultipart
from  subprocess import *
def sendqqmail(username,password,mailfrom,mailto,subject,content):
    gserver = 'smtp.qq.com'
    gport = 25
    try:
        msg = MIMEText(unicode(content).encode('utf-8'))
        msg['from'] = mailfrom
        msg['to'] = mailto
        msg['Reply-To'] = mailfrom
        msg['Subject'] = subject
        smtp = smtplib.SMTP(gserver, gport)
        smtp.set_debuglevel(0)
        smtp.ehlo()
        smtp.login(username,password)
        smtp.sendmail(mailfrom, mailto, msg.as_string())
        smtp.close()
    except Exception,err:
        print "Send mail failed. Error: %s" % err
def main():
    to=sys.argv[1]
    subject=sys.argv[2]
    content=sys.argv[3]
##定義QQ郵箱的賬號和密碼,你需要修改成你自己的賬號和密碼(請不要把真實的使用者名稱和密碼放到網上公開,否則你會死的很慘)
    sendqqmail('1234567@qq.com','aaaaaaaaaa','1234567@qq.com',to,subject,content)
if __name__ == "__main__":
    main()   //這裡填寫郵箱地址和密碼

其中需要關心的地方有:

gserver 定義發郵件的伺服器域名,可以是smtp.163.com或者是smtp.qq.com

最重要的mail.sh,建立mail.sh並寫入以下內容

log=$1  //作為引數,當發郵件時,需要找到一個跟監控專案對應的日誌,比如$addr\_load 或者$addr\_502
t_s=`date +%s`   //定義時間戳
t_s2=`date -d "2 hours ago" +%s` //2小時前的時間戳
if [ ! -f /tmp/$log ] //$log其實就是ip_監控專案,把它作為日誌的名字
then
    echo $t_s2 > /tmp/$log //生成日誌,裡面第一行就是2小時的時間戳
fi
t_s2=`tail -1 /tmp/$log|awk '{print $1}'`  //擷取時間戳
echo $t_s >> /tmp/$log
v=$[$t_s-$t_s2]  //2個時間的比值的時間差,上次時間與這次時間的對比
echo $v
if [ $v -gt 3600 ]
then
    ./mail.py $1 $2 $3
    echo "0" > /tmp/$log.txt  //監控專案的計數器,當出現一次告警就記一個數,一個週期內,比如10min
else
    if [ ! -f /tmp/$log.txt ]
    then
        echo "0" > /tmp/$log.txt 
    fi
    nu=`cat /tmp/$log.txt`   //檢視計數器中的數字
    nu2=$[$nu+1]   
    echo $nu2 > /tmp/$log.txt
    if [ $nu2 -gt 10 ]
    then
        ./mail.py "trouble continue 10 min $1  $2 " "$3"
         echo "0" > /tmp/$log.txt  //當告警結束後又重新計數。
    fi  
fi

它的作用在於做告警收斂的。當服務出現問題時,傳送郵件,一定時間內還是沒有恢復的話,就再發一封郵件。就不用每1分鐘發一封郵件了。

當服務異常的時候才會呼叫mail.sh,如果服務一小時內未告警,那麼時間戳就會 大於3600秒,每次執行一下這個指令碼都會記錄一個時間戳到日誌中去,上次告警與這次告警相差多少就是通過時間戳比值去計算的。如果比值大於3600秒,就直接告警(呼叫mail.py)

相關文章