轉:MySQL主從、字典死鎖、連線數的Python監控指令碼

luckyfriends發表於2017-01-18


最近,公司的系統在天津增加了不少異地容災,其中就有異地雙主MySQL。由於容災環境一般只會在出現較大的網路故障或故障演習的時候用到,所以,容災系統的可用性就只能靠監控了。
<p>對於網際網路這種趕鴨式的發展模式,很多公司都沒有完善的自動化運維繫統。所以,很多時候還得靠自己寫指令碼。
<p>指令碼越寫越多,就容易出現混亂、分散難管理的窘狀。所以,這次就寫了一個MySQL的集中監控指令碼,後續有新的監控加入也可以非常方便的擴充。
用法很簡單,只要在指令碼同目錄新增一個文字檔案hosts.list,一行一個IP,然後需要在IP對應的MySQL身上新增一個 db_monitor賬號,用於監控機遠端登入MySQL(見指令碼註釋部分語句)

>其他特性:
<p>①、指令碼支援 5.0 和 5.5+ MySQL版本的 Second behid master 監控,因為新老版本這個引數的位置不一樣(鵝廠很多開源軟體是非常陳舊的。。。);
<p>②、支援MySQL連線失敗的監控;
<p>③、支援MySQL主從複製的延遲和錯誤監控
<p>④、支援MySQL的連線數和字典鎖數監控
<p>⑤、更多監控可以參考繼續新增.....


#!/usr/bin/python
# MySQL主從集中監控指令碼
# 請在MySQL上執行如下語句,將跑指令碼的機器授權一個db_monitor賬號。
# grant SHOW VIEW,REPLICATION CLIENT,SHOW DATABASES,PROCESS on *.* to db_monitor@'192.168.1.10';
import MySQLdb
import os
import datetime
 
# 傳送一個字串告警,公司特有告警系統,可以改成其他監控方式,比如簡訊或郵件
def report_alarm(attr, err_msg):
    os.system('/usr/local/agenttools/agent/agentRepStr %s "%s" >/dev/null' % (attr, err_msg))
 
# 上報一個數值型告警,也是特有告警系統
def send_repnum(attr, num):
    os.system('/usr/local/agenttools/agent/agentRepNum %s "%s" >/dev/null' % (attr ,num) )
 
def monitor(db_host):
    try:
        cxn=MySQLdb.connect(db_host, 'db_monitor', '', db='mysql')  
    except MySQLdb.Error, e:  
        try:  
            sqlError =  "Error %d:%s" % (e.args[0], e.args[1])  
        except IndexError:  
            sqlError = "MySQL Error:%s" % str(e)
        report_alarm(36320, sqlError)
    
    #get mysql version
    cur=cxn.cursor()
    cur.execute('select version()')
    for item in cur.fetchall():
        if '5.0.' in item[0]:
            mysql_version = 'low'
        else:
            mysql_version = 'high'
    #show slave status
    cur=cxn.cursor()
    cur.execute('show slave status')
    for item in cur.fetchall():
        replicate_error = item[19]
        if mysql_version == 'low':
            seconds_behind_master = item[-1]
        else:
            seconds_behind_master = item[32]
    #show processlist
    cur=cxn.cursor()        
    cur.execute('show processlist')
    connect_num = len(cur.fetchall())
    meta_lock_num = cur.fetchall().count("meta lock")
    cxn.close()
    return replicate_error,seconds_behind_master,connect_num,meta_lock_num
 
print datetime.datetime.now()
 
for host in open('%s/hosts.list'% os.path.dirname(os.path.realpath(__file__))):
    host = host.strip('\n')
    replicate_error = ''
    seconds_behind_master = 0
    connect_num = 0
    meta_lock_num = 0
    replicate_error,seconds_behind_master,connect_num,meta_lock_num = monitor(host)
    try:
        Seconds_behind_master = int(seconds_behind_master)
    except:
        Seconds_behind_master = seconds_behind_master
    print '==============================='
    print 'Infomation of %s' % host
    print "The Num of metalock   : %s" % meta_lock_num
    print "The Num of connection : %s" % connect_num
    # 上報當前連線數
    send = send_repnum(36713, connect_num)
    # 上報字典鎖數量
    send = send_repnum(36715, meta_lock_num)
    if len(replicate_error) > 0:
        print replicate_error
        # 如果主從同步出現問題,就傳送告警
        report_alarm(36320, '%s: Replicate error' % host)
    elif Seconds_behind_master > 600:
        print "Seconds behid master: %s" % Seconds_behind_master
        # 如果主從延遲超過600s,就傳送告警
        report_alarm(36320, '%s: Seconds behind master ge 600' % host)
    #else:
    #   print host + " is OK!"
print '==============================='

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/14710393/viewspace-2132654/,如需轉載,請註明出處,否則將追究法律責任。

相關文章