故障的機器修好後重啟,狂拉主庫binlog,導致網路問題,造成一定影響
本文主要記錄一次簡單的、典型的故障,發生問題的原因很簡單,這個問題發生也很簡單,各位同學一定要注意,一不留神就會對主庫造成影響。
問題簡述:
歡迎轉載,請註明作者、出處。
作者:張正
blog:http://space.itpub.net/26355921
QQ:176036317
如有疑問,歡迎聯絡。
問題簡述:
一週前,有一臺mysql伺服器發生硬體故障,停機了。我們給專門負責這塊的同學提交了申請,他們負責去報修這臺伺服器。今天這臺伺服器修好後,他們將其開機啟動。伺服器上的4個mysql例項在開機後自動啟動,開始拉主庫的binlog。由於這臺伺服器停機時間比較久,日誌丟的比較多,狂拉主庫的binlog,導致主庫網路出現問題。
現象:
首先,我們完全沒有意識到是因為一臺壞掉的伺服器重啟拉主庫binlog導致的,因為我們壓根不知道 這臺伺服器什麼情況,只知道1周前,我們報修了1臺伺服器。具體什麼情況,有沒有修好,有沒有開機,我們完全不知道。
首先,我們完全沒有意識到是因為一臺壞掉的伺服器重啟拉主庫binlog導致的,因為我們壓根不知道 這臺伺服器什麼情況,只知道1周前,我們報修了1臺伺服器。具體什麼情況,有沒有修好,有沒有開機,我們完全不知道。
在這樣的情況下,忽然聽到網路的同學說mysql有一臺機器網路流量過大,導致業務感覺很慢,總共持續了17分鐘。其實這樣,是沒有多大頭緒的。
排查:
檢視processlist、全日誌、慢日誌都沒有發現有什麼問題。
檢視監控,發現那段時間的伺服器的讀IO驟然升高。
透過檢視processlist的歷史記錄,發現有一段時間,主從複製的使用者 狀態是 waiting for net,透過其IP發現該伺服器是1周前壞掉的一個slave伺服器。
結論:
這臺伺服器上有4個例項,伺服器啟動後,mysql例項自動啟動,開始向主庫上拉binlog,每個主庫每天的binlog量大概6G,4個例項1個星期大概160多G的binlog。
問題:
1、壞掉的伺服器什麼時候修好,什麼時候開機,我們不可控,也不知道,也沒有關注
2、這種案例其實是很簡單、很典型的可能造成影響或故障的case,我們提前沒有對這個現象有警覺,雖然知道這是個很容易出現的問題,但是在我們的case中,完全沒有這方面的意識。因此導致該事件發生
3、對於網路流量這塊,缺乏有效監控
解決方法:
1、所有伺服器,取消開機自動啟動mysql,伺服器開機後,人為啟動例項,停slave。(這樣,如果伺服器很多,可能過於麻煩,暫且先這樣記錄下來,總比造成影響強)
2、意識到該問題,將該問題納入避免問題的常識庫或工作手冊中去。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/26355921/viewspace-1980663/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 私拉亂接導致網路印表機故障
- Linux主機名修改後導致mysql重啟失敗LinuxMySql
- 11g 最大保護模式 standby database網路故障導致主庫當機模式Database
- 【YashanDB知識庫】EXP導致主機卡死問題
- 故障分析 | 手動 rm 掉 binlog 導致主從報錯
- 記一次 Mac 意外重啟導致的 Homestead 問題Mac
- MAC address(實體地址)重複導致的網路故障Mac
- 故障分析 | MySQL 從機故障重啟後主從同步報錯案例分析MySql主從同步
- 資料庫主機重啟卡住問題處理分享資料庫
- VXFS啟用非同步IO導致的嚴重問題非同步
- 故障分析 | replace into 導致主備不一致
- Android之點選Home鍵後再次開啟導致APP重啟問題AndroidAPP
- ORA-01034,修改主機名導致的資料庫問題資料庫
- 更改主機名後,導致db2啟動不了DB2
- 【故障公告】取代 memcached 的 redis 出現問題造成網站故障Redis網站
- 網路故障造成備庫standby logfile的損壞
- 記一次儲存問題導致的rac故障案例
- 定時重啟tomcat指令碼導致的亂碼問題Tomcat指令碼
- 重啟系統,網路有問題
- 一次心跳網路問題導致的節點新增失敗
- Dell伺服器網路卡問題導致伺服器網路無故中斷伺服器
- 歸檔問題導致的資料庫無法啟動資料庫
- 網路問題導致更多的資料中心中斷
- undo表空間出現壞塊導致資料庫重啟問題解決資料庫
- 網路卡故障導致區域網網路故障原因與解決辦法
- 一條sql語句導致的資料庫當機問題及分析SQL資料庫
- 一條sql語句“導致”的資料庫當機問題及分析SQL資料庫
- Linux主機USB RNDIS網路卡驅動實現不完整導致的一例問題Linux
- 伺服器故障重啟可以解決大部分問題伺服器
- IBM HA雙機光交鏈路問題導致的oracle資料庫exp備份問題IBMOracle資料庫
- ODPS主備叢集雙向資料複製導致主備中心網路打爆問題
- 由AIX系統故障導致系統重啟,使Oracle資料庫自動啟動例項AIOracle資料庫
- oracle 序列值導致的主鍵衝突問題Oracle
- 記php-fpm重啟導致的一個bugPHP
- 【故障處理】修改主機名導致oracle例項無法啟動暨如何修改hostnameOracle
- 關於沒有熔斷降級導致服務重啟問題
- 【Oracle】11gR2 grid單機使用asm儲存修改主機名後導致的故障處理OracleASM
- 使用Nginx解決IIS繫結域名導致應用程式重啟的問題Nginx