linux叢集故障判斷兩則(二)

anycall2010發表於2009-10-06

一、             故障現象:

 

兩臺資料庫伺服器作業系統正常,但是共享磁碟丟失。DB2資料庫服務關閉。叢集狀態是“recovering”

 

二、解決辦法:

 

讓使用者檢視了一下心跳網口和RSA管理口的狀態,發現是正常的。說明不是硬體問題,通過重啟2臺伺服器,問題解決。

 

三、故障原因分析

 

通過遠端VPN連線到客戶的伺服器端,抓取作業系統的日誌。發現叢集早在2009-09-23當天已經出現故障。從2009-09-232009-09-27早上,叢集一直在出現故障狀態。故障出現的原因見下圖日誌:

 

 

節點:F1DB01

 

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: Link for bond0: Not detected

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: No link on bond0...

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: status on ip "172.16.50.3" returned 1 (generic error)

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: Stopping service service:redhat-service

Sep 23 15:20:56 F1DB01 avahi-daemon[3681]: Withdrawing address record for 172.16.50.3 on bond0

 

節點:F1DB02

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:21:39 F1DB02 clurgmgrd[4023]: Recovering failed service service:redhat-service

Sep 23 15:21:40 F1DB02 kernel: kjournald starting.  Commit interval 5 seconds

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs warning: maximal mount count reached, running e2fsck is recommended

Sep 23 15:21:40 F1DB02 kernel: EXT3 FS on sdc1, internal journal

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Sep 23 15:21:40 F1DB02 clurgmgrd: [4023]: Link for bond0: Not detected

 

從這2個節點日誌分析,如紅色標記看出,2個節點的“bond0“都掛掉了,也就是4個網口都宕掉的情況下,叢集肯定會出問題。通過在客戶這裡瞭解,得知使用者在23號在調整網路,對叢集的網口造成很大影響導致的。

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8334342/viewspace-616019/,如需轉載,請註明出處,否則將追究法律責任。

相關文章