linux叢集故障判斷兩則（二）

anycall2010發表於2009-10-06

Linux

一、 故障現象：

兩臺資料庫伺服器作業系統正常，但是共享磁碟丟失。DB2資料庫服務關閉。叢集狀態是“recovering”。

二、解決辦法：

讓使用者檢視了一下心跳網口和RSA管理口的狀態，發現是正常的。說明不是硬體問題，通過重啟2臺伺服器，問題解決。

三、故障原因分析

通過遠端VPN連線到客戶的伺服器端，抓取作業系統的日誌。發現叢集早在2009-09-23當天已經出現故障。從2009-09-23到2009-09-27早上，叢集一直在出現故障狀態。故障出現的原因見下圖日誌：

節點：F1DB01

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: Link for bond0: Not detected

Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]: No link on bond0...

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: status on ip "172.16.50.3" returned 1 (generic error)

Sep 23 15:20:54 F1DB01 clurgmgrd[3829]: Stopping service service:redhat-service

Sep 23 15:20:56 F1DB01 avahi-daemon[3681]: Withdrawing address record for 172.16.50.3 on bond0

節點：F1DB02

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it

Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: now running without any active interface !

Sep 23 15:21:39 F1DB02 clurgmgrd[4023]: Recovering failed service service:redhat-service

Sep 23 15:21:40 F1DB02 kernel: kjournald starting. Commit interval 5 seconds

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs warning: maximal mount count reached, running e2fsck is recommended

Sep 23 15:21:40 F1DB02 kernel: EXT3 FS on sdc1, internal journal

Sep 23 15:21:40 F1DB02 kernel: EXT3-fs: mounted filesystem with ordered data mode.

Sep 23 15:21:40 F1DB02 clurgmgrd: [4023]: Link for bond0: Not detected

從這2個節點日誌分析，如紅色標記看出，2個節點的“bond0“都掛掉了，也就是4個網口都宕掉的情況下，叢集肯定會出問題。通過在客戶這裡瞭解，得知使用者在23號在調整網路，對叢集的網口造成很大影響導致的。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/8334342/viewspace-616019/，如需轉載，請註明出處，否則將追究法律責任。

linux叢集故障判斷兩則（一）
2009-10-06
Linux
二、Linux部署RabbitMQ叢集
2021-11-12
LinuxMQ
iOS正則判斷
2017-01-09
iOS
故障分析 | ClickHouse 叢集分散式 DDL 被阻塞案例一則
2022-05-06
分散式
判斷兩字串的字符集是否相同《演算法很美》
2021-01-01
字串演算法
WebSphere 叢集建立及故障排除
2020-04-07
Web
叢集二nginx
2017-11-15
Nginx
ASM磁碟故障診斷（二）
2011-07-26
ASM
js判斷兩個物件是否相等
2022-06-23
JS物件
canvas 判斷兩球是否碰撞效果
2017-02-17
Canvas
基於linux的叢集系統(二)(轉)
2007-08-10
Linux
linux下搭建ZooKeeper叢集（偽叢集）
2019-03-27
Linux
【Redis】Redis Cluster-叢集故障轉移
2022-06-19
Redis
redis cluster 叢集故障恢復操作思路
2022-04-07
Redis
Oracle 12c叢集啟動故障
2018-04-14
Oracle
Oracle 11.2.0.4 Dataguard兩則故障處理
2021-03-12
Oracle
JavaScript判斷兩個變數是否相等
2018-07-10
JavaScript變數
js 判斷兩個變數是否相等
2016-03-02
JS變數
使用PING命令輕鬆判斷TCP/IP故障
2016-11-23
TCP
由“嘟”聲判斷系統開機故障(轉)
2007-08-09
Linux 叢集化
2020-12-20
Linux
伺服器叢集的故障轉移方案
2020-07-16
伺服器
mongodb叢集節點故障的切換方法
2019-06-20
MongoDB
JDK是如何判斷兩個物件是否相同的？判斷的流程是什麼？
2019-02-23
JDK物件
iOS 使用正則判斷輸入型別
2018-12-19
iOS型別
從CF1702E看二分圖判斷的兩種方法
2024-03-12
透過路由器指示燈判斷網路故障
2016-10-19
路由器
JavaScript 中，如何判斷兩個物件是否相等？
2019-03-22
JavaScript物件
canvas實現判斷兩球是否碰撞效果
2017-02-17
Canvas
golang中判斷兩個slice是否相等與判斷值下的陣列是否相等
2021-04-02
Golang陣列
關於LINUX FILE命令是如何判斷檔案字符集的
2016-10-02
Linux
Linux叢集大全(轉)
2007-08-16
Linux
oracle RAC 診斷叢集狀態命令
2020-07-24
Oracle
記一次Kafka叢集的故障恢復
2018-11-19
Kafka
ceph 叢集報 mds cluster is degraded 故障排查薦
2017-05-08
正則判斷MIME 型別是否是圖片
2019-11-20
型別
如何判斷DNS解析故障？如何解決DNS解析錯誤？
2022-06-20
DNS
linux搭建kafka叢集，多master節點叢集說明
2022-04-06
LinuxKafkaAST

linux叢集故障判斷兩則（二）

相關文章