linux叢集故障判斷兩則(二)
一、 故障現象:
兩臺資料庫伺服器作業系統正常,但是共享磁碟丟失。DB2資料庫服務關閉。叢集狀態是“recovering”。
二、解決辦法:
讓使用者檢視了一下心跳網口和RSA管理口的狀態,發現是正常的。說明不是硬體問題,通過重啟2臺伺服器,問題解決。
三、故障原因分析
通過遠端VPN連線到客戶的伺服器端,抓取作業系統的日誌。發現叢集早在2009-09-23當天已經出現故障。從2009-09-23到2009-09-27早上,叢集一直在出現故障狀態。故障出現的原因見下圖日誌:
節點:F1DB01
Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it
Sep 23 15:20:38 F1DB01 kernel: bonding: bond0: now running without any active interface !
Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]:
Sep 23 15:20:54 F1DB01 clurgmgrd: [3829]:
Sep 23 15:20:54 F1DB01 clurgmgrd[3829]:
Sep 23 15:20:54 F1DB01 clurgmgrd[3829]:
Sep 23 15:20:56 F1DB01 avahi-daemon[3681]: Withdrawing address record for 172.16.50.3 on bond0
節點:F1DB02
Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: link status definitely down for interface eth1, disabling it
Sep 23 15:21:10 F1DB02 kernel: bonding: bond0: now running without any active interface !
Sep 23 15:21:39 F1DB02 clurgmgrd[4023]:
Sep 23 15:21:40 F1DB02 kernel: kjournald starting. Commit interval 5 seconds
Sep 23 15:21:40 F1DB02 kernel: EXT3-fs warning: maximal mount count reached, running e2fsck is recommended
Sep 23 15:21:40 F1DB02 kernel: EXT3 FS on sdc1, internal journal
Sep 23 15:21:40 F1DB02 kernel: EXT3-fs: mounted filesystem with ordered data mode.
Sep 23 15:21:40 F1DB02 clurgmgrd: [4023]:
從這2個節點日誌分析,如紅色標記看出,2個節點的“bond0“都掛掉了,也就是4個網口都宕掉的情況下,叢集肯定會出問題。通過在客戶這裡瞭解,得知使用者在23號在調整網路,對叢集的網口造成很大影響導致的。
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/8334342/viewspace-616019/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- linux叢集故障判斷兩則(一)Linux
- 二、Linux部署RabbitMQ叢集LinuxMQ
- iOS正則判斷iOS
- 故障分析 | ClickHouse 叢集分散式 DDL 被阻塞案例一則分散式
- 判斷兩字串的字符集是否相同《演算法很美》字串演算法
- WebSphere 叢集建立及故障排除Web
- 叢集二nginxNginx
- ASM磁碟故障診斷(二)ASM
- js判斷兩個物件是否相等JS物件
- canvas 判斷兩球是否碰撞效果Canvas
- 基於linux的叢集系統(二)(轉)Linux
- linux下搭建ZooKeeper叢集(偽叢集)Linux
- 【Redis】Redis Cluster-叢集故障轉移Redis
- redis cluster 叢集故障恢復操作思路Redis
- Oracle 12c叢集啟動故障Oracle
- Oracle 11.2.0.4 Dataguard兩則故障處理Oracle
- JavaScript判斷兩個變數是否相等JavaScript變數
- js 判斷兩個變數是否相等JS變數
- 使用PING命令輕鬆判斷TCP/IP故障TCP
- 由“嘟”聲判斷系統開機故障(轉)
- Linux 叢集化Linux
- 伺服器叢集的故障轉移方案伺服器
- mongodb叢集節點故障的切換方法MongoDB
- JDK是如何判斷兩個物件是否相同的?判斷的流程是什麼?JDK物件
- iOS 使用正則判斷輸入型別iOS型別
- 從CF1702E看二分圖判斷的兩種方法
- 透過路由器指示燈判斷網路故障路由器
- JavaScript 中,如何判斷兩個物件是否相等?JavaScript物件
- canvas實現判斷兩球是否碰撞效果Canvas
- golang中判斷兩個slice是否相等與判斷值下的 陣列是否相等Golang陣列
- 關於LINUX FILE命令是如何判斷檔案字符集的Linux
- Linux叢集大全(轉)Linux
- oracle RAC 診斷叢集狀態命令Oracle
- 記一次Kafka叢集的故障恢復Kafka
- ceph 叢集報 mds cluster is degraded 故障排查薦
- 正則判斷MIME 型別是否是圖片型別
- 如何判斷DNS解析故障?如何解決DNS解析錯誤?DNS
- linux搭建kafka叢集,多master節點叢集說明LinuxKafkaAST