linux叢集故障判斷兩則（一）

anycall2010發表於2009-10-06

一、故障現象：

2臺DB2資料庫伺服器作業系統正常，但是共享磁碟丟失。DB2資料庫服務關閉。叢集狀態是“recovering”

二、解決辦法：

通過重啟兩臺資料庫伺服器，問題解決。

三、故障原因分析

通過遠端VPN連線到客戶的伺服器端，抓取作業系統的日誌。發現叢集出現問題的時間在2009-09-27 13：05 分叢集出現了故障。故障的原因是IBM軟體開發指定歸檔路徑，重啟資料庫時出現了故障。造成資料庫關閉不徹底，F1DB01資料庫仍有DB2程式存在，而且磁碟無法被節點F1DB02接管的狀態。

四、收集日誌

通過兩個節點SOSREPORT，抓取系統日誌：

節點：F1DB01 上作業系統日誌中看到發生故障的時間點在 2009-09-27：13：05：17的時間點。

Sep 27 13:05:17 F1DB01 clurgmgrd: [3834]: script.:redhat_init_script. status of /etc/rc.d/init.d/db2v9 failed (returned 1)

說明節點1在“ Sep 27 13:05:17”發出了節點切換操作。

看來DB2資料庫可能有問題，造成了指令碼觸發另外一個節點實現接管動作。察看DB2的日誌

五、察看DB2日誌

2009-09-27-12.59.50.556262+480 I492581G458 LEVEL: Event

PID : 16990 TID : 3086665408 PROC : db2agent (SMESPPT) 0

INSTANCE: gspinst1 NODE : 000 DB : SMESPPT

APPHDL : 0-58 APPID: *LOCAL.gspinst1.090927045817

AUTHID : GSPINST1

FUNCTION: DB2 UDB, config/install, sqlfLogUpdateCfgParam, probe:20

CHANGE : CFG DB SMESPPT: "Logarchmeth1" From: "USEREXIT" To: "DISK:/share_fs/dbistppt/pptdblog"

說明軟體開發在做指定歸檔路徑操作。

2009-09-27-13.05.10.294232+480 I497618G395 LEVEL: Warning

PID : 6485 TID : 3086665408 PROC : db2sysc 0

INSTANCE: gspinst1 NODE : 000

FUNCTION: DB2 UDB, routine_infrastructure, sqlerKillAllFmps, probe:5

MESSAGE : Bringing down all db2fmp processes as part of db2stop

DATA #1 : Hexdump, 4 bytes

0xBFCA140C : 0000 0000

指定日誌路徑後，需要重啟資料庫。

2009-09-27-13.05.10.596637+480 I500015G387 LEVEL: Error

PID : 13621 TID : 3086575824 PROC : db2fmp (

INSTANCE: gspinst1 NODE : 000

FUNCTION: DB2 UDB, routine_infrastructure, sqlerFmpListener, probe:999

MESSAGE : FMP exiting with error. Last agent registered:

DATA #1 : Hexdump, 4 bytes

0xBFF2359C : 0000 0000

上述紅色標明停止資料庫的時候，資料庫關閉時，服務出現問題。造成資料庫關閉不徹底，F1DB01資料庫仍有DB2程式存在，而且磁碟無法被節點2接管的狀態。

找到問題原因。

來自 “ ITPUB部落格 ” ，連結：http://blog.itpub.net/8334342/viewspace-616017/，如需轉載，請註明出處，否則將追究法律責任。

linux叢集故障判斷兩則（二）
2009-10-06
Linux
故障分析 | ClickHouse 叢集分散式 DDL 被阻塞案例一則
2022-05-06
分散式
iOS正則判斷
2017-01-09
iOS
判斷兩字串的字符集是否相同《演算法很美》
2021-01-01
字串演算法
WebSphere 叢集建立及故障排除
2020-04-07
Web
記一次Kafka叢集的故障恢復
2018-11-19
Kafka
RAC第一個節點被剔除叢集故障分析
2016-07-13
js判斷兩個物件是否相等
2022-06-23
JS物件
canvas 判斷兩球是否碰撞效果
2017-02-17
Canvas
linux下搭建ZooKeeper叢集（偽叢集）
2019-03-27
Linux
【Redis】Redis Cluster-叢集故障轉移
2022-06-19
Redis
redis cluster 叢集故障恢復操作思路
2022-04-07
Redis
Oracle 12c叢集啟動故障
2018-04-14
Oracle
Oracle 11.2.0.4 Dataguard兩則故障處理
2021-03-12
Oracle
關於判斷兩個矩陣相交的一點想法
2013-11-19
矩陣
JavaScript判斷兩個變數是否相等
2018-07-10
JavaScript變數
js 判斷兩個變數是否相等
2016-03-02
JS變數
使用PING命令輕鬆判斷TCP/IP故障
2016-11-23
TCP
由“嘟”聲判斷系統開機故障(轉)
2007-08-09
Linux 叢集化
2020-12-20
Linux
伺服器叢集的故障轉移方案
2020-07-16
伺服器
mongodb叢集節點故障的切換方法
2019-06-20
MongoDB
JDK是如何判斷兩個物件是否相同的？判斷的流程是什麼？
2019-02-23
JDK物件
iOS 使用正則判斷輸入型別
2018-12-19
iOS型別
透過路由器指示燈判斷網路故障
2016-10-19
路由器
JavaScript 中，如何判斷兩個物件是否相等？
2019-03-22
JavaScript物件
canvas實現判斷兩球是否碰撞效果
2017-02-17
Canvas
golang中判斷兩個slice是否相等與判斷值下的陣列是否相等
2021-04-02
Golang陣列
dataguard故障處理一則
2010-03-25
關於LINUX FILE命令是如何判斷檔案字符集的
2016-10-02
Linux
Linux叢集大全(轉)
2007-08-16
Linux
oracle RAC 診斷叢集狀態命令
2020-07-24
Oracle
ASM磁碟故障診斷（一）
2011-07-25
ASM
ceph 叢集報 mds cluster is degraded 故障排查薦
2017-05-08
正則判斷MIME 型別是否是圖片
2019-11-20
型別
判斷字串是否唯一
2024-04-02
字串
如何判斷DNS解析故障？如何解決DNS解析錯誤？
2022-06-20
DNS
linux搭建kafka叢集，多master節點叢集說明
2022-04-06
LinuxKafkaAST

linux叢集故障判斷兩則（一）

相關文章