【OGG】hpux系統nfs異常造成OGG無法應用歸檔日誌
一、起因
每天都會去檢視一下自動巡檢指令碼的輸出日誌,今天卻發現昨天沒有生成日誌,檢視out檔案,只輸出一半就沒了。接著敲了一個命令bdf ,輸出幾行後挺住了,終端後,檢視ogg,發現ogg出現一下問題:
二 解決過程:
透過ogg相關資訊,確認歸檔日誌問題,當前系統為hpux,Oracle10g RAC 資料庫,在節點2搭建ogg,每個節點歸檔日誌存放於本地,節點1歸檔日誌透過nfs共享到節點2,目前透過bdf命令檢視,無法輸出透過nfs服務mount的節點1歸檔日誌目錄。
試著umount該歸檔目錄
點選(此處)摺疊或開啟
透過fuser命令檢視該目錄資訊,顯示節點1 nfs服務沒有反應
檢視節點1nfs服務狀態,並沒有發現nfs服務資訊
啟動節點1 nfs服務
在節點2再次bdf檢視,各目錄正常。觀察ogg狀態,透過start ext* 命令啟動,發現最後一個還是ABENDED狀態
點選(此處)摺疊或開啟
檢視後臺日誌,發現沒有發現該歸檔日誌:
透過檢視節點2歸檔目錄,發現該歸檔日誌存在該目錄下,將其相關1節點歸檔日誌複製到響應目錄下,再次啟動ogg程式
到此,ogg一直處於RUNNING狀態,程式開始抽取、投遞相關資料。
發生該問題原因主要是由於前天下午節點1例項資源耗盡,例項1資料庫停止,也造成nfs服務停止,期間所生成歸檔日誌存放於節點2目錄,啟動節點1例項後檢視資料庫、叢集服務正常,並未關注到NFS服務,造成今天早上的小驚慌。
三 總結
在日常運維中,我們總是習慣性檢視一些東西,就像在本次問題前,一般都會去檢視自動巡檢指令碼日誌,如果對日誌及日誌檢視不準備、及時的話很容易漏過一些問題,很幸運歸檔日誌保留3天,而在隔一天的早上筆者發現了問題,如果明天,歸檔日誌刪除了,也許造成的影響要大的多。
作為DBA,我們應該時刻保持警惕,有道是”常在河邊站哪有不溼鞋“, 希望這次小事故(沒有造成更嚴重的影響,暫且算是小事故)給大家更多提醒,對於hpux nfs 我只能說,你厲害。
文盲筱燁 2015年7月30日 早
每天都會去檢視一下自動巡檢指令碼的輸出日誌,今天卻發現昨天沒有生成日誌,檢視out檔案,只輸出一半就沒了。接著敲了一個命令bdf ,輸出幾行後挺住了,終端後,檢視ogg,發現ogg出現一下問題:
點選(此處)摺疊或開啟
-
GGSCI (xxxxb) 1> info all
-
-
Program Status Group Lag at Chkpt Time Since Chkpt
-
-
MANAGER RUNNING
-
EXTRACT RUNNING DPESA 00:00:00 00:00:07
-
EXTRACT RUNNING DPESB 00:00:00 00:00:07
-
EXTRACT RUNNING DPESC 00:00:00 00:00:07
-
EXTRACT RUNNING EXTSA 00:00:00 38:34:50
-
EXTRACT RUNNING EXTSB 00:00:00 37:27:07
- EXTRACT RUNNING EXTSC 00:00:00 38:34:59
透過ogg相關資訊,確認歸檔日誌問題,當前系統為hpux,Oracle10g RAC 資料庫,在節點2搭建ogg,每個節點歸檔日誌存放於本地,節點1歸檔日誌透過nfs共享到節點2,目前透過bdf命令檢視,無法輸出透過nfs服務mount的節點1歸檔日誌目錄。
試著umount該歸檔目錄
點選(此處)摺疊或開啟
-
xxxb:/#umount /oracle/backup/arch1
-
nfs umount: nfs_unmount: /oracle/backup/arch1: is busy
- umount: return error 1.
點選(此處)摺疊或開啟
-
xxxxb:/#fuser /oracle/backup/arch1
-
/oracle/backup/arch1:
- NFS server xx.xx.xxx.xxx not responding still trying
檢視節點1nfs服務狀態,並沒有發現nfs服務資訊
點選(此處)摺疊或開啟
-
xxxa:/#rpcinfo -p
-
program vers proto port service
-
............................
-
-
100227 3 udp 2049
-
............................
-
............................
-
100227 2 tcp 2049
- 100227 3 tcp 2049
啟動節點1 nfs服務
點選(此處)摺疊或開啟
-
xxxa:/#/sbin/init.d/nfs.server start
-
ERROR: rpc.statd not running. Run "/sbin/init.d/lockmgr start" to start rpc.statd, exiting
-
xxxa:/#/sbin/init.d/lockmgr start
-
Starting up the Status Monitor daemon
-
/usr/sbin/rpc.statd
-
Starting up the lock manager daemon
-
/usr/sbin/rpc.lockd
-
xxxa:/#/sbin/init.d/nfs.server start
-
Starting NFS SERVER subsystem
-
-
Reading in /etc/dfs/dfstab
-
Starting up the mount daemon
-
/usr/sbin/rpc.mountd
-
Starting up the NFS server daemon
-
/usr/sbin/nfsd
- Starting up nfsmapid daemon
在節點2再次bdf檢視,各目錄正常。觀察ogg狀態,透過start ext* 命令啟動,發現最後一個還是ABENDED狀態
點選(此處)摺疊或開啟
-
GGSCI (xxxxb) 30> info all
-
-
Program Status Group Lag at Chkpt Time Since Chkpt
-
-
MANAGER RUNNING
-
EXTRACT RUNNING DPESA 00:00:00 00:00:04
-
EXTRACT RUNNING DPESB 00:00:00 00:00:03
-
EXTRACT RUNNING DPESC 00:00:00 00:00:04
-
EXTRACT RUNNING EXTSA 39:52:41 00:00:05
-
EXTRACT RUNNING EXTSB 40:38:07 00:00:03
- EXTRACT ABENDED EXTSC 00:00:00 38:52:58
檢視後臺日誌,發現沒有發現該歸檔日誌:
點選(此處)摺疊或開啟
- 2015-07-30 08:33:37 ERROR OGG-00446 Oracle GoldenGate Capture for Oracle, extsc.prm: Could not find archived log for sequence 196189 thread 1 under alternative destinations. SQL <SELECT MAX(sequence#) FROM v$log WHERE thread# = :ora_thread>. Last alternative log tried /oracle/backup/arch1/1_196189_691066444.dbf., error retrieving redo file name for sequence 196189, archived = 1, use_alternate = 0Not able to establish initial position for sequence 196189, rba 44734480.
點選(此處)摺疊或開啟
-
GGSCI (xxxxb) 104> info all
-
-
Program Status Group Lag at Chkpt Time Since Chkpt
-
-
MANAGER RUNNING
-
EXTRACT RUNNING DPESA 00:00:00 00:00:03
-
EXTRACT RUNNING DPESB 34:49:52 00:00:03
-
EXTRACT RUNNING DPESC 00:00:00 00:00:03
-
EXTRACT RUNNING EXTSA 00:00:00 00:00:04
-
EXTRACT RUNNING EXTSB 34:59:56 00:00:08
- EXTRACT RUNNING EXTSC 40:46:06 00:00:00
到此,ogg一直處於RUNNING狀態,程式開始抽取、投遞相關資料。
發生該問題原因主要是由於前天下午節點1例項資源耗盡,例項1資料庫停止,也造成nfs服務停止,期間所生成歸檔日誌存放於節點2目錄,啟動節點1例項後檢視資料庫、叢集服務正常,並未關注到NFS服務,造成今天早上的小驚慌。
三 總結
在日常運維中,我們總是習慣性檢視一些東西,就像在本次問題前,一般都會去檢視自動巡檢指令碼日誌,如果對日誌及日誌檢視不準備、及時的話很容易漏過一些問題,很幸運歸檔日誌保留3天,而在隔一天的早上筆者發現了問題,如果明天,歸檔日誌刪除了,也許造成的影響要大的多。
作為DBA,我們應該時刻保持警惕,有道是”常在河邊站哪有不溼鞋“, 希望這次小事故(沒有造成更嚴重的影響,暫且算是小事故)給大家更多提醒,對於hpux nfs 我只能說,你厲害。
文盲筱燁 2015年7月30日 早
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29487349/viewspace-1756315/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 測試,ogg從歸檔日誌中抽取資料
- OGG-00446 goldengate 抽取程式找不到相應的歸檔日誌的解Go
- [20181217]ogg抽取日誌分析.txt
- ORACLE OGG引數修改引起佇列檔案異常導致抽取程式無法啟動Oracle佇列
- Oracle+Ogg 歸檔丟失 重新導資料建立ogg同步步驟Oracle
- logminer異機挖掘歸檔日誌
- OGG整合抽取模式丟失歸檔處理模式
- Oracle OGG 到 Kafka OGG-01431 OGG-01003 OGG-01151 OGG-01296 OGG-01668OracleKafka
- OGG 表結構變化導致同步異常
- Oracle歸檔檔案丟失導致OGG不用啟動Oracle
- 各大作業系統AIX/HPUX/Solaris/Linux下的系統日誌作業系統AILinux
- 【Oracle】歸檔日誌管理-設定歸檔日誌路徑以及歸檔日誌冗餘Oracle
- 配置ogg異構oracle到mysqlOracleMySql
- OGG-01431 OGG-01003 OGG-01151 OGG-01003錯誤處理
- OGG問題處理(OGG-01031,OGG-01416)
- Linux下修改fstab檔案造成系統無法啟動Linux
- 歸檔日誌挖掘
- PostgreSQL 歸檔日誌SQL
- oracle歸檔日誌Oracle
- 模擬oracle rac節點異常時如何保持ogg正常執行Oracle
- OGG:manager
- JAVA異常和日誌Java
- ogg 同步kafka OGG-15051 Java or JNI exception:KafkaJavaException
- ELK日誌系統之通用應用程式日誌接入方案
- 歸檔oracle alert日誌Oracle
- 14. 日誌歸檔
- Oracle歸檔日誌清理Oracle
- 配置rman來自動刪除應用過的歸檔日誌
- pg 用ogg 同步大概步驟
- 手工rm刪除歸檔日誌對備份歸檔日誌的影響
- Oralce資料庫關閉歸檔日誌並且刪除歸檔日誌資料庫
- OGG到hadoopHadoop
- 批量註冊歸檔日誌
- OGG相關的CPATURE導致SYSAUX表空間異常暴增處理UX
- Standby_file_management引數導致日誌無法應用
- Java-異常、斷言和日誌Java
- 在Linux中,如何檢視和審計系統日誌檔案以檢測異常活動?Linux
- DG歸檔日誌缺失恢復
- ArgoWorkflow教程(四)---Workflow & 日誌歸檔Go