【OGG】hpux系統nfs異常造成OGG無法應用歸檔日誌

xysoul_雲龍發表於2015-07-30
一、起因
      每天都會去檢視一下自動巡檢指令碼的輸出日誌,今天卻發現昨天沒有生成日誌,檢視out檔案,只輸出一半就沒了。接著敲了一個命令bdf ,輸出幾行後挺住了,終端後,檢視ogg,發現ogg出現一下問題:


點選(此處)摺疊或開啟

  1. GGSCI (xxxxb) 1> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:07
  5. EXTRACT RUNNING DPESB 00:00:00 00:00:07
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:07
  7. EXTRACT RUNNING EXTSA 00:00:00 38:34:50
  8. EXTRACT RUNNING EXTSB 00:00:00 37:27:07
  9. EXTRACT RUNNING EXTSC 00:00:00 38:34:59
二 解決過程:

   透過ogg相關資訊,確認歸檔日誌問題,當前系統為hpux,Oracle10g RAC 資料庫,在節點2搭建ogg,每個節點歸檔日誌存放於本地,節點1歸檔日誌透過nfs共享到節點2,目前透過bdf命令檢視,無法輸出透過nfs服務mount的節點1歸檔日誌目錄。

 試著umount該歸檔目錄
點選(此處)摺疊或開啟
  1. xxxb:/#umount /oracle/backup/arch1
  2. nfs umount: nfs_unmount: /oracle/backup/arch1: is busy
  3. umount: return error 1.
透過fuser命令檢視該目錄資訊,顯示節點1 nfs服務沒有反應

點選(此處)摺疊或開啟

  1. xxxxb:/#fuser /oracle/backup/arch1
  2. /oracle/backup/arch1:
  3. NFS server xx.xx.xxx.xxx not responding still trying

檢視節點1nfs服務狀態,並沒有發現nfs服務資訊

點選(此處)摺疊或開啟

  1. xxxa:/#rpcinfo -p
  2.    program vers proto port service
  3.     ............................

  4.     100227 3 udp 2049
  5.     ............................
  6.     ............................
  7.     100227 2 tcp 2049
  8.     100227 3 tcp 2049

啟動節點1 nfs服務

點選(此處)摺疊或開啟

  1. xxxa:/#/sbin/init.d/nfs.server start
  2. ERROR: rpc.statd not running. Run "/sbin/init.d/lockmgr start" to start rpc.statd, exiting
  3. xxxa:/#/sbin/init.d/lockmgr start
  4.     Starting up the Status Monitor daemon
  5.         /usr/sbin/rpc.statd
  6.     Starting up the lock manager daemon
  7.         /usr/sbin/rpc.lockd
  8. xxxa:/#/sbin/init.d/nfs.server start
  9.     Starting NFS SERVER subsystem
  10.     
  11.     Reading in /etc/dfs/dfstab
  12.     Starting up the mount daemon
  13.         /usr/sbin/rpc.mountd
  14.     Starting up the NFS server daemon
  15.         /usr/sbin/nfsd
  16.       Starting up nfsmapid daemon

在節點2再次bdf檢視,各目錄正常。觀察ogg狀態,透過start ext* 命令啟動,發現最後一個還是ABENDED狀態


點選(此處)摺疊或開啟
  1. GGSCI (xxxxb) 30> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:04
  5. EXTRACT RUNNING DPESB 00:00:00 00:00:03
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:04
  7. EXTRACT RUNNING EXTSA 39:52:41 00:00:05
  8. EXTRACT RUNNING EXTSB 40:38:07 00:00:03
  9. EXTRACT ABENDED EXTSC 00:00:00 38:52:58

檢視後臺日誌,發現沒有發現該歸檔日誌:

點選(此處)摺疊或開啟

  1. 2015-07-30 08:33:37 ERROR OGG-00446 Oracle GoldenGate Capture for Oracle, extsc.prm: Could not find archived log for sequence 196189 thread 1 under alternative destinations. SQL <SELECT MAX(sequence#) FROM v$log WHERE thread# = :ora_thread>. Last alternative log tried /oracle/backup/arch1/1_196189_691066444.dbf., error retrieving redo file name for sequence 196189, archived = 1, use_alternate = 0Not able to establish initial position for sequence 196189, rba 44734480.
透過檢視節點2歸檔目錄,發現該歸檔日誌存在該目錄下,將其相關1節點歸檔日誌複製到響應目錄下,再次啟動ogg程式

點選(此處)摺疊或開啟

  1. GGSCI (xxxxb) 104> info all

  2. Program Status Group Lag at Chkpt Time Since Chkpt

  3. MANAGER RUNNING
  4. EXTRACT RUNNING DPESA 00:00:00 00:00:03
  5. EXTRACT RUNNING DPESB 34:49:52 00:00:03
  6. EXTRACT RUNNING DPESC 00:00:00 00:00:03
  7. EXTRACT RUNNING EXTSA 00:00:00 00:00:04
  8. EXTRACT RUNNING EXTSB 34:59:56 00:00:08
  9. EXTRACT RUNNING EXTSC 40:46:06 00:00:00

到此,ogg一直處於RUNNING狀態,程式開始抽取、投遞相關資料。
發生該問題原因主要是由於前天下午節點1例項資源耗盡,例項1資料庫停止,也造成nfs服務停止,期間所生成歸檔日誌存放於節點2目錄,啟動節點1例項後檢視資料庫、叢集服務正常,並未關注到NFS服務,造成今天早上的小驚慌。

三  總結

  在日常運維中,我們總是習慣性檢視一些東西,就像在本次問題前,一般都會去檢視自動巡檢指令碼日誌,如果對日誌及日誌檢視不準備、及時的話很容易漏過一些問題,很幸運歸檔日誌保留3天,而在隔一天的早上筆者發現了問題,如果明天,歸檔日誌刪除了,也許造成的影響要大的多。
   作為DBA,我們應該時刻保持警惕,有道是”常在河邊站哪有不溼鞋“, 希望這次小事故(沒有造成更嚴重的影響,暫且算是小事故)給大家更多提醒,對於hpux nfs 我只能說,你厲害。

文盲筱燁 2015年7月30日 早





來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29487349/viewspace-1756315/,如需轉載,請註明出處,否則將追究法律責任。

相關文章