資料庫異常關閉後無法啟動問題處理一例

tanxiaoke88發表於2009-11-28

資料庫異常關閉後無法啟動問題處理一例

作者:

來源:

某系統突然掉電,系統啟動後發現Oracle無法啟動。啟動時報如下錯誤:

ORA-01102 cannot mount database in EXCLUSIVE mode

出現1102錯誤可能有以下幾種可能:

一、在HA系統中,已經有其他節點啟動了例項,將雙機共享的資源(如磁碟陣列上的裸裝置)佔用了;

二、說明Oracle被異常關閉時,有資源沒有被釋放,一般有以下幾種可能,

1、 Oracle的共享記憶體段或訊號量沒有被釋放;

2、 Oracle的後臺程式(如SMONPMONDBWn等)沒有被關閉;

3、 用於鎖記憶體的檔案lksgadef.dbf檔案沒有被刪除。

首先,雖然我們的系統是HA系統,但是備節點的例項始終處在關閉狀態,這點透過在備節點上查資料庫狀態可以證實。

其次、是因系統掉電引起資料庫當機的,系統在接電後被重啟,因此我們排除了第二種可能種的12點。最可疑的就是第3點了。

$ORACLE_HOME/dbs目錄:

$ cd $ORACLE_HOME/dbs

$ ls sgadef*

sgadef* not found

$ ls lk*

lkORA92

果然,lk檔案沒有被刪除。將它刪除掉

$ rm lk*

再啟動資料庫,成功。

如果懷疑是共享記憶體沒有被釋放,可以用以下命令檢視:

$ipcs -mop

IPC status from /dev/kmem as of Thu Jul  6 14:41:43 2006

T      ID     KEY        MODE        OWNER     GROUP NATTCH  CPID  LPID

Shared Memory:

m       0 0x411c29d6 --rw-rw-rw-      root      root      0   899   899

m       1 0x4e0c0002 --rw-rw-rw-      root      root      2   899   901

m       2 0x4120007a --rw-rw-rw-      root      root      2   899   901

m  458755 0x0c6629c9 --rw-r-----      root       sys      2  9113 17065

m       4 0x06347849 --rw-rw-rw-      root      root      1  1661  9150

m   65541 0xffffffff --rw-r--r--      root      root      0  1659  1659

m  524294 0x5e100011 --rw-------      root      root      1  1811  1811

m  851975 0x5fe48aa4 --rw-r-----    oracle  oinstall     66  2017 25076

然後它ID號清除共享記憶體段:

$ipcrm –m 851975

對於訊號量,可以用以下命令檢視:

$ ipcs -sop

IPC status from /dev/kmem as of Thu Jul  6 14:44:16 2006

T      ID     KEY        MODE        OWNER     GROUP

Semaphores:

s       0 0x4f1c0139 --ra-------      root      root

... ...

s      14 0x6c200ad8 --ra-ra-ra-      root      root

s      15 0x6d200ad8 --ra-ra-ra-      root      root

s      16 0x6f200ad8 --ra-ra-ra-      root      root

s      17 0xffffffff --ra-r--r--      root      root

s      18 0x410c05c7 --ra-ra-ra-      root      root

s      19 0x00446f6e --ra-r--r--      root      root

s      20 0x00446f6d --ra-r--r--      root      root

s      21 0x00000001 --ra-ra-ra-      root      root

s   45078 0x67e72b58 --ra-r-----    oracle  oinstall

根據訊號量ID,用以下命令清除訊號量:

$ipcrm -s 45078

如果是Oracle程式沒有關閉,用以下命令查出存在的oracle程式:

$ ps -ef|grep ora

  oracle 29976     1  0  Jun 22  ?         0:52 ora_dbw0_ora92

  oracle 29978     1  0  Jun 22  ?         0:51 ora_dbw1_ora92

  oracle  5128     1  0  Jul  5  ?         0:00 oracleora92 (LOCAL=NO)

... ...

然後用kill -9命令殺掉程式

$kill -9 

總結:

當發生1102錯誤時,可以按照以下流程檢查、排錯:

  • 如果是HA系統,檢查其他節點是否已經啟動例項;

  • 檢查Oracle程式是否存在,如果存在則殺掉程式;

  • 檢查訊號量是否存在,如果存在,則清除訊號量;

  • 檢查共享記憶體段是否存在,如果存在,則清除共享記憶體段;

  • 檢查鎖記憶體檔案lksgadef<sid>.dbf是否存在,如果存在,則刪除。

來源

[@more@]

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/21340813/viewspace-1029159/,如需轉載,請註明出處,否則將追究法律責任。

相關文章