ASM啟動ORA-27125錯誤診斷

yangtingkun發表於2011-06-08

幫前同事診斷一個ASM無法啟動的問題。

 

 

資料庫環境Oracle 10.2.0.3 RAC for Solaris 10 sparc64,由於作業系統故障,導致例項2主機無法啟動,在嘗試重做系統時發現例項1上的ASM無法正常啟動。

詳細錯誤資訊為:

bash-3.00# su - oracle
Oracle Corporation SunOS 5.10 Generic Patch January 2005
bash-3.00$ export ORACLE_SID=+ASM1
bash-3.00$ sqlplus / as sysdba

SQL*Plus: Release 10.2.0.3.0 - Production on Sun Jun 5 20:14:01 2011

Copyright (c) 1982, 2006, Oracle. All Rights Reserved.

Connected to an idle instance.

SQL> startup
ORA-27125: unable to create shared memory segment
SVR4 Error: 14: Bad address
SQL> exit
Disconnected

這個ORA-27125的錯誤資訊到是很常見,一般來說都是/etc/system中引數配置不合理導致SGA分配受到限制。

不過對於ASM例項而言,分配的SGA很有限,不應該出現這個錯誤,而且隨後的SVR4 Error: 14: Bad address錯誤資訊更是說明的錯誤並不一般。

打算透過ipcs檢查當前是否已經存在共享記憶體段,結果發現了錯誤:

bash-3.00$ ipcs
IPC status from as of Sun Jun 5 20:14:43 CST 2011
Bad System Call (core dumped)

第一次執行出現Bad System Call (core dumped)錯誤,而再次執行還可能碰到下面的錯誤:

# ipcs
IPC status from as of Sun Jun 5 20:57:20 CST 2011
T ID KEY MODE OWNER GROUP
Message Queues:
shmids: Bad address

檢查了/etc/system檔案,雖然有些配置不太合理,但是理論上講不應該出現這個錯誤。修改這個檔案,並根據Oracle推薦的值進行了修改,重新啟動主機,問題依舊。

檢查作業系統日誌,果然發現了錯誤:

Jun 5 20:49:23 ser02 genunix: [ID 936769 kern.info] emcp8 is /pseudo/emcp@8
Jun 5 20:49:23 ser02 pseudo: [ID 129642 kern.info] pseudo-device: emcp14
Jun 5 20:49:23 ser02 genunix: [ID 936769 kern.info] emcp14 is /pseudo/emcp@14
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/QLGC,qlc@1/fp@0,0/ssd@w5006016341e0ac1c,0 (ssd1):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/QLGC,qlc@1/fp@0,0/ssd@w5006016341e0ac1c,0 (ssd1):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016241e0ac1c,0 (ssd8):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016241e0ac1c,0 (ssd8):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016a41e0ac1c,3 (ssd10):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016a41e0ac1c,3 (ssd10):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:50:12 ser02 genunix: [ID 482702 kern.notice] sys/shmsys:shmexit() not defined properly
Jun 5 20:58:42 ser02 snmpXdmid: [ID 216524 daemon.error] Registration with DMI failed. err = 831.

這裡出現了sys/shmsys:shmexit() not defined properly錯誤資訊,懷疑目前作業系統的記憶體配置存在問題,導致了ipcs命令的錯誤。當然,作業系統命令都出現CORE DUMPOracle資料庫或ASM例項是沒有可能正常工作的。

最終這個問題居然是根據我以前一篇文件給出的方法解決的,那就是從啟動盤中找到了/kernel/sys/sparcv9目錄下的semsysshmsys檔案,覆蓋本機上對應的檔案,再重啟伺服器。

關於上次碰到的ipcs出現CORE DUMP錯誤的描述,可以參考:http://yangtingkun.itpub.net/post/468/504417

 

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/4227/viewspace-697449/,如需轉載,請註明出處,否則將追究法律責任。

相關文章