幫前同事診斷一個ASM無法啟動的問題。

資料庫環境Oracle 10.2.0.3 RAC for Solaris 10 sparc64，由於作業系統故障，導致例項2主機無法啟動，在嘗試重做系統時發現例項1上的ASM無法正常啟動。

詳細錯誤資訊為：

bash-3.00# su - oracle
Oracle Corporation SunOS 5.10 Generic Patch January 2005
bash-3.00$ export ORACLE_SID=+ASM1
bash-3.00$ sqlplus / as sysdba

SQL*Plus: Release 10.2.0.3.0 - Production on Sun Jun 5 20:14:01 2011

Connected to an idle instance.

SQL> startup
ORA-27125: unable to create shared memory segment
SVR4 Error: 14: Bad address
SQL> exit
Disconnected

這個ORA-27125的錯誤資訊到是很常見，一般來說都是/etc/system中引數配置不合理導致SGA分配受到限制。

不過對於ASM例項而言，分配的SGA很有限，不應該出現這個錯誤，而且隨後的SVR4 Error: 14: Bad address錯誤資訊更是說明的錯誤並不一般。

打算透過ipcs檢查當前是否已經存在共享記憶體段，結果發現了錯誤：

bash-3.00$ ipcs
IPC status from as of Sun Jun 5 20:14:43 CST 2011
Bad System Call (core dumped)

第一次執行出現Bad System Call (core dumped)錯誤，而再次執行還可能碰到下面的錯誤：

# ipcs
IPC status from as of Sun Jun 5 20:57:20 CST 2011
T ID KEY MODE OWNER GROUP
Message Queues:
shmids: Bad address

檢查了/etc/system檔案，雖然有些配置不太合理，但是理論上講不應該出現這個錯誤。修改這個檔案，並根據Oracle推薦的值進行了修改，重新啟動主機，問題依舊。

檢查作業系統日誌，果然發現了錯誤：

Jun 5 20:49:23 ser02 genunix: [ID 936769 kern.info] emcp8 is /pseudo/emcp@8
Jun 5 20:49:23 ser02 pseudo: [ID 129642 kern.info] pseudo-device: emcp14
Jun 5 20:49:23 ser02 genunix: [ID 936769 kern.info] emcp14 is /pseudo/emcp@14
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/QLGC,qlc@1/fp@0,0/ssd@w5006016341e0ac1c,0 (ssd1):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/QLGC,qlc@1/fp@0,0/ssd@w5006016341e0ac1c,0 (ssd1):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016241e0ac1c,0 (ssd8):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016241e0ac1c,0 (ssd8):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016a41e0ac1c,3 (ssd10):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:49:23 ser02 scsi: [ID 107833 kern.warning] WARNING: /pci@8,600000/fibre-channel@2/fp@0,0/ssd@w5006016a41e0ac1c,3 (ssd10):
Jun 5 20:49:23 ser02 drive offline
Jun 5 20:50:12 ser02 genunix: [ID 482702 kern.notice] sys/shmsys:shmexit() not defined properly
Jun 5 20:58:42 ser02 snmpXdmid: [ID 216524 daemon.error] Registration with DMI failed. err = 831.

這裡出現了sys/shmsys:shmexit() not defined properly錯誤資訊，懷疑目前作業系統的記憶體配置存在問題，導致了ipcs命令的錯誤。當然，作業系統命令都出現CORE DUMP，Oracle資料庫或ASM例項是沒有可能正常工作的。

最終這個問題居然是根據我以前一篇文件給出的方法解決的，那就是從啟動盤中找到了/kernel/sys/sparcv9目錄下的semsys和shmsys檔案，覆蓋本機上對應的檔案，再重啟伺服器。

關於上次碰到的ipcs出現CORE DUMP錯誤的描述，可以參考：http://yangtingkun.itpub.net/post/468/504417

ASM啟動ORA-27125錯誤診斷

相關文章