裝oracle 10g的RAC問題真多。。。。。

wenaini發表於2008-08-21
裝oracle 10g的RAC問題真多[@more@]

Linux AS4U4 X86_64,ORACLE 10.2.0.3
一開始SA為了偷懶裝的AS5,單例項沒問題,可是要用ASM,去oracle網站一找,核心太高階。。。。沒有對應的ASMLIB,其實也可以裝就是不要asmlib了,但是歐想穩定第一,忽悠SA重灌了AS4U4。
初始化裸裝置的時候執行裸裝置繫結重啟完服務發現綁不上,重啟os搞定,ASMlib安裝時因為記憶體有64G必須打ELlargesmp,不然asm configure失敗。。。之後安裝軟體時第三個節點遇到:

Error while copying directory
  /u01/app/oracle/product/crs with exclude file list 'null' to nodes 'linux2'.
 [PRKC-1002 : All the submitted commands did not execute successfully]
---------------------------------------------
 linux2:
  /bin/tar: ./bin/lsnodes: time stamp 2006-09-13 09:21:34 is 735 s in the future
  /bin/tar: ./bin/olsnodes: time stamp 2006-09-13 09:21:34 is 735 s in the future
  ...(more errors on this node) 看了下第三個節點比前2個慢1秒。。。調整下時間ok了,其實不調整也沒問題。

,到達了執行crs的root.sh,前2個節點沒問題,卡在第三個節點的Startup will be queued to init within 90 seconds。判斷下多半是裸裝置訪問問題造成ocr檔案無法讀取咯,可是三個節點配置一樣,看了卡住節點的/var/log/messages發現下面的內容:
Aug 20 13:23:39 bj15-77 oracle: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.8805
[root@bj15-77 oracle]# more /tmp/crsctl.8805
OCR initialization failed accessing OCR device: PROC-26: Error while accessing the physical storage Operating System error [Permission denied] [13]
查了metalink發現中獎,bug 438141.1,第三個節點一直卡著,不要ctrl+c退出,直接chmod +x /dev/raw,解決。
系統起來後發現有2個節點監聽起不來,lsnrctl status/start/stop都報:
TNS-12541: TNS:no listener
TNS-12560: TNS:protocol adapter error
TNS-00511: No listener
Linux Error: 111: Connection refused
手工kill了ps -ef |grep lsnr的程式然後lsnrctl start又是好的。。。
看了下metalink都說hosts問題,看了下也沒啥問題啊。想了下看了看listener.ora:
LISTENER_BJ15-77 =
(DESCRIPTION_LIST =
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = BJ3-VIP)(PORT = 1521)(IP = FIRST))
(ADDRESS = (PROTOCOL = TCP)(HOST = 61.106.55.71)(PORT = 1521)(IP = FIRST))
)
)
估計是這裡出問題了,VIP服務還沒起來監聽就探測結果出問題。而且這樣的監聽只會監聽固定ip地址,而不會監聽0.0.0.0 1521。如果其他節點的VIP漂移過來,它就不能監聽VIP了。oracle的netca工具實在不怎麼樣。。。不過也沒法說是bug,還是自己來吧
改為:
LISTENER_BJ15-77 =
(DESCRIPTION_LIST =
(DESCRIPTION =
(ADDRESS = (PROTOCOL = TCP)(HOST = bj15-77)(PORT = 1521))
)
)
ok了
開始建庫了,注意把防火牆關掉不然有時候會遇上bug,dbca卡住除非ctrl+c強退。進行到分配記憶體,DBCA顯示資料庫分配記憶體SGA 1.5G,PGA 6G?以為核心引數有問題,後來發現不設定AUTO手動制定SGA和PGA的target就可以,設了20G的SGA。看來oracle不大習慣64g記憶體。。。。
之後遇到最大的問題了。。。。重啟了os之後,發現asm起不來,嘗試手動啟動了asm例項,然後手工mount磁碟組,居然告訴我沒有磁碟組,報了ORA-15032/ORA-15063錯誤,alert裡面是:
SQL> alter diskgroup dg1 mount
Wed Aug 20 17:18:05 2008
NOTE: cache registered group DG1 number=1 incarn=0x7a8c8fbd
Wed Aug 20 17:18:05 2008
Loaded ASM Library - Generic Linux, version 2.0.2 (KABI_V2) library for asmlib interface
Wed Aug 20 17:18:05 2008
ERROR: no PST quorum in group 1: required 2, found 0
Wed Aug 20 17:18:05 2008
NOTE: cache dismounting group 1/0x7A8C8FBD (DG1)
NOTE: dbwr not being msg'd to dismount
ERROR: diskgroup DG1 was not mounted
恩比較眼熟,繼續metalink。。。。發現都是bug。看了下/dev/oracleasm/disks,居然沒有一個ASM磁碟了!!原來我有VOL1-VOL4阿。基本確定bug了,找到解決方法:
/etc/init.d/oracleasm force-renamedisk /dev/sdc1 VOL1
/etc/init.d/oracleasm scandisk
reboot os
mlgbd終於沒問題了,還好不是asm disk的header損壞不然要kfed了。。。。。。

類似的問題還有裝配ASM例項時,第一個節點沒問題,後面的節點全部報ORA-15032,ORA-15063。導致之後庫建好除了第一個節點其他例項都無法啟動。檢查/dev/oracleasm/disk發現沒有磁碟,可以重啟解決,或者使用scandisk
然後在sqlnet.ora中加上CDC穿防火牆就基本ok了。。。。累死我鳥裝一次碰到bug數量趕上以前10次的了。。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/79686/viewspace-1009250/,如需轉載,請註明出處,否則將追究法律責任。

相關文章