一次Oracle 10g RAC 非正常DOWN後,CRS起不來一次解決過程
PRD系統..幫朋友解決的..
寫的有點亂,我自己能看明白..呵呵方便再用的查詢
[@more@]環境:
RedHat Linux ent4 +Oracle 10g RAC(10.2.0.1)+ASM
故障現象:
- 在沒有正常關閉Oracle 資料庫的任何元件的情況下,reboot機器.
- Reboot後,CRS起不來.
解決過程:
- 聽取故障產生的過程
- 登陸到系統到系統中
ps -ef | grep crs /evm/css
發現只有/etc/ini.d下的自動啟動守侯程式啟動
ps -ef |grep d.bin
無任何程式,說明CRS沒有啟動
- 切換到root 使用者./opt/oracle/product/10g/crs/bin/crsctl start crs
再次ps -ef | grep d.bin
- 確認兩臺機器的網路等效性
root/oracle 使用者都測試一下,發現root不可以,rsh TEST2 ls .
把SERVER REBOOT
root/oracle 使用者下,.rhost 裡都加上相互的TEST2-priv root/oracle TEST2-vip root/oracle ,並賦予755許可權
最後等效性成功
發現有短暫的程式起來後,但馬上就沒有
- 檢視CRS日誌,發現自從SERVER REBOOT後,沒有任何的CRS日誌,同時也沒有
但發現如下的日誌:
2008-07-26 18:26:25.610: [ OCRCONF][3086862016]ocrconfig starts...
2008-07-26 18:26:27.276: [ OCRCONF][3086862016]Failure initializing ocr in DEFAULT. REBOOT INSTALL. err :[PROC-32: Cluster Ready Services on the local node is not running Messaging error [9]]
2008-07-26 18:26:27.289: [ OCRRAW][3086862016]propriogid:1: INVALID FORMAT
2008-07-26 18:26:27.289: [ OCRRAW][3086862016]proprioini: disk 0 (/dev/raw/raw1) doesn't have enough votes (1,2)
2008-07-26 18:26:27.290: [ OCRRAW][3086862016]proprinit: Could not open raw device
2008-07-26 18:26:27.290: [ default][3086862016]a_init:7!: Backend init unsuccessful : [26]
2008-07-26 18:26:27.290: [ OCRCONF][3086862016]Failure in initializing ocr in INSTALL level. error:[PROC-26: Error while accessing the physical storage]
2008-07-26 18:26:27.290: [ OCRCONF][3086862016]Exiting [status=failed]...
- crsctl query css votedisk
發現沒資料出來
- ocrcheck 沒資料出來
現在已經判定是由於RAW的找不到造成的原因了
-/sbin/ifconfig
檢視網路沒問題
/etc/sysconfig/rawdevices 2個節點上
檢視對應的RAW
chmod 777 所有CRS/VOTING 相關的RAW都改變許可權
- service rawdevices restart(service cluster start) 2個節點上
顯示都正常
- sbin/cluconfig(配置CLUSTER的命令)(沒用到)
- /sbin/fdisk -l 檢視disk 2個節點上都看,顯示正常
- 讓作業系統的管理的
dd 實驗一下,是否那些RAW是可以用的,回答是可以用的
兩邊都可以,所以,RAW是可以用的
現在可以基本判定是CRS的配置檔案壞了
- 讓他們恢復昨天晚上8點的備份過來
採用DD的方式.
- 再次去檢視對應的RAW的檔案屬性,是否是DBA屬組..把許可權許可權改成777
- crsctl query css votedisk
出現對應的RAW裝置了
- ocrcheck 有正常顯示
- ps -ef |grep d.bin
相關的程式起來了
- ps -ef | grep tns
監聽起來了
- ps -ef | grep ora_
資料庫程式起來了
說明TEST1沒任何問題了
現在可以去檢查第2個節點了
同樣都起來了
至此,問題得到完全的解決~
總結:
- 要按正常的流程起停資料庫
- LINUX的東西還真不穩定
- 系統本身有問題,安裝的時候可能就不完善
- 沒打任何補丁,沒任何安全保障
- 業務需要沒必要用那麼複雜的配置,維護成本太高
- 沒有任何規劃,問題多多
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/7318139/viewspace-1007915/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 一次難忘的協助解決Oracle RAC恢復過程Oracle
- 一次RAC節點當機的解決過程
- oracle 10g CRS不能啟動解決過程(hp-ux)Oracle 10gUX
- Oracle ebs apache 啟動不起來的問題解決過程OracleApache
- Oracle ebs apach 啟動不起來的問題解決過程Oracle
- 一次線上問題的排查解決過程
- 一次sqlldr匯入慢的解決過程SQL
- 一次RAC單例項DOWN機的診斷單例
- 如何解決機器重啟後MySql服務跑不起來了1067,附解決過程MySql
- 一次oracle 11g 資料泵 報錯 的解決過程Oracle
- 一次oracle rac 監聽不定時offline處理過程Oracle
- 一次盤陣down掉導致的oracle rac失敗總結(原)Oracle
- 記一次 Composer 問題的解決過程!!
- 一次library cache pin故障的解決過程
- 【故障處理】一次RAC故障處理過程
- 一次ORACLE字元轉換分析過程Oracle字元
- 搭建ORACLE 10g RAC過程中出現 OUI-25031 的解決辦法Oracle 10gUI
- Oracle 10g RAC 靜默安裝過程Oracle 10g
- 記一次bug解決過程(數字轉化成中文)
- 【原創】cache buffer chains的一次解決過程AI
- 記一次RAC Brain Split腦裂分析過程AI
- 手動清除Oracle 10g RAC CRS的方法Oracle 10g
- [zt] Oracle10g EM起不來解決方法Oracle
- AIX系統儲存故障後的Oracle 10g RAC恢復過程AIOracle 10g
- 一次Oracle資料庫恢復過程Oracle資料庫
- 記錄一次排查解決伺服器卡死的過程伺服器
- shut down and start crs for Oracle10GOracle
- oracle 10g crs 不能啟動問題解決案例Oracle 10g
- Oracle 10g RAC CRS-0184 linuxOracle 10gLinux
- 一次ygc越來越慢的問題排查過程GC
- ORACLE 10G RAC故障: crs_stop -all 命令後遇到 UNKNOW,一頓折騰後好了Oracle 10g
- 記一次透過Memory Analyzer分析記憶體洩漏的解決過程記憶體
- 一次HTTP通訊過程HTTP
- 【RAC】Oracle11g RAC CRS磁碟丟失後恢復Oracle
- 詳細記錄一次npm i canvas報錯的解決過程NPMCanvas
- 分享一次分析/解決支付應用效能問題的全過程
- 一次rac+dataguard 建立過程遇到密碼檔案問題密碼
- 一次JVM_OLD區佔用過高、頻繁Full GC的解決過程JVMGC