某省ORACLE10G RAC資料庫CRS啟動失敗問題處理

發表於2011-01-03

作者:shenguokun
http://sinobestdba.itpub.net

1 問題描述

兩節點Oracle 10g RAC資料庫,節點node1上的CRS啟動失敗,但節點node2上的CRS啟動成功。在節點node1上輸入crsctl start crs 命令後,在作業系統上看不到crs的程式。

[@more@]

2 執行環境

2.1 硬體環境
IBM P570
CPU 2 * 1900 MHz PowerPC_POWER5
記憶體 5888 MB
作業系統 IBM AIX 5300-04
陣列型號 IBM DS8100

2.2 資料庫配置

資料庫版本和架構 Oracle 10.2.0.3 RAC


3 處理過程

3.1 檢查CRS日誌

檢查節點node1上的CRS日誌$ORA_CRS_HOME/log ,沒發現有近期的CRS程式日誌內容,沒有日誌的原因是crs程式根本沒有啟動。

3.2 檢查VOTE盤與OCR盤

1. 檢視CRS安裝配置檔案,獲取OCR盤和VOTE盤的名稱

more $ORA_CRS_HOME/install/rootconfig

……

CRS_OCR_LOCATIONS=/dev/rhdisk3,dev/rhdisk4

……

CRS_VOTING_DISKS=/dev/rhdisk5,dev/rhdisk7,/dev/rhdisk8

……

2. 檢查OCR盤VOTE盤屬主及讀寫許可權

ls -l /dev/rhdisk*

檢查結果顯示OCR盤VOTE盤的屬主和讀寫許可權都正確:OCR盤屬主root:oinstall,VOTE盤屬主oracle:dba ,讀寫許可權都是660

3. 檢查OCR盤

ocrcheck

檢查結果顯示OCR盤正常:Cluster registry integrity check succeeded

4. 檢查VOTE盤

crsctl query css votedisk

3.3 檢查$ORA_CRS_HOME目錄的屬性和許可權

ls -l $ORA_CRS_HOME

$ORA_CRS_HOME目錄的屬性和許可權正常

3.4 crsctl check boot

使用crsctl check boot命令檢查crs程式不能啟動的原因

命令結果顯示 node1-priv 私有網路出錯

3.5 測試CRS私網

ping node1-priv 失敗

確認是node1-priv網路出現異常導致CRS無法啟動

3.6 檢查私有網路卡

1. lsdev -Cc adapter

ent0 Available 05-08 10/100/1000 Base-TX PCI-X Adapter (14106902)

ent1 Available 07-08 10/100/1000 Base-TX PCI-X Adapter (14106902)

ent2 Available 0B-08 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)

ent3 Available 0B-09 2-Port 10/100/1000 Base-TX PCI-X Adapter (14108902)

ent4 Available 0C-08 10/100/1000 Base-TX PCI-X Adapter (14106902)

ent5 Available 0G-08 10/100/1000 Base-TX PCI-X Adapter (14106902)

ent6 Available EtherChannel / IEEE 802.3ad Link Aggregation

ent7 Defined EtherChannel / IEEE 802.3ad Link Aggregation

ent7狀態不正常

2. lsattr -El ent7

adapter_names ent0 EtherChannel Adapters True

alt_addr 0x000000000000 Alternate EtherChannel Address True

auto_recovery yes Enable automatic recovery after failover True

backup_adapter ent1 Adapter used when whole channel fails True

hash_mode default Determines how outgoing adapter is chosen True

mode standard EtherChannel mode of operation True

netaddr Address to ping True

num_retries 3 Times to retry ping before failing True

retry_time 1 Wait time (in seconds) between pings True

use_alt_addr no Enable Alternate EtherChannel Address True

use_jumbo_frame no Enable Gigabit Ethernet Jumbo Frames True

ent7 是由ent0和ent1做了 EtherChannel後生成的虛擬網路卡

3. ifconfig -a

en1: flags=5e080862,c0

inet 192.168.2.34 netmask 0xffffff00 broadcast 192.168.2.255

tcp_sendspace 131072 tcp_recvspace 65536

發現en1被錯誤地配置了IP地址,en1上不應該配IP地址

3.7 重新配置EtherChannel

1. 刪除ent7 ent0 ent1

rmdev -dl ent7

rmdev -dl en0

rmdev -dl en1

2. 重新搜尋硬體

cfgmgr

3. 配置EtherChannel

smitty

參考原來的EtherChannel配置生成ent7網路卡

3.8 在ent7上配置私網地址

smitty tcpip

3.9 重新啟動CRS

crsctl start crs

crs正常啟動,問題解決


4 總結

4.1 問題原因總結

本次資料庫故障(CRS不能啟動)的原因是由於維護人員在配置IP地址時,沒注意到原有的CRS私網網路卡採用了EtherChannel網路埠綜合技術,在EtherChannel成員網路卡上又配置了IP地址,導致EtherChannel網路卡失效,CRS啟動失敗。

解決該問題的辦法是:清除EtherChannel成員網路卡上的IP地址,重新配置EtherChannel

4.2 CRS啟動失敗診斷方法

1. 使用crs check boot命令分析CRS程式不能引導的原因

2. 檢查CRS私有網路是否暢通

使用ping命令檢查

3. 檢查OCR盤VOTE盤讀寫許可權或屬主是否正確

OCR盤屬主root:oinstall,VOTE盤屬主oracle:dba ,讀寫許可權都是660

4. 檢查$ORA_CRS_HOME目錄讀寫許可權或屬主是否正確

5. 檢查主機名是否被修改過

比對$ORA_CRS_HOME/install/rootconfig中記載的主機名和目前的實際主機名是否一致

4.3 處理過程中曾出現的其它問題

1. 使用rmdev -dl ent1命令刪除網路卡失敗

現象:

#rmdev -dl ent1

Method error (/usr/lib/methods/ucfgcommo):

0514-062 Cannot perform the requested function because the

specified device is busy.

問題原因:ent1已經配置有IP地址

解決方法:1) 刪除ent1上的IP地址; 2)rmdev -dl en1 ;3)cfgmgr

2. 啟動CRS出錯1

現象:

#crsctl start crs

Attempting to start CRS stack

Failure at scls_scr_create with code 1

Internal Error Information:

Category: 1234

Operation: scls_scr_create

Location: mkdir

Other: Unable to make user dir

Dep: 2

問題原因:在重新配置IP地址時誤改了主機名

解決方法:1) 把主機名改回原來的名字;2)重啟主機


3. 啟動CRS出錯2

現象:

#crsctl check boot

Failure in CSS initialization opening OCR.

問題原因:主機名修改後沒有重啟主機

解決方法:重啟主機

4. 啟動CRS出錯3

現象:crsctl check boot沒有報錯,但輸入crsctl start crs命令後crs程式還是無法啟動,曾經出現過類似crs stop的程式

問題原因:上一次crs沒有被正常關閉

解決方法:1) crsctl stop crs ; 2) crsctl start crs

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/24870090/viewspace-1044062/,如需轉載,請註明出處,否則將追究法律責任。

相關文章