Grid Infrastructure 啟動的五大問題 (文件 ID 1526147.1)
In this Document
Applies to:
Oracle Database - Enterprise Edition - Version 11.2.0.1 and laterInformation in this document applies to any platform.
Purpose
本文件的目的是總結可能阻止 Grid Infrastructure (GI) 成功啟動的 5 大問題。
Scope
本文件僅適用於 11gR2 Grid Infrastructure。
要確定 GI 的狀態,請執行以下命令:
2. $GRID_HOME/bin/crsctl stat res -t -init
3. $GRID_HOME/bin/crsctl stat res -t
4. ps -ef | egrep 'init|d.bin'
Details
問題 1:CRS-4639:無法連線 Oracle 高可用性服務,ohasd.bin 未執行或 ohasd.bin 雖在執行但無 init.ohasd 或其他程式
症狀:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回錯誤:
CRS-4639: Could not contact Oracle High Availability Services
2. 命令“ps -ef | grep init”不顯示類似於如下所示的行:
root 4878 1 0 Sep12 ? 00:00:02 /bin/sh /etc/init.d/init.ohasd run
3. 命令“ps -ef | grep d.bin”不顯示類似於如下所示的行:
root 21350 1 6 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ohasd.bin reboot
或者它只顯示 "ohasd.bin reboot" 程式而沒有其他程式
可能的原因:
h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 2. 未達到執行級別 3,一些 rc3 指令碼掛起
3. Init 程式 (pid 1) 並未衍生 /etc/inittab (h1) 中定義的程式,或 init.ohasd 之前的不當輸入,如 xx:wait:
4. CRS 自動啟動已禁用
5. Oracle 本地登錄檔 ($GRID_HOME/cdata/
解決方案:
h1:35:respawn:/etc/init.d/init.ohasd run >/dev/null 2>&1 並以 root 使用者身份執行“init q”。
2. 執行命令“ps -ef | grep rc”,並kill看起來受阻的所有 rc3 指令碼。
3. 刪除 init.ohasd 前的不當輸入。如果“init q”未衍生“init.ohasd run”程式,請諮詢 OS 供應商
4. 啟用 CRS 自動啟動:
# crsctl enable crs
# crsctl start crs
5. 以 root 使用者身份從備份中恢復 OLR(Oracle 本地登錄檔):
# touch $GRID_HOME/cdata/
# chown root:oinstall $GRID_HOME/cdata/
# ocrconfig -local -restore$GRID_HOME/cdata/
# crsctl start crs
如果出於某種原因,OLR 備份不存在,要重建 OLR 就需要以 root 使用者身份執行 deconfig 並重新執行 root.sh:
# $GRID_HOME/crs/install/rootcrs.pl -deconfig -force
# $GRID_HOME/root.sh
問題 2:CRS-4530:聯絡叢集同步服務守護程式時出現通訊故障,ocssd.bin 未執行
症狀:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回錯誤:
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4530: Communications failure contacting Cluster Synchronization Services daemon
CRS-4534: Cannot communicate with Event Manager
2. 命令“ps -ef | grep d.bin”不顯示類似於如下所示的行:
oragrid 21543 1 1 22:24 ? 00:00:01 /u01/app/11.2.0/grid/bin/ocssd.bin
3. ocssd.bin 正在執行,但在 ocssd.log 中顯示訊息“CLSGPNP_CALL_AGAIN”後又中止執行
4. ocssd.log 顯示如下內容:
2012-01-27 13:42:58.796: [ CSSD][19]clssnmvDHBValidateNCopy: node 1, racnode1, has a disk HB, but no network HB, DHB has rcfg 223132864, wrtcnt, 1112, LATS 783238209,
lastSeqNo 1111, uniqueness 1327692232, timestamp 1327693378/787089065
5. 對於 3 個或更多節點的情況,2 個節點形成的叢集一切正常,但是,當第 3 個節點加入時就出現故障,ocssd.log 顯示如下內容:
2012-02-09 11:33:53.048: [ CSSD][1120926016](:CSSNM00008:)clssnmCheckDskInfo: Aborting local node to avoid splitbrain. Cohort of 2 nodes with leader 2, racnode2, is smaller than
cohort of 2 nodes led by node 1, racnode1, based on map type 2
2012-02-09 11:33:53.048: [ CSSD][1120926016]###################################
2012-02-09 11:33:53.048: [ CSSD][1120926016]clssscExit: CSSD aborting from thread clssnmRcfgMgrThread
6. 10 分鐘後 ocssd.bin 啟動超時
2012-04-08 12:04:33.153: [ CSSD][1]clssscmain: Starting CSS daemon, version 11.2.0.3.0, in (clustered) mode with uniqueness value 1333911873
......
2012-04-08 12:14:31.994: [ CSSD][5]clssgmShutDown: Received abortive shutdown request from client.
2012-04-08 12:14:31.994: [ CSSD][5]###################################
2012-04-08 12:14:31.994: [ CSSD][5]clssscExit: CSSD aborting from thread GMClientListener
2012-04-08 12:14:31.994: [ CSSD][5]###################################
2012-04-08 12:14:31.994: [ CSSD][5](:CSSSC00012:)clssscExit: A fatal error occurred and the CSS daemon is terminating abnormally
可能的原因:
2. 多播未正常工作(對於 11.2.0.2 及以上版本)
3. 私網未工作,ping 或 traceroute
4. 使用正常 ping 命令可對私網進行 ping 操作,但啟用巨幀時(MTU:9000+),不能使用巨幀尺寸(如:ping -s 8900
5. gpnpd 未出現,卡在 dispatch 執行緒中,
6. 透過 asm_diskstring 發現的磁碟太多,或由於 Bug 13454354 導致掃描太慢(僅在 Solaris 11.2.0.3 上出現)
解決方案:
如果 OCR ASM 磁碟組中的 voting disk已經丟失,以獨佔模式啟動 CRS,並重建表決磁碟:
# crsctl start crs -excl
# crsctl replace votedisk
2. 請參考 Document 1212703.1 ,瞭解多播功能的測試及修正
3. 諮詢網路管理員,恢復私網訪問或禁用私網防火牆(對於 Linux,請檢查服務 iptables 狀態和服務 ip6tables 狀態)
4. 如果巨幀在網路卡中啟用,則聯絡網路管理員在交換機層也啟用。
5. 終止正常執行節點上的 gpnpd.bin 程式,請參考 Document 10105195.8
一旦以上問題得以解決,請重新啟動 Grid Infrastructure。
如果 ping/traceroute 對私網均可用,但是問題發生在從 11.2.0.1 至 11.2.0.2 升級過程中,請檢查
獲取解決方法。
6. 透過提供更加具體的 asm_diskstring,限制 ASM 掃描磁碟的數量,請參考
對於 Solaris 11.2.0.3,請應用補丁 13250497,請參閱 Document 1451367.1.
問題 3:CRS-4535:無法與叢集就緒服務通訊,crsd.bin 未執行
症狀:
1. 命令“$GRID_HOME/bin/crsctl check crs”返回錯誤:
CRS-4638: Oracle High Availability Services is online
CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4529: Cluster Synchronization Services is online
CRS-4534: Cannot communicate with Event Manager
2. 命令“ps -ef | grep d.bin”不顯示類似於如下所示的行:
root 23017 1 1 22:34 ? 00:00:00 /u01/app/11.2.0/grid/bin/crsd.bin reboot
3. 即使存在 crsd.bin 程式,命令“crsctl stat res -t –init”仍然顯示:
ora.crsd
1 ONLINE INTERMEDIATE
可能的原因:
2. +ASM
3. OCR 無法訪問
4. 網路配置已改變,導致 gpnp profile.xml 不匹配
5. Crsd 的 $GRID_HOME/crs/init/
6. ocr.loc 內容與其他叢集節點不匹配。crsd.log 顯示:“Shutdown CacheLocal. my hash ids don't match”
解決方案:
2. 對於 11.2.0.2 以上版本,確保資源 ora.cluster_interconnect.haip 線上,請參考 Document 1383737.1 瞭解和HAIP相關的,ASM無法啟動的問題。
3. 確保 OCR 磁碟可用且可以訪問。如果由於某種原因丟失 OCR,請參考 Document 1062983.1 瞭解如何恢復OCR。
4. 恢復網路配置,與 $GRID_HOME/gpnp/
Document 283684.1 瞭解如何修改私網配置。
5. 請使用 touch 命令,在 $GRID_HOME/crs/init 目錄下建立名為
對於 11.2.0.1,該檔案歸
對於 11.2.0.2,該檔案歸 root 使用者所有。
6. 使用 ocrconfig 命令修正 ocr.loc 內容:
例如,作為 root 使用者:
# ocrconfig -repair -add +OCR2 (新增條目)
# ocrconfig -repair -delete +OCR2 (刪除條目)
以上命令需要 ohasd.bin 啟動並執行 。
一旦以上問題得以解決,請透過以下命令重新啟動 GI 或啟動 crsd.bin:
# crsctl start res ora.crsd -init
問題 4:Agent 或者 mdnsd.bin, gpnpd.bin, gipcd.bin 未執行
症狀:
1. orarootagent 未執行. ohasd.log 顯示:
2012-12-21 02:14:05.071: [ AGFW][24] {0:0:2} Created alert : (:CRSAGF00123:) : Failed to start the agent process: /grid/11.2.0/grid_2/bin/orarootagent Category: -1 Operation: fail Loc: canexec2 OS error: 0 Other : no exe permission, file [/grid/11.2.0/grid_2/bin/orarootagent]
2. mdnsd.bin, gpnpd.bin 或者 gipcd.bin 未執行, 以下是 mdnsd log中顯示的一個例子:
2012-12-31 21:37:27.601: [ clsdmt][1088776512]Creating PID [4526] file for home /u01/app/11.2.0/grid host lc1n1 bin mdns to /u01/app/11.2.0/grid/mdns/init/
2012-12-31 21:37:27.602: [ clsdmt][1088776512]Error3 -2 writing PID [4526] to the file []
2012-12-31 21:37:27.602: [ clsdmt][1088776512]Failed to record pid for MDNSD
或者
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Creating PID [4645] file for home /u01/app/11.2.0/grid host lc1n1 bin mdns to /u01/app/11.2.0/grid/mdns/init/
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Writing PID [4645] to the file [/u01/app/11.2.0/grid/mdns/init/lc1n1.pid]
2012-12-31 21:39:52.656: [ clsdmt][1099217216]Failed to record pid for MDNSD
3. oraagent 或 appagent 未執行, 日誌crsd.log顯示:
2012-12-01 00:06:24.462: [ AGFW][1164069184] {0:2:27} Created alert : (:CRSAGF00130:) : Failed to start the agent /u01/app/grid/11.2.0/bin/appagent_oracle
可能的原因:
2. 缺少程式相關的
3. GRID_HOME 所有者/許可權不對
解決方案:
# cd
# ./rootcrs.pl -unlock
# ./rootcrs.pl -patch
這將停止叢集軟體,對需要的檔案的所有者/許可權設定為root使用者,並且重啟叢集軟體。
2. 如果對應的
這裡是
./ologgerd/init/
./osysmond/init/
./ctss/init/
./ohasd/init/
./crs/init/
所有者屬於
./mdns/init/
./evm/init/
./gipc/init/
./gpnp/init/
3. 對第3種原因,請參考解決方案1
問題 5:ASM 例項未啟動,ora.asm 不線上
症狀:
1. 命令“ps -ef | grep asm”不顯示 ASM 程式
2. 命令“crsctl stat res -t –init”顯示:
ora.asm
1 ONLINE OFFLINE
可能的原因:
2. ASM discovery string不正確,因此無法發現 voting disk/OCR
3. ASMlib 配置問題
4. ASM例項使用不同的cluster_interconnect, 第一個節點 HAIP OFFLINE 導致第二個節點ASM例項無法啟動
解決方案:
2. 請參考 Document 1077094.1 以更正 ASM discovery string。
3. 請參考 Document 1050164.1 以修正 ASMlib 配置。
4. 請參考 Document 1383737.1 作為解決方案。請參考 Document 1210883.1 瞭解更多HAIP資訊
要進一步除錯 GI 啟動問題,請參考 Document 1050908.1 Troubleshoot Grid Infrastructure Startup Issues.
來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/751371/viewspace-773901/,如需轉載,請註明出處,否則將追究法律責任。
相關文章
- 【GRID】Grid Infrastructure 啟動的五大問題 (Doc ID 1526147.1)ASTStruct
- 診斷 Grid Infrastructure 啟動問題 (文件 ID 1623340.1)ASTStruct
- 最常見的5個CRS/Grid Infrastructure 安裝問題 (文件 ID 1549192.1)ASTStruct
- 常見的 11gR2 Grid Infrastructure 升級問題 (文件 ID 1602048.1)ASTStruct
- 【MOS】Top 5 Grid Infrastructure Startup Issues (文件 ID 1368382.1)ASTStruct
- 12c Grid Infrastructure 管理資料庫(GIMR) 問答 (文件 ID 2047608.1)ASTStruct資料庫
- Oracle Grid Infrastructure for a Standalone ServerOracleASTStructServer
- clone grid INfrastructure Home and clusterwareASTStruct
- Oracle Clusterware and Oracle Grid InfrastructureOracleASTStruct
- 11g oracle database installation with oracle grid infrastructure on linux(文件)OracleDatabaseASTStructLinux
- How to Troubleshoot Grid Infrastructure Startup IssuesASTStruct
- Oracle grid infrastructure 解除安裝OracleASTStruct
- DNS and DHCP Setup Example for Grid Infrastructure GNSDNSASTStruct
- 記錄下 patch Grid Infrastructure for StandaloneASTStruct
- Ins-06001 During Grid Infrastructure Installation (文件 ID 1270620.1)ASTStruct
- Oracle Grid Infrastructure Patch Set Update 11.2.0.4.3OracleASTStruct
- 安裝 11gR2 Grid Infrastructure(CRS)失敗的處理過程 (文件 ID 1946678.1)ASTStruct
- 重新配置 11gR2 Grid InfrastructureASTStruct
- Database Creation on 11.2 Grid Infrastructure with Role SeparationDatabaseASTStruct
- How to Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]ASTStruct
- Troubleshoot Grid Infrastructure Startup Issues (Doc ID 1050908.1)ASTStruct
- Apply PSU for Grid Infrastructure Standalone and DB with Oracle RestartAPPASTStructOracleREST
- 升級Grid Infrastructure到10.2.0.2 遭遇bug 9413827ASTStruct
- 聊聊兩種給Grid Infrastructure打補丁的方法(上)ASTStruct
- 聊聊兩種給Grid Infrastructure打補丁的方法(下)ASTStruct
- backup or restore OLR in 11.2 Grid Infrastructure (Doc ID 1193643.1)RESTASTStruct
- 【RAC】How to Troubleshoot Grid Infrastructure Startup Issues [ID 1050908.1]ASTStruct
- 為11gR2 Grid Infrastructure增加新的public網路ASTStruct
- android studio 啟動問題Android
- Oracle 12c Grid Infrastructure for a Standalone Server on Oracle Linux 7OracleASTStructServerLinux
- 【MOS】How to backup or restore OLR in 11.2/12c Grid InfrastructureRESTASTStruct
- oracle linux 11.2 rac grid infrastructure add scan ipOracleLinuxASTStruct
- redhat linux 11.2 rac grid infrastructure add scan ipRedhatLinuxASTStruct
- Master Note for RAC Oracle Clusterware and Oracle Grid Infrastructure 1096952.ASTOracleStruct
- 【轉】How to recover from root.sh on 11.2 Grid Infrastructure FailedASTStructAI
- [INS-40406] The installer detects no existing Oracle Grid Infrastructure ...OracleASTStruct
- Deconfigure/Reconfigure(Rebuild OCR) or Deinstall Grid InfrastructureRebuildASTStruct
- 設定ORACLE GRID CONTROL 自動啟動Oracle