RAC 和 Oracle Clusterware 最佳實踐和初學者指南 (AIX)1526555.1

rongshiyuan發表於2013-06-08

  

RAC 和 Oracle Clusterware 最佳實踐和初學者指南 (AIX) [ID 1526555.1]

In this Document

Purpose
Scope
Details
RAC Assurance 支援團隊:RAC 和 Oracle Clusterware 初學者指南和最佳實踐(不區分平臺)
RAC 特定平臺的初學者指南和最佳實踐
RAC on AIX 分步安裝說明
RAC on AIX 最佳實踐
OS 配置注意事項
儲存注意事項
網路注意事項
Oracle 軟體注意事項
References

Applies to:

Oracle Database - Enterprise Edition - Version 10.2.0.1 to 11.2.0.3 [Release 10.2 to 11.2]
IBM AIX on POWER Systems (64-bit)

Purpose

最佳實踐和初學者指南之 Oracle Real Application Clusters (RAC) 系列,主要目標是為了幫助客戶快速瞭解實施、升級與維護 Oracle RAC 系統的通用的以及針對特定平臺的最佳實踐。Oracle 根據自己的經驗及其全球 RAC 客戶的反饋編寫和維護本文件。

本初學者指南的目的不在於取代 Oracle 文件集,而是作為它的補充。對於本文沒有明確解決的任何問題,還應仔細閱讀、理解和參考 Oracle 文件,以從中尋找答案。

您的運營團隊應仔細稽核所有建議,且只有通過了相應的風險評估後方能實施。風險評估只能由具備豐富的系統、應用和企業環境方面知識的人員來執行。

由 於每個客戶環境都是獨一無二的,因此 Oracle Database 實施(包括 Oracle RAC 實施)的成功源於成功的測試環境。對於本文中的任意建議,在生產環境中加以實施之前,務必要在作為目標生產環境複製品的測試環境中進行充分的測試和驗證, 以確保不會產生與所實施建議相關的負面影響。

Scope

本文章適用於所有新的和現有 RAC 實施以及 RAC 升級。

Details

RAC Assurance 支援團隊:RAC 和 Oracle Clusterware 初學者指南和最佳實踐(不區分平臺)

以下文件重點介紹適用於所有平臺的 RAC 和 Oracle Clusterware 最佳實踐,包括可用的 RAC 系統負載測試工具的白皮書,以及針對 10gR2、11gR1 和 11gR2 的 RAC 的系統測試計劃概述:

Document 810394.1 RAC and Oracle Clusterware Best Practices and Starter Kit (Platform. Independent)

RAC 特定平臺的初學者指南和最佳實踐

以下文件包含特定平臺的詳細最佳實踐,包括分步安裝說明(可下載 PDF 格式):

Document 811306.1 RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
Document 811280.1 RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
Document 811271.1 RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
Document 811293.1 RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
Document 811303.1 RAC and Oracle Clusterware Best Practices and Starter Kit (HP-UX)

RAC on AIX 分步安裝說明

單擊 此處 可獲取用於在 AIX 上安裝 Oracle RAC 10gR2 的分步指南.
單擊
此處 可獲取用於在 AIX 上安裝 Oracle RAC 11gR1 的分步指南.
單擊
此處 可獲取用於在 AIX 上安裝 Oracle RAC 11gR2 的分步指南.

RAC on AIX 最佳實踐

此部分中的最佳實踐特定於 AIX 平臺。您還必須瞭解在 Document 810394.1 中介紹的不區分平臺的最佳實踐。

OS 配置注意事項

  • 所有在 AIX 平臺執行 RAC 的客戶務必檢視 IBM/Oracle 聯合編寫的白皮書 Oracle Real Application Clusters on IBM AIX Best practices in memory tuning and configuring for system stability.
  • 對於 11gR2,從本文件開始 Document 1427855.1 - AIX: Top Things to DO NOW to Stabilize 11gR2 GI/RAC Cluster
  • 根據 RAC Technologies Matrix for Unix 驗證您的硬體/軟體配置。
  • 確保已安裝所有需要的 OS 軟體包,並已正確實現特定 Oracle 版本的系統先決條件。此資訊已記錄在 Document 169706.1 以及您的特定版本對應的安裝指南中。
  • 如果是在 AIX 虛擬系統上進行部署,請檢視 Document 1470654.1 以瞭解此配置中的資源利用。
  • 如果執行的是 AIX 6.1,確保已安裝 APAR IV04047 的修正程式,以避免可能出現的例項掛起和節點驅逐。更多詳細資訊,請參閱 Document 1393041.1
  • 為確保系統穩定性,請確認已經應用了 Document 282036.1 中記錄的所有 AIX(5L 和 6)強制性修補程式。
  • 優化虛擬記憶體引數。IBM 建議的值為:
    minperm%=3
    maxperm%=90
    maxclient%=90
    lru_file_repage=0
    strict_maxperm=0
    strict_maxclient=1
    page_steal_method=1

    設定這些引數的示例指令碼如下:
    #!/usr/bin/ksh
    vmo -p -o maxperm%=90;
    vmo -p -o minperm%=3;
    vmo -p -o maxclient%=90;
    vmo -p -o strict maxperm=0;
    vmo -p -o strict maxclient=1;
    vmo -p -o lru_file_repage=0;
    vmo -r -o page_steal_method=1; (need to reboot to take into effect)
    vmo -p -o strict_maxclient=1
    vmo -p -o strict_maxperm=0;
  • 在 AIX 5.3 上,應用 APAR IY84780 以修復每個 cpu 的空閒列表的已知核心問題。有關此 APAR 的詳細資訊,請參閱 IY84780: KERNEL MEMORY GARBAGE COLLECTOR FAILS TO FREE LISTS.
    注意: 此修正程式也包含在 Technology Level 4(TL4) 及更高階別中。如有必要,與 IBM 協商獲取任何更新的修正程式。
  • 在系統環境中,設定 AIXTHREAD_SCOPE=S:export AIXTHREAD_SCOPE=S 以提高效能(AIX 6.1 及更高版本上預設為 S)。請參閱 Document 458403.1 (Why AIXTHREAD_SCOPE should be set to 'S' on AIX) 瞭解更多詳細資訊。
  • 使用 Processor Folding 功能(預設)時,務必應用 Fix Packs for AIX 5.3 and 6.1 以防止系統掛起。
  • 如果不使用 HACMP,就一定不能安裝 HACMP 檔案集。
  • 不要對 Oracle 主目錄、軟體升級或 temp 檔案系統使用通過“cio”選項裝載的檔案系統。“cio”裝載選項不受支援,它會導致安裝、relink及其他意外故障。請參閱 Document 869644.1 瞭解詳細資訊。
  • 確保 GI 和 ORACLE 所有者帳戶具有 CAP_NUMA_ATTACH、CAP_BYPASS_RAC_VMM 和 CAP_PROPAGATE 功能。這是 11gR2 安裝指南中的要求,也是 11gR2 之前版本的所有安裝所必需的。GRID 使用者的檢查和設定示例如下:
    #/usr/bin/lsuser -a capabilities grid
    #/usr/bin/chuser capabilities=CAP_NUMA_ATTACH,CAP_BYPASS_RAC_VMM,CAP_PROPAGATE grid

儲存注意事項

  • 確保 SAN 儲存驅動器能夠併發讀/寫(同時從叢集的任意節點寫入)。這就是說,所發現磁碟(hdisk、hdiskpower、dlmfdrv 等)的“reserve_policy”屬性必須能夠設定為“no_reserve”或“no_lock”。請參閱 Document 422075.1 瞭解詳細資訊。
  • 不要為用於 ASM 磁碟組的磁碟或卷分配 PVID(物理卷 ID)。在新增至 ASM 磁碟組之前,必須清除所有候選磁碟或卷在所有節點上的 PVID。磁碟或卷一旦新增至 ASM 磁碟組,就不應再從叢集中的任何節點分配 PVID,包括正新增至現有叢集的節點。請參閱 Document 353761.1 瞭解關於此問題的更多詳細資訊。
    注意: 為 ASM 磁碟分配 PVID 將損壞磁碟頭,從而導致災難性的資料丟失!!
  • 將表決磁碟和 ASM 儲存的 FSCSI 裝置屬性 FC_ERR_RECOV 設定為 FAST_FAIL。此設定已表明可避免因儲存了三個表決磁碟之一的 SAN 儲存卷停止而引起的重啟。請參閱 Document 560077.1 瞭解詳細資訊。
  • 在實施 GPFS 時,請務必檢視 Document 302806.1 瞭解關於 LUN 配置、檔案系統塊大小、AIO 配置, inodes的建議及實施示例。
  • 當系統中的其他應用程式正在執行大量磁碟寫入時,AIX 使用者可能會遇到較長的互動應用程式(interactive-application)響應時間。配置 I/O pacing 限制針對檔案的過度I/O 請求。AIX 6.1 已預設啟用 I/O pacing,預設值:“minpout=4096 和 maxpout=8193”對 AIX6.1 可行。但是,在 AIX 5.3 中,您需要明確地啟用此功能。
Oracle 測試表明,minpout 為 8 和 maxpout 為 12 的起始值對於大多數 Oracle 客戶都是比較好的基準。然而,每個環境都不相同,因此如果系統已經過正確優化並表明可使用不同的值進行工作,那麼就可能很好地接受不同的值。要使用 Oracle 建議的基準值通過 SMIT 在系統上配置 I/O pacing,請以 root 使用者身份在命令列中輸入以下內容:
# smitty chgsys
# chdev -l sys0 -a minpout=8 -a maxpout=12
  • 在 AIX 上,ASM 可使用併發的 RAW 邏輯卷或 RAW 分割槽。當通過 ASM 使用多路徑技術時,ASM 必須通過相應的多路徑裝置訪問裝置,主要的多路徑技術的裝置路徑記錄在 Document 294869.1 中。

網路注意事項

  • 確保網路優化引數設定與以下設定一致,以保證最佳的私網效能:
    tcp_recvspace = 65536
    tcp_sendspace = 65536
    udp_sendspace = ((DB_BLOCK_SIZE * DB_MULTIBLOCK_READ_COUNT) + 4 KB) but no lower than 65536
    udp_recvspace = 655360 (Minimum recommended value is 10x udp_sendspace, parameter value must be less than sb_max)
    rfc1323 = 1
    sb_max = 4194304
    ipqmaxlen = 512

    注意: 對於 GI 版本 11.2.0.2 的安裝,設定 udp_sendspace 失敗將導致 root.sh 失敗。請參閱 Document
    Document 1280234.1
  • 在安裝 Oracle clusterware 之前,其 VIP IP 地址和相應的節點名稱不能在網路上已經被使用。不要在公網介面上起任何 AIX 別名,Clusterware安裝將完成這一操作。每個 RAC 節點只保留 1 個 VIP 及其主機名。Oracle Clusterware VIP IP 和相應的節點名稱將在 DNS 中定義。
  • 使用 AIX VIO 進行安裝必須檢視 Document 1305174.1 - AIX VIO: Block Lost or IPC Send Timeout Possible Without Fix of APAR IZ97457.

Oracle 軟體注意事項

此部分中的軟體注意事項特定於 AIX 平臺。您還必須瞭解在 Document 810394.1 中介紹的不區分平臺的最佳實踐。

  • 對於使用 IBM 邏輯主機乙太網介面卡 (LHEA) 介面在 AIX 系統上安裝 10.2.0.4 和 11.1.0.7,需要應用 Bug 8725020 修正程式,以確保 VIP 功能。此修正程式包含在 10.2.0.5 和 11.1.0.7 CRS Bundle#1(及更高版本)中。請參閱 Document 959746.1 瞭解更多關於此問題的詳細資訊。
  • 為確保關鍵程式的執行緒在執行時具有適當的優先順序(以防止節點驅逐),請應用 BUG 13940331 修正程式(特定於 AIX)。 Bug 13940331 在 11.2.0.4 中得以修正,目前在 Patch 13940331 下有適合於 10.2.0.5 和 11.2.0.3 的one-off 補丁程式。
  • 對於 11.2.0.2 安裝和/或升級,在執行 root.sh 或 rootupgrade.sh 前請先應用 11.2.0.2.4 GI PSU Patch 12827731 (或更高版本),以防止這些指令碼出現故障(由於 Bug 10370797,已在 11.2.0.2.4 中修正)。在執行 root.sh 或 rootupgrade.sh 之前如何應用 11.2.0.2.4 GI PSU Patch 12827731 的說明如下:
    注意: 這些說明是為 11.2.0.2.4 GI PSU 編寫。雖然補丁程式編號會有所不同,相同的說明同樣適用於以後的 GI PSU。

    1. 執行 Oracle Grid Infrastructure 11.2.0.2 安裝或升級
    2. 就在執行第一個 root.sh(或 rootupgrade.sh)之前,停止當前安裝:
    • 不要執行 root.sh 或 rootupgrade.sh
    • 不要關閉安裝程式或中止正在進行的操作。
    • 請保留當前安裝並開啟新的終端。
    3. 下載 Patch 12827731 並準備應用,將修補程式解壓縮至叢集中每個節點上的空目錄中。
    4. 下載並安裝最新版本的 OPatch,以應用補丁程式。最新版本的 OPatch 可在
    Patch 6880880 中下載。將 OPatch 安裝在所有節點的 GI 主目錄上,如下所示:
    $ unzip -d

    5. 與補丁程式 readme 檔案中的描述不同,
    • 不要使用“opatch auto”
    • 由於這是尚未配置的全新安裝,因此不要執行“rootcrs.pl -unlock”或“rootcrs.pl -patch”
    • 請以GI軟體所有者使用者,例如 grid,使用:“opatch napply –local”
      $GI_HOME/OPatch/opatch napply -local /12827731
      $GI_HOME/OPatch/opatch napply -local /12827726
    注意: 此處在 Opatch 後面加上“-local”選項,您需要在每個節點上執行此操作。

    6. 叢集中的每個節點都應用過補丁程式後,返回原來的安裝
    7. 繼續在所有節點上執行 root.sh (rootupgrade.sh),並遵循 OUI 介面的指示。

  • 在 11.2 之前的 AIX 系統(沒有其他供應商叢集管理軟體)上,OPROCD 預設不在 AIX 全域性執行佇列執行 (Bug 13623902),這可能會導致 OPROCD 錯誤地重啟節點。此問題的更正操作是修改 /etc/init.cssd 檔案,如下所示:
    注意: 以下步驟以滾動(rolling)的方式執行,以避免資料庫完全停止。

    1. 停止本地節點上的 Clusterware 。
    2. 如下修改 /etc/init.cssd:
    從:

    # Run oprocd synchronously and look for its status code
    cd $OPROCDIR

    # startup the some diagnostic collection scripts if any
    StartDiagCollect;

    $OPROCD run -t $OPROCD_DEFAULT_TIMEOUT -m $OPROCD_DEFAULT_MARGIN \
    $OPROCD_DEFAULT_HISTOGRAM $FATALARG
    RC=$?

    到:

    # Run oprocd synchronously and look for its status code
    cd $OPROCDIR

    # startup the some diagnostic collection scripts if any
    StartDiagCollect;

    RT_GRQ=ON
    export RT_GRQ

    $OPROCD run -t $OPROCD_DEFAULT_TIMEOUT -m $OPROCD_DEFAULT_MARGIN \
    $OPROCD_DEFAULT_HISTOGRAM $FATALARG
    RC=$?


    3. 重新啟動本地節點上的 Clusterware。
    4. 在所有剩下的叢集節點上重複步驟 1-3 。

此修正程式也包含在技術 4 級 (TL4) 及更高階別中。如有必要,與 IBM 協商獲取任何更新的修正程式。

References

NOTE:294869.1 - Oracle ASM and Multi-Pathing Technologies
NOTE:353761.1 - Assigning a Physical Volume ID (PVID) To An Existing ASM Disk Corrupts the ASM Disk Header
NOTE:422075.1 - Error ORA-27091, ORA-27072 When Mounting Diskgroup
NOTE:560077.1 - Asm Hangs After Loss Of Failgroup on AIX
NOTE:810394.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (Platform. Independent)
NOTE:811271.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (Windows)
NOTE:811280.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (Solaris)
NOTE:811293.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (AIX)
NOTE:869644.1 - Having an ORACLE_HOME on a Filesystem Mounted With "cio" Option is Not Supported and Will Have Issues
BUG:8725020 - VIP WONT RUN (LHEA) ADAPTER 5.3 TL9
NOTE:1305174.1 - AIX VIO: Block Lost or IPC Send Timeout Possible Without Fix of APAR IZ97457
NOTE:959746.1 - AIX: 10.2/11.1 VIP Fails to Come Up with "Invalid Parameters, Or Failed To Bring Up VIP"
NOTE:811303.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (HP-UX)
NOTE:811306.1 - RAC and Oracle Clusterware Best Practices and Starter Kit (Linux)
NOTE:1393041.1 - AIX 6.1 Instance Hang Then Node Reboot due to High Load IV04047
NOTE:1427855.1 - AIX: Top Things to DO NOW to Stabilize 11gR2 GI/RAC Cluster
NOTE:169706.1 - Oracle Database (RDBMS) on Unix AIX,HP-UX,Linux,Mac OS X,Solaris,Tru64 Unix Operating Systems Installation and Configuration Requirements Quick Reference (8.0.5 to 11.2)
NOTE:282036.1 - Minimum Software Versions and Patches Required to Support Oracle Products on IBM Power Systems

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/17252115/viewspace-763558/,如需轉載,請註明出處,否則將追究法律責任。

相關文章