一次oracle rac 監聽不定時offline處理過程

warehouse發表於2014-10-31
最近客戶一生產系統上也遇到了這個問題,肯定和網路有關,不過原因還沒有查清楚.

--==================================
原文連線:
http://blog.itpub.net/12272958/viewspace-718440/

--==============================

前一段時間實施一套RAC環境,應用部署之後,執行一點時間後,頻繁出現oracle不一定那個節點的監聽就會offline

        首先寫一下RAC的環境:

       oracle版本: 10.2.0.4.0 - 64bit

       作業系統環境:

LSB Version:    :core-3.1-amd64:core-3.1-ia32:core-3.1-noarch:graphics-3.1-amd64:graphics-3.1-ia32:graphics-3.1-noarch
Distributor ID: RedHatEnterpriseServer
Description:    Red Hat Enterprise Linux Server release 5.5 (Tikanga)
Release:        5.5
Codename:       Tikanga

       
       處理過程:

       資料庫情況描述:
 
       因為每次都強行關閉 crs_stop -f ora.racdb2.vip,首先看一下$CRS_HOME/log/racdb1/racg目錄下的vip.log日誌:


                2012-02-29 14:39:24.357: [    RACG][3231384256] [27405][3231384256][ora.racdb1.vip]: ping to 閘道器ip地址 via eth0 failed, rc = 1 (host=racdb1)
2012-03-03 16:43:43.300: [    RACG][3238642368] [2227][3238642368][ora.racdb1.vip]: ping to  閘道器ip地址   via eth0 failed, rc = 1 (host=racdb1)
                2012-03-10 16:42:40.602: [    RACG][1114129088] [13678][1114129088][ora.racdb2.vip]: ping to  閘道器ip地址   via eth0 failed, rc = 1 (host=racdb1)


        發現都是當ping 閘道器ip地址 時候失敗,每次叢集節點ping預設閘道器(檢測節點之前的網路狀態)的時候失敗,導致問題出現。

        當時實施硬體環境時,雖然買的交換機是三層交換機,但是沒有相關係統整合人員設定交換機做為預設閘道器,使用防火牆ip地址作為預設閘道器地址。


        防火牆情況描述

        這樣我第一個想法,就是找到相關防火牆人員,檢視防火牆日誌,

        聯絡防火牆相關人員,分別找出2012-02-29 14:39:24.357、2012-03-03 16:43:43.300、2012-03-10 16:42:40.602 三個時間的防火牆情況,發現一下內容:

        防火牆日誌資訊:src=202.75.214.196(偽造地址) dst=121.10.134.251(攻擊地址) sport=17243  dport=80        smac=9c:8e:99:fa:07:18(內部網路卡mac地址)

         每次預設閘道器中斷的時候,都出現9c:8e:99:fa:07:XX這個mac地址,9c:8e:99:fa:07:XX這個mac地址是區域網中一個太對外的17.XX.X.XXX這臺機器的mac地址。這個臺機器是我們開發人員從外部連線內部的機器,
 
         17.XX.X.XXX 作為肉雞,攻擊 121.10.134.251導致防火前資源耗盡 機器短時間內向外部大量發包,被防火牆攔截,導致防火牆資源耗盡,這時預設閘道器不能訪問。


          伺服器情況描述

                 此時檢視17.XX.X.XXX 內部這個臺機器,以root使用者登陸之後,last命令檢視之前登入人資訊與ip地址,發現很多偽造的ip地址登陸過此伺服器。


          解決辦法:
 
 1、目前檢視防火牆日誌,只發現 17.XX.X.XXX 機器向外發包, 17.XX.X.XXX 重新安裝作業系統,部署應用環境。關閉不必要的服務。修改使用者名稱口令。



後續計劃觀察此RAC叢集環境,看是否還有此類問題的發生。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/19602/viewspace-1316370/,如需轉載,請註明出處,否則將追究法律責任。

相關文章