資料庫相關的系統巡檢參考項

jeanron100發表於2016-01-31
快過春節了,對於巡檢工作真是非常重要的一環,也是考驗巡檢的力度的一種方式,及早發現問題,及時解決,就會避免很多“到時候再說”的問題。
當然公司層面也有一些巡檢要求,我自己也總結了一下,發現還是需要寫一部分,然後不斷完善。主要分為下面的幾個部分來闡述。

檢查ILO可用性和使用情況

    如果擁有對伺服器資源的管理許可權,對於ILO還是要驗證一下,大體有幾種情況。

ILO模組沒有開啟

這個可以聯絡系統組的同學幫你開啟,也可以參考下面的步驟。

    # modprobe ipmi_watchdog

    # modprobe ipmi_poweroff

    # modprobe ipmi_devintf

    # chkconfig  ipmi  on

ILO密碼錯誤

    可以使用下面的命令來重置密碼

     /usr/bin/ipmitool user set password 2 'xunjian'

ILO超過最大使用者連線數限制

     如果使用者名稱,密碼正確,如果上一次登入沒有正常退出,可能會有下面的報錯。

     RAC0218:已達到使用者會話的最大數

    這個時候可以重啟ILO來達到目標。

        ipmitool mc reset cold,這個過程會持續幾分鐘。

ILO在不同的硬體產品版本和瀏覽器的相容性   

   ILO在不同的硬體產品版本中瀏覽器也有一些使用差異,有些版本使用IE低版本可以,有些可以使用chrome,firefox,有些則不適用。

ILO頁面和JAVA的版本關係

   這兩點比較微妙,但是在實際中碰到問題的時候更多,特別是對於Java,如果檢視新版本的硬體,JAVA8是不推薦的,因為安全策略太高,手工還修改不了這個設定,得用JAVA7及以下的版本了。

作業系統版本

   作業系統的版本也需要提前規劃,如果有些服務的版本過舊,需要考慮升級到一個較新的穩定版本,目前來看6U5還是值得推薦。在redhat5及以下的版本,碰到了不少的小問題。

作業系統核心引數

作業系統核心引數可以作為一個重要的檢查項,當然對於主庫而言可能重啟不現實,但是提前準備好,在下次重啟的時候能夠省事省力,對於備庫而言,也可以提早準備。

檢查作業系統防火牆情況

    對於作業系統中的防火牆設定最好能夠提供完整的備份,到時候可以在災備切換的時候用到。

    如果存在特殊的網路設定情況,需要提前標註,要不幫你處理問題的同事會踩到一大坑。

系統檔案許可權

    對於部分檔案,需要考慮檔案的許可權,保證不會惡意篡改。比如設定這些關鍵檔案和配置檔案的只讀許可權,比如/etc/passwd,/etc/shadow,/etc/group等等

swap使用情況

     swap的監控還是比較重要,對於Oracle來說,還是大SGA建議開啟大頁,要不swap爭用較高,如果剩餘記憶體不足,很容易觸發oom-killer

檔案的分割槽和規劃情況

    對於檔案的分割槽和使用情況也需要格外關注,對於一些過舊的歷史檔案可以壓縮或者刪除。是否還在使用很陳舊的檔案系統。

硬碟壞塊和硬碟問題

     硬碟壞塊和硬碟問題還是很重要,只是硬碟沒問題,哪怕其它的硬體問題規避不了,資料至少還是沒問題的。

檢視crontab的執行情況

    檢視例行的執行任務是否正常,比較尷尬的是crontab執行了,但是什麼都沒有幹,比如刪除歸檔,發現一直在掃描一個空目錄,而真正的歸檔目錄已經快撐爆了。

備份保留情況,是否有異機備份

   這個需要結合目前的系統使用情況,如果資料庫是非歸檔,測試環境,可以考慮異機備份。對於一些關鍵業務,在有災備的情況下,也可以額外增加部分的邏輯備份。 

時間同步設定ntp

使用nftp同步時間的部分需要考慮。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/23718752/viewspace-1984960/,如需轉載,請註明出處,否則將追究法律責任。

相關文章