資料中心儲存系統故障的處理方式

安全劍客發表於2018-11-09
儲存系統作為如今大資料雲端計算時代的根基,它的穩定才是支撐起如此海量資料的根本。所以各大相關行業對於這部分非常重視,所以在此針對儲存系統的故障處置簡單提出自己學習總結的一些思路。

首先在處理儲存系統發生的可能故障前必須對於整個儲存系統的架構以及原理有一個清楚的瞭解。普遍來說儲存系統由主機、交換機及儲存裝置組成。它們之間可以是直連或者是IP網路或FC網路的方式進行連線。整個系統的穩定性跟每個組成部分都息息相關。

其次瞭解故障的分類,故障分類大致分為硬體故障、配置故障或者license類問題,先外部後內部,先處理高階警告後處理低階警告,先共性後個性。

面對故障的發生,第一步永遠都是先進行必要的資訊收集,對於整個儲存系統的基本資訊,故障資訊、儲存裝置資訊以及組網、主機伺服器資訊要有了解。這些部分可以直接管理到主機、交換機或儲存裝置中進行收集,如今廠商也都有專門研發維護工具來幫助管理者做這些事情。收集清楚這些資訊之後,才能對整個儲存系統有一個普遍清晰的認知。至少對如今的故障可能發生原因有一個瞭解,然後再細化到每個組成部分上排查可能問題。

資料中心儲存系統故障的處理方式資料中心儲存系統故障的處理方式

 

一、主機層

在主機層面大多需要檢查的是作業系統版本,相應的HBA卡是否達到合適的標準,如速率、IOPS及頻寬等。其次是在主機上安裝的多路徑軟體,檢視一下與儲存裝置連線的物理路徑的狀態以及儲存LUN等資訊。

二、網路層

網路層次可能發生的問題大多是連通性問題,由於鏈路故障導致的丟包或者誤位元速率上升等現象,此現象可以在交換機上觀察埠的資訊,觀察誤位元速率是否在持續增長,如有,則可能存在鏈路部件異常或接觸不良的現象。其次可能是埠速率或頻寬未達到標準,檢視埠配置及協商狀況,這些都有可能導致故障或者效能問題。

三、儲存層

儲存裝置可以在匯出相關告警,事件或者執行資料、系統日誌和硬碟日誌來進一步分析可能發生故障的原因,到底是儲存控制器問題還是底層的硬碟問題都需要一一排查。在底層儲存方面主要考慮儲存模組的配置,指示燈狀態等資訊,從指示燈狀態我們可以分析出是否存在硬體故障等,其次在配置方面:RAID級別、分條深度、LUN讀寫策略、cache策略,LUN歸屬、硬碟型別等是否符合業務的特點以及不符合時可能導致的問題。都是需要我們在故障排查處理時需要考慮的。

總之面對儲存系統的故障,一定要具備一個清晰的思路,不要盲目的去做。盲目的去做可能會惡化故障,從而使得排查難度進一步加大。


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31559985/viewspace-2219343/,如需轉載,請註明出處,否則將追究法律責任。

相關文章