輕鬆定位硬體故障方法-日誌分析

roc_guo發表於2023-11-18

同事發現某臺機器上message日誌數量突然暴增,簡單檢視了下有記憶體相關的報錯,所以轉交給我來檢視。

Message日誌

進入伺服器檢視message日誌,先看看同事說的告警到底是什麼,如下圖:
輕鬆定位硬體故障方法-日誌分析輕鬆定位硬體故障方法-日誌分析
還真是,通道3,第一個槽位的記憶體發生故障了。但是,我只知道A1/B1/A2/B2,所以我還是繼續。

Ipmitool工具

不論怎樣,Ipmitool工具檢視了下,確實是有記憶體告警,如下圖

輕鬆定位硬體故障方法-日誌分析輕鬆定位硬體故障方法-日誌分析

雖然告警,可是無法定位大具體哪根記憶體壞了呀

IDRAC-web

不論怎樣,我們還有DELL自帶的IDRAC的web頁面可以檢視硬體狀態,登陸看看,先看看日誌,這裡有了吧,B6記憶體槽故障

輕鬆定位硬體故障方法-日誌分析輕鬆定位硬體故障方法-日誌分析

再看看硬體狀態,B6記憶體存在告警

輕鬆定位硬體故障方法-日誌分析輕鬆定位硬體故障方法-日誌分析

就此,我找到了我想要的資訊,定位到了B6記憶體故障,需要更換,至於如何更換,需要注意哪些事項,以後再說。

總結

硬體安全是伺服器底層的安全,一定要做好各項硬體監控,及時處理硬體故障,否則,你們懂的。介紹幾種常見的涉及硬體故障分析的日誌:

  1. messages日誌
  2. dmesg日誌
  3. ipmitool sel list檢視硬體日誌
  4. 遠端管理頁面上的日誌(DELL的IDRAC,HP的ILO,IBM的IMM等等)
  5. smart日誌


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69901823/viewspace-2996008/,如需轉載,請註明出處,否則將追究法律責任。

相關文章