Centos 伺服器系統記憶體故障排查

roc_guo發表於2022-06-10
導讀 該筆記主要記錄一下如何排查指定伺服器中的指定記憶體條是否損壞。

Centos 伺服器系統記憶體故障排查Centos 伺服器系統記憶體故障排查

1.記憶體故障排查

因為 68 – 71 軟SBC伺服器都是 7系統,所以我們可以通過以下 來排查記憶體是否出現損壞。

grep "[0-9]" /sys/devices/system/edac/mc/mc/csrow/ch*_ce_count

Centos 伺服器系統記憶體故障排查Centos 伺服器系統記憶體故障排查

1> count不為0表示有錯誤
2> mc代表第幾個cpu,
3> csrow記憶體通道,
4> ch第幾個記憶體

EDAC即error detection and correction(錯誤檢測與糾正),是 內部的機制。在上面的日誌中,可以清楚地看出是記憶體讀錯誤。MC即memory controller(記憶體控制器)。CE則代表correctable error,是ECC記憶體中可以糾正的錯誤,相對地還有UE(uncorrectable error)。為了摸清是哪些記憶體出了問題,找出所有記憶體的CE計數,由上圖可知,第四塊記憶體出現了故障。

通過 dmidecode -t memory  ,可以檢視每個DIMM
Centos 伺服器系統記憶體故障排查Centos 伺服器系統記憶體故障排查

2.CPU排查 cat /sys/devices/system/cpu/cpu*/online

Centos 伺服器系統記憶體故障排查Centos 伺服器系統記憶體故障排查

原文來自:


來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/69955379/viewspace-2899782/,如需轉載,請註明出處,否則將追究法律責任。

相關文章