Dell R720 記憶體糾錯比率超限 更換記憶體引起的故障

人生苦短,知足常乐!發表於2024-04-29

Dell R720 記憶體糾錯比率超限 更換記憶體引起的故障

2019年12月18日 8823點熱度 27人點贊 0條評論

0x01 前言

伺服器裡有一根記憶體出現異常,在除錯的過程中我詳細瞭解R720的記憶體配置。我在這裡將除錯過程和基本配置資訊記錄下來。

0x02 錯誤

在上週,我發現伺服器後部的狀態燈不再是正常的藍燈常亮狀態,而是黃色閃爍的狀態。根據錯誤日誌,可以確定A5插槽的記憶體糾錯比超過設定的上限:

其實這根記憶體目前還可以使用,但推薦儘快更換。在Dell的知識庫中有以下資訊:

  • iDRAC、OpenManage Server Administrator和液晶螢幕中的PowerEdge記憶體錯誤

0x03 修復

修復過程很簡單,先關閉系統,更換壞掉的記憶體條即可:

0x04 插槽配置

系統包含 24 個記憶體插槽,分為兩組(每組 12 個),每個處理器一組。每組的 12 個插槽分入四個通道。在每個通道中,第一個插槽的釋放拉桿標為白色,第二個插槽的標為黑色,第三個插槽的標為綠色。

插槽 A1 至 A12 中的 DIMM 分配給處理器 1,插槽 B1 至 B12 中的 DIMM 分配給處理器 2:

記憶體通道按如下方式配置:

處理器 通道 插槽
1 0 A1、A5、A9
1 A2、A6、A10
2 A3、A7、A11
3 A4、A8、A12
2 0 B1、B5、B9
1 B2、B6、B10
2 B3、B7、B11
3 B4、B8、B12

0x05 頻率

我的伺服器支援 DDR3 不帶快取的 ECC DIMM (ECC UDIMM)、帶暫存器的 DIMM (RDIMM) 以及負載降低的 DIMM (LRDIMM)。它支援 DDR3 和 DDR3L 電壓規格。

其中記憶體匯流排操作頻率可以是 1866 MT/s、1600 MT/s、1333 MT/s、1066 MT/s 或 800 MT/s。實際中我的伺服器記憶體執行在1066 MT/s頻率中,因為伺服器中12根的記憶體頻率為1066。

另外根據記憶體條規格與電壓的不同,頻率也有所變化,配置資訊如下表:

0x06 注意事項

  • UDIMM、RDIMM 和 LRDIMM 不得混用。
  • 一個通道中最多可填充兩個 UDIMM。
  • 每個通道中最多可填充兩個四列 RDIMM 和三個雙列或單個 RDIMM。當在具有白色釋放拉桿的第一個插槽中填充四列 RDIMM 時,具有綠色釋放拉桿的通道中第三個 DIMM 插槽無法填充。
  • 無論列數是多少,最多可以安裝三個 LRDIMM。
  • 僅在安裝處理器時填充 DIMM 插槽。對於單處理器系統,插槽 A1 至 A12 可用。對於雙處理器系統,插槽 A1 至 A12 和插槽 B1 至 B12 可用。
  • 先填充具有白色釋放卡舌的所有插槽,再填充具有黑色卡舌的插槽,最後填充具有綠色卡舌的插槽。
  • 如果在具有白色釋放卡舌的第一個插槽中填充四列 RDIMM,則請勿填充具有綠色釋放卡舌的通道中的第三個 DIMM 插槽。
  • 按以下順序按最高列數填充插槽 — 首先填充具有白色釋放拉桿的插槽,再填充具有黑色釋放拉桿的插槽,最後填充具有綠色釋放拉桿的插槽。例如,如果要混用四列和雙列 DIMM,則填充具有白色釋放卡舌的插槽中的四列 DIMM,再填充具有黑色釋放卡舌的插槽中的雙列 DIMM。
  • 在雙處理器配置中,每個處理器的記憶體配置應該相同。例如,如果填充處理器 1 的插槽 A1,則填充處理器 2 的插槽 B1,以此類推。
  • 如果遵循其它記憶體安裝規則,則不同大小的記憶體模組可以混用(例如,2 GB 和 4 GB 記憶體模組可以混用)。
  • 每個處理器一次填充四個 DIMM(每個通道一個 DIMM)以最大化效能。
  • 如果安裝不同速度的記憶體模組,它們將以最低或較低安裝記憶體模組速度執行(具體取決於系統 DIMM 配置)。

0x07 配置示例

  • 1R、2R 和 4R 分別表示單列、雙列和四列 DIMM。

單個處理器的記憶體配置示例:

兩個處理器的記憶體配置示例:

注意:在兩個處理器的記憶體配置中,分別使用16G和8G記憶體進行搭配配置,需要遵循以下規則:

0x08 結語

有些企業並沒有將記憶體插槽滿配,而是使用大容量內容如單根64GB或更大的記憶體進行配置。這時候就需要參考以上表格或參考配置手冊。

在安裝錯誤的情況下並不會導致系統燒壞,系統在自檢的時候會提示錯誤,只需要根據錯誤日誌重新配置即可。

相關文章