獨享MRDIMM有多強?至強6效能核處理器的記憶體二三事

机器之心發表於2024-12-26

至強 6 效能核處理器在核數、記憶體頻寬均大幅提升的加持下,推理效能激增,進一步提升了推理的價效比。


至強 6 效能核的核心規模

在之前的文章中,有從業者預測至強 6 效能核處理器每顆計算單元晶片中的核心數量為 43,加上每個計算單元有兩組雙通道記憶體控制器各佔一個網格,那麼總共佔用 43+2=45 個網格,可以由 5×9 的佈局構成。但這個假設有一個問題,要構成 128 核的 6980P,三顆晶片只遮蔽 1 個核心,這良率要求比較高啊。
圖片
至今還未在公開渠道看到至強 6 效能核處理器的 Die shot 或架構圖,但英特爾釋出了晶圓照片作為宣傳素材。雖然晶圓照片並不能提供每顆晶片的清晰資訊,但隱約能感覺到,網格構成更像是 5×10,而不是 5×9 或 6×8。另外,左上角和左下角疑似記憶體控制器的區域面積比預想的要大得多,每一側佔了三個網格。如果接受了兩組記憶體控制器共佔用 6 個網格的設定,那麼每個晶片中就是 50-6=44 個核心,在構成 6980P 的時候分別遮蔽一到兩個核即可,感覺就合理多了。
圖片
在獲得相對可信的核心數量後,新的疑惑就是:為什麼至強 6 效能核的記憶體控制器這麼佔地 —— 這個區域有其他未知功能?還是因為增加了 MRDIMM (Multiplexed Rank DIMM) 的支援?畢竟在此之前,英特爾的雙通道 DDR5、三通道 DDR4 記憶體控制器只佔一個網格,甚至,連訊號規模更大、頻寬更高的 HBM 控制器(至強 CPU Max 處理器)也是一個網格。至強 CPU Max 處理器的 HBM2e 是工作在 3,200MT/s,那麼每個控制器頻寬是 410GB/s,整顆 CPU 有超過 2TB/s 的 HBM 頻寬。

雖然對疑似記憶體控制器區域所佔晶片面積的疑惑未解,還需要進一步解惑,但至少可以確定,英特爾在這一代至強的記憶體控制器上是下了大本錢的。至少在相當一段時間內,它是可以 “獨佔” MRDIMM 的優勢了。

至強 6 效能核的 NUMA 與叢集模式

談伺服器的記憶體就繞不過 NUMA(Non-Uniform Memory Access,非統一記憶體訪問)。因為隨著 CPU 核心數量的增加,各核心的記憶體訪問請求衝突會迅速增加。NUMA 是一個有效的解決方案,將核心分為若干組,分別擁有相對獨立的快取、記憶體空間。規模縮小後,衝突就會減少。一般來說,NUMA 劃分的原則是讓物理上臨近某記憶體控制器的核心為一個子集。這個子集被英特爾稱為 SUB-NUMA Clustering,簡稱 SNC。同一 SNC 的核心繫結了末級快取(LLC)和本地記憶體,訪問時的時延最小。

譬如,在第三代至強可擴充套件處理器中,一個 CPU 內可劃分兩個 SNC 域,每個 SNC 對應一組三通道 DDR4 記憶體控制器。如果關閉 NUMA,那麼整個 CPU 的記憶體將對稱訪問。
圖片
而第四代至強可擴充套件處理器使用了 4 顆芯粒的封裝,可以被劃分為 2 個或 4 個 SNC 域。如果希望每個核心可以訪問所有的快取代理和記憶體,可以將第四代至強可擴充套件處理器設定為 Hemisphere Mode 或者 Quadrant Mode,預設是後者。第五代至強可擴充套件處理器是 2 顆芯粒,可以劃分為兩個 SNC 域。
圖片
圖片
在至強 6 效能核中,可以將每個計算單元晶片作為一個 SNC,每個域擁有 4 個記憶體通道,這被稱為 SNC3 Mode。如果要透過其他芯粒的快取代理訪問所有記憶體,那就是 HEX Mode。
圖片
根據英特爾提供的資料,幾種不同模式的記憶體訪問時延差異較大,與核心、記憶體控制器之間的 “距離” 直接相關。至強 6 效能核的核心規模、記憶體控制器數量增加之後,相應的訪問時延也會上升。例如,根據前面的觀察,至強 6 效能核內每個計算單元晶片中,核心與記憶體控制器的最遠距離為 10 列,而第四代 / 第五代至強可擴充套件處理器無 NUMA 的為 8 列。這反映在英特爾的資料上,就是至強 6900P 在 SNC3 Mode 的時延略高於上一代至強處理器的 Quad Mode。如果至強 6900P 設為 HEX Mode,那麼核心與記憶體控制器的最遠距離將達到 13 甚至 15 列,時延增加會比較明顯。

整體而言,由於 SNC3 Mode 時延低,其將成為至強 6 伺服器的預設模式。這種模式主要是適合虛擬化 / 容器化這類常見雲應用,以及並行化程度高的計算(如編解碼)等。當然,HEX Mode 可以直接訪問更大規模的記憶體,這對於大型資料庫,尤其是以 OLTP 為代表的應用來說更為有利。Oracle 和 SQL 通常建議關閉 NUMA 以獲得更佳的效能。Apache Cassandra 5.0 這類引入向量搜尋的資料庫也能從 HEX Mode 顯著獲益。部分科學計算也更適合 HEX Mode,譬如透過偏微分方程建模的 PETSs、分子動力學軟體 NAMD 等。

HEX Mode 的另一個典型場景是配合 CXL 記憶體使用。譬如英特爾在今年 12 月 11 日釋出的一篇利用 CXL 記憶體最佳化系統記憶體頻寬的論文中,使用了至強 6900P 搭配 12 條 64GB DDR5 6400 以及 8 個 128GB CXL 記憶體模組,其中至強 6900P 本地的 768GB DDR5 記憶體在 HEX Mode 下配置為 NUMA0,所有的 1TB CXL 記憶體配置為 NUMA1,採用最佳化交錯配置(Interleaving Strategy)。測試表明,在記憶體頻寬敏感的應用中,使用 CXL 記憶體擴充套件可以提升 20%~30% 的效能。
圖片
MRDIMM 領跑者

對於至強 6 效能核處理器而言,提升記憶體頻寬最直接的方法莫過於 MRDIMM。這也是這款處理器相比其他同類產品比較獨佔的一項能力,近期看不到任何其他 CPU 廠商有明確支援 MRDIMM 的時間表,更不要說推出實際產品了。相對而言,記憶體廠商對 MRDIMM 的支援比較積極,美光、SK 海力士、威剛都推出了相應的產品,包括高尺寸(Tall formfactor,TFF)。第一代 DDR5 MRDIMM 的目標速率為 8,800 MT/s,未來會逐步提升至 12,800 MT/s、17,600 MT/s。

MRDIMM 增加了多路複用資料緩衝器(MDB),改進了寄存時鐘驅動器(MRCD)。MDB 佈置在記憶體金手指附近,與主機側的 CPU 記憶體控制器通訊。MDB 主機側的執行速度是 DRAM 側的雙倍,DRAM 側的資料介面是主機側的雙倍。MRCD 可以生成 4 個獨立的晶片選擇訊號(標準的 RCD 是兩個,對應兩個 Rank)。MDB 可透過兩個資料介面將兩個 Rank 分別讀入緩衝區,再從緩衝區一次性傳輸到 CPU 的記憶體控制器,由此實現了頻寬翻倍。
圖片
由於 MRCD 可以支援 4 個 Rank,也意味著可以支援雙倍的記憶體顆粒。已經展示的 MRDIMM 普遍引入更高的板型(TFF),單條容量也由此倍增。由於至強 6900P 插座尺寸大增,導致雙路機型的記憶體槽數量從上一代的 32 條減少到 24 條。要能夠繼續擴充套件記憶體容量,增加記憶體條的面積(增加高度)確實是最簡單直接的手段。透過使用 256GB 的 MRDIMM,雙路至強 6900P 機型可以獲得 6TB 記憶體容量。除了更大的記憶體頻寬,更高的記憶體容量也非常有利於 AI 訓練、大型資料庫等應用的需求,進一步強化至強 6900P 在 AI 機頭領域的優勢。

與 DDR5 6,400MT/s 相比,MRDIMM 8,800MT/s 的實際執行頻率略低(4,400MT/s),導致輕量級的應用不能從記憶體頻寬的增加當中明顯獲益。其實類似的問題在記憶體代際轉換之初均會存在,能夠充分利用更大記憶體頻寬的主要還是計算密集的應用,譬如加密、科學計算、訊號處理、AI 訓練和推理等。從目前的測試看,對 MRDIMM 受益最大的應用主要包括 HPCG(High Performance Conjugate Gradient)、AMG(Algebraic Multi-Grid)、Xcompact3d 這些科學計算類的應用,以及大語言模型推理。

記憶體頻寬與大模型推理

上一節有提到,並非所有應用都能充分利用 MRDIMM 的記憶體頻寬收益。就本節重點要談的推理應用而言,根據目前所見的測試資料,卷積神經網路為代表的傳統推理任務在 MRDIMM 中獲得的收益就比較小,不到 10% 的水平。而在大語言模型推理當中,MRDIMM 的頻寬優勢將得到充分的發揮,效能提升在 30% 以上,因為大模型是確定性的渴求視訊記憶體 / 記憶體容量和頻寬的應用場景。

在這裡就得提一下英特爾至強 6 效能核處理器釋出會資料中的另一個細節:在多種工作負載的效能對比中,AI 部分的提升幅度最為明顯,而且僅用了 96 核的型號(至強 6972P)。
圖片
也就是說,至強 6972P 使用了至強 8592 + 的 1.5 倍核心,獲得了至少 2.4 倍的大語言模型推理效能。其中,右側的是 Llama3 8B,int8 精度,那麼模型將佔用約 8GB 的記憶體空間。以目前雙路 24 通道 MRDIMM 8,800MT/s 約 1,690GB/s 的總記憶體頻寬而言,可以算出來每秒 token 數理論上限是 211。而雙路 8592 + 是 16 通道 DDR5 5,600MT/s,記憶體總頻寬為 717GB/s,token 理論上限是接近 90。二者的理論上限正好相差大約 2.4 倍。在這個例子當中,記憶體頻寬的增長幅度明顯大於 CPU 核心數量的增長。也就是說,在假設算力不是瓶頸的情況下,記憶體或視訊記憶體容量決定了模型的規模上限,而頻寬決定了 token 輸出的上限。

一般來說,在控制模型引數量並進行低精度量化(int8 甚至 int5、int4)之後,大語言模型推理時的算力瓶頸已經不太突出,決定併發數量和 token 響應速度的,主要還是記憶體的容量和頻寬。透過 MRDIMM,以及 CXL 記憶體擴充套件頻寬將是提升推理效能最有效的方式。這也是目前 CPU 推理依舊受到重視的原因,除了可獲得性、資源彈性外,在記憶體容量及頻寬的擴充套件上要比 VRAM 便宜的多。

結語

隨著掌握更多的資訊,至強 6 效能核處理器在記憶體頻寬上的優勢和潛力顯得愈發清晰了。MDRIMM 不但能夠大幅提升記憶體頻寬,還能使可部署的記憶體容量翻倍,顯著利好傳統的重負荷領域,如科學計算、大型資料庫、商業分析等,對於新興的向量資料庫也大有裨益。CXL 還能夠進一步起到錦上添花的作用。

過去幾年,增長迅猛的大模型推理需求,讓至強可擴充套件處理器(從第四代開始)利用 GPU 缺貨的契機證明了在 AMX 的加持下,純 CPU 推理也有不錯的效能,而且易於採購和部署。隨著應用深入,部分網際網路企業還挖掘了 CPU 推理的資源彈性,與傳統業務同構的硬體更易於進行峰谷排程。至強 6 效能核處理器在核數、記憶體頻寬均大幅提升的加持下,推理效能激增,進一步提升了推理的價效比。在解決了 “能或不能” 的問題之後,推理成本是大語言模型落地後最關鍵的挑戰。或許在這方面,至強 6 效能核處理器配 MRDIMM 的組合,將會帶來一些新的解題思路。

相關文章