8 月 20 日,2021 年英特爾架構日如約而至!會上,英特爾公司高階副總裁兼加速計算系統和圖形事業部總經理 Raja Koduri 攜手多位英特爾架構師,全面介紹了英特爾在 CPU、GPU 及 IPU 架構方面的重大進展。首個效能混合架構 Alder Lake,以及其搭載的兩款全新的 x86 核心框架——能效核和效能核,以及英特爾硬體執行緒排程器;
全新的獨立遊戲圖形處理器(GPU)架構 X^e HPG 微架構,這將是英特爾首款基於臺積電 N6 工藝的 GPU;
專為資料中心打造的下一代英特爾至強可擴充套件處理器 Sapphire Rapids;
基於 X^e HPC 微架構的資料中心 GPU 架構 Ponte Vecchio;
全新的基礎設施處理器(IPU);
oneAPI 工具包:提供一個開放、規範、跨架構和跨廠商的統一軟體棧,讓開發者能夠擺脫專有語言和程式設計模型的束縛。
能效核曾用代號「Gracemont」,是一個高能效的 x86 微架構,旨在面向當今多工場景,提高吞吐量效率並提供可擴充套件多執行緒效能。該架構致力於透過低電壓能效核降低整體功率消耗,為更高頻率執行提供功率熱空間。同時能效核的效能也得到了提升,將能滿足更多動態任務負載。能效核可以在不耗費處理器功率的情況下對工作負載進行優先順序排序,並透過每週期指令數(IPC)改進一些功能以提高效能,包括:擁有 5000 個條目的分支目標快取區,實現更準確的分支預測;
64KB 指令快取,在不耗費記憶體子系統功率的情況下儲存可用指令;
英特爾的首款按需指令長度解碼器,可生成預解碼資訊;
英特爾的簇亂序執行解碼器,可在保持能效的同時,每週期解碼多達 6 條指令;
後端寬度(Wide Back End)具備 5 組寬度分配(Five-wide allocation)和 8 組寬度引退、256 個亂序視窗入口和 17 個執行埠;
支援英特爾控制流強制技術和英特爾虛擬化技術重定向保護等功能;
實現了 AVX 指令集以及支援整數人工智慧操作的新擴充套件。
相比於英特爾最多產的 CPU 核心 Skylake,在單執行緒效能下,能效核能夠在相同的功耗下實現 40% 的效能提升,或在功耗不到 40% 的情況下提供同等效能。與執行四個執行緒的兩個 Skylake 核心相比,四個能效核所提供的吞吐量效能,能夠在功耗更低的情況下帶來 80% 的效能提升,而在提供相同吞吐量效能的情況下,功耗將減少 80%。工作負載的程式碼體積正在不斷增長,需要更強的執行能力。資料集也隨著資料頻寬的需求提升而大幅增加。英特爾全新效能核微架構旨在提高速度,突破低時延和單執行緒應用程式效能的限制,曾用代號「Golden Cove」。該架構在帶來顯著增速的同時,能夠更好地支援程式碼體積較大的應用程式。效能核是英特爾有史以來構建的效能最高的 CPU 核心,並透過以下功能突破了低時延和單執行緒應用程式效能的極限:相比於目前的第 11 代英特爾酷睿處理器架構(Cypress Cove),在通用效能的 ISO 頻率下,針對大範圍的工作負載實現了平均約 19% 的改進;
呈現出更高的並行性;
搭載英特爾高階矩形擴充套件(AMX),內建下一代 AI 加速提升技術,用於學習推理和訓練。AMX 包括專用硬體和新指令集架構,以顯著加速矩陣乘法運算;
減少時延,對大型資料和程式碼體積較大的應用程式提供更好的支援。
英特爾硬體執行緒排程器(Intel Thread Director)為了讓效能核和能效核與作業系統無縫協作,英特爾開發了一種改進版的排程技術,稱為「英特爾硬體執行緒排程器(Intel Thread Director)」。 該排程器直接內建於硬體中,可提供對核心狀態和執行緒指令混合比的低階遙測,讓作業系統能夠在恰當的時間將合適的執行緒放置在合適的核心上。硬體執行緒排程器具有動態性和自適應性——它會根據實時的計算需求調整排程決策——而非一種簡單的、基於規則的靜態方法。目前,英特爾正在最佳化 Thread Director,以在微軟即將推出的 Windows 11 作業系統上獲得最佳效能。基於 Intel 7 製程的首個混合架構 Alder Lake英特爾公佈了首款整合能效核和效能核、並搭載全新英特爾硬體執行緒排程器的混合架構「Alder Lake」,它基於 Intel 7 製程工藝打造而成,並採用了單一、高度可擴充套件的 SoC 架構,支援最新記憶體和最快 I/O。該架構適用於從移動端到桌上型電腦的產品,並且基於 Alder Lake 的產品將在今年開始出貨。Alder Lake 將提供驚人的效能,支援從超行動式筆記本到發燒級再到商用桌上型電腦的所有客戶端裝置,它提供了以下三類產品設計形態:高效能、雙晶片、插座式的桌上型電腦處理器 ,具有領先效能和能效。支援高規格的記憶體和 I/O;
高效能筆記本處理器,採用 BGA 封裝,並加入影像單元,更大的 X^e 顯示卡和 Thunderbolt 4 連線;
輕薄、低功耗的筆記本處理器,採用高密度的封裝,配置最佳化的 I/O 和電能傳輸。
構建如此高度可擴充套件架構的挑戰,需要在不影響功率的情況下滿足計算和 I/O 代理對頻寬超乎尋常的需求。為了解決這一挑戰,英特爾設計了三種獨立的內部匯流排,每一種都採用基於需求的實時啟發式後處理方式: 計算內部匯流排可支援高達 1000GBps——即每個核心或每叢集 100GBps,透過最後一級快取將核心和顯示卡連線到記憶體;
I/O 內部匯流排支援可高達 64GBps,連線不同型別的 I/O 和內部裝置,能在不干擾裝置正常執行的情況下無縫改變速度,選擇內部匯流排速度來匹配所需的資料傳輸量;
記憶體結構可提供高達 204GBps 的資料,並動態擴充套件其匯流排寬度和速度,以支援高頻寬、低時延或低功耗的多個操作點。
英特爾還公佈了桌上型電腦處理器的 I/O 資訊,從下圖可以看到,擁有最高 8 個效能核、8 個能效核、24 執行緒以及 30M 的 Non-inclusive LL 快取。獨立遊戲顯示卡微架構 X^eHPG 及 Alchemist 系列 SoCX^e HPG 是一款全新的獨立顯示卡微架構,專為遊戲和創作工作負載提供發燒級的高效能。X^e HPG 微架構為 Alchemist 系列 SoC 提供動力,首批相關產品將於 2022 年第一季度上市,並採用新的品牌名——英特爾銳炫 Arc。X^e HPG 微架構採用全新的 X^e 核心,是一款聚焦計算、可程式設計且可擴充套件的元件。英特爾公佈了基於 X^e HPG 架構的客戶端顯示卡路線圖——Alchemist(此前稱之為 DG2)、Battlemage、Celestial 和 Druid SoC。其中,基於 X^e HPG 微架構的 Alchemist SoC 產品能夠提供出色的可擴充套件性和計算效率,並擁有以下關鍵架構特徵:使用臺積電的 N6 製程節點上進行製造;
多達 8 個具有固定功能的渲染切片,專為 DirectX 12 Ultimate 設計;
全新 X^e 核心,擁有 16 個向量引擎和 16 個矩陣引擎(被稱為 XMX,即 X^e Matrix eXtension)、快取記憶體和共享內部視訊記憶體;
支援 DirectX Raytracing(DXR)和 Vulkan Ray Tracing 的新光線追蹤單元;
透過架構、邏輯設計、電路設計、製程工藝技術和軟體最佳化,相比 X^e LP 微架構實現 1.5 倍的頻率提升和 1.5 倍的每瓦效能提升。
英特爾分享了試產階段 Alchemist SoC 的真實遊戲展示(虛幻引擎 5 測試良好),以及全新的基於神經網路的超取樣技術 X^e SS 等。X^ e SS是一種利用Alchemist的內建XMX AI加速、實現高效能和高保真視覺的全新升頻技術。該技術使用深度學習來合成非常接近原生高解析度渲染質量的影像。
目前,多家早期的遊戲開發商已開始使用X^SS, 本月將向獨立軟體供應商(ISV)提供XMX初始版本的SDK,DP4a版本將於今年晚些時候推出。
專為資料中心打造的下一代英特爾至強可擴充套件處理器 Sapphire RapidsSapphire Rapids 處理器基於 Intel 7 製程工藝技術,採用全新的效能核微架構,旨在提高速度 / 突破低時延和單執行緒應用效能的極限。Sapphire Rapids 的核心是一個分割槽塊、模組化的 SoC 架構,採用英特爾的嵌入式多晶片互連橋接(EMIB)封裝技術,在保持單晶片 CPU 介面優勢的同時,具有顯著的可擴充套件性。Sapphire Rapids 提供了一個單一、平衡的統一記憶體訪問架構,每個執行緒均可完全訪問快取、記憶體和 I/O 等所有單元上的全部資源,由此實現整個 SoC 具有一致的低時延和高橫向頻寬。該處理器的主要構建塊如下圖所示:此外,Sapphire Rapids 提供業界廣泛的資料中心相關加速器,包括新的指令集架構和整合 IP,以在各種客戶工作負載和使用中提升效能。透過無縫整合的加速器引擎賦能常見模式任務的解除安裝,提升核心效率。 英特爾資料流加速器(DSA)——旨在解除安裝導致資料中心規模部署開銷的最常見資料移動任務。DSA 改進了對這些開銷任務的處理,提供了更高的整體工作負載效能,並可以在 CPU、記憶體和快取以及所有附加的記憶體、儲存和網路裝置之間移動資料。總之,這些架構上的改進使得 Sapphire Rapids 能夠為雲、資料中心、網路和智慧邊緣中廣泛的工作負載和部署模式提供開箱即用的效能。英特爾釋出了迄今為止最複雜的 SoC Ponte Vecchio,它擁有 1000 多億個電晶體,提供業界領先的每秒浮點運算次數和計算密度,以加速 AI、HPC 和高階分析工作負載。據悉,Ponte Vecchio 已走下生產線進行上電驗證,並已開始向客戶提供限量樣品。Ponte Vecchio 預計將於 2022 年面向 HPC 和 AI 市場釋出。英特爾稱,早期的 Ponte Vecchio 晶片展示了領先的效能,在流行的 AI 基準測試中創造了推理和訓練吞吐量的行業記錄。其中,英特爾 A0 晶片效能提供高於 45 TFLOPS 的 FP32 吞吐量、高於 5 TBps 的記憶體結構頻寬,以及高於 2 TBps 的連線頻寬。Ponte Vecchio 基於 X^e-HPC 微架構,由多個複雜的設計組成,這些設計以單元形式呈現,然後透過嵌入式多晶片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連線。這些設計均被整合於 Foveros 封裝中,為提高功率和互連密度形成有源晶片的 3D 堆疊。高速 MDFI 互連允許 1 到 2 個堆疊的擴充套件。Ponte Vecchio 的核心是計算單元(Compute Tile)——一個密集的多 X^e 核心。計算單元基於臺積電先進的 N5 製程工藝,包含 8 個 X^e 核心和 4MB 一級快取。此外,計算單元具有極其緊湊的 36 微米凸點間距,可與 Foveros 進行 3D 堆疊。英特爾也已經透過設計基礎設施設定和工具流程以及方法,為測試和驗證該節點的單元鋪平了道路。基礎單元是 Ponte Vecchio 的連線組織。它是基於 Intel 7 製程工藝的大型晶片,針對 Foveros 技術進行了最佳化。最後是 X^e 鏈路單元(X^e Link Tile),它提供了 GPU 之間的連線,支援每單元 8 個鏈路。該單元對 HPC 和 AI 計算的擴充套件至關重要,旨在旨在實現支援高達 90G 的更高速 SerDes,並且已被新增到「極光」(Aurora)百億億次級超級計算機的擴充套件解決方案中。IPU 設計旨在使雲和通訊服務提供商減少在中央處理器(CPU)方面的開銷,並充分釋放效能價值。Mount Evans 是英特爾的第一個 ASIC IPU,旨在解決多樣化和分散的資料中心的複雜性。Oak Springs Canyon 是一個 IPU 參考平臺,採用 Intel Xeon D 處理器和 Intel Agilex FPGA。Intel N6000 加速開發平臺專為基於 Xeon 的伺服器設計。https://mp.weixin.qq.com/s/2i2SDY9jD-TVFtemX9GlzQhttps://www.intel.com/content/www/us/en/newsroom/resources/press-kit-architecture-day-2021.html