伺服器處理器大亂鬥 龍芯攪局2012(圖)

galdys發表於2011-09-01

摘要:中國在高效能運算領域所取得的成就已為世界所矚目,但如果中國的超級計算機不再使用美國製造的處理器,而是將自家生產的低功耗的龍芯取代美製x86晶片,結果又會如何呢?

中國在高效能運算領域所取得的成就已為世界所矚目,但如果中國的超級計算機不再使用美國製造的處理器,而是將自家生產的低功耗的龍芯取代美製x86晶片,結果又會如何呢?這個龍(芯)之夢離我們還有多遠,也許龍芯-3B處理器會給你一個啟示。

近日,中國科學院展示了下一代8核心龍芯-3B晶片。預示著中國未來的超級計算機將用自主研製的龍芯代替美國設計的x86晶片和GPU協同處理器(51CTO推薦專題:風雨八年 揭祕國產“龍芯”伺服器)。

龍芯系列處理器路線圖

龍芯基於SGI公司的MIPS架構。32位的龍芯-1主頻只有266MH。龍芯-2為64位,主頻提高至1.2 GHz。2007年釋出的龍芯-2F具有4個核心,主頻800MHz,浮點運算能力32億次/秒。針對伺服器應用的龍芯-3A處理器在推遲一年後釋出。中科院在開發時加入了對硬體的64位指令模擬功能,El Reg一年前就曾報導稱,龍芯-3處理器加入了一些指令,可以幫助QEMU管理程式(Red Hat KVM管理程式的核心部分)實現x86和MIPS指令格式的轉換。

龍芯-3B於2012年登陸超算

龍芯-3A在設計上採用65nm CMOS工藝和BGA封裝格式,4個64位處理器核心,主頻為900MHz至1GHz,浮點運算能力160億次/秒。該處理器包含4.25億個電晶體,核心面積174.5平方毫米,功耗僅10W,還包括兩個16位的HyperTransport 1.0 埠、4MB二級快取和兩個支援DDR2和DDR3的記憶體控制器。

龍芯-3B處理器示意圖

胡偉武在ISSCC大會上介紹的龍芯-3B採用65nm CMOS 工藝,具有8個核心,每個核心有2個256位向量協同處理器,主頻仍為1GHz,浮點運算能力1.28千億次/秒。該處理器具有兩個HyperTransport埠和兩個DDR3記憶體控制器,共包含5.83億個電晶體,核心面積為299.8平方毫米,功耗為40W。在之前的測試中龍芯-3B功耗為28.9W,核心以外的部分消耗11.1W。

胡偉武表示:“MIPS基本指令只有300多條,我們自己增加了500多條。在龍芯-3B和龍芯-2H處理器中,我們的向量計算部件實現了128個256位的暫存器。”

龍芯-3B將會在2012年用於曙光6000超級計算機

 

早期龍芯-3B刀鋒伺服器

下圖為配備了龍芯-3B處理器刀片的早期版本。

曙光雙路龍芯-3A龍芯-3B刀鋒伺服器

曙光6000刀鋒伺服器

胡偉武透露,曙光6000刀片的設計曾經用於深圳國家超級計算中心研製至強5650和英偉達M2050的混合系統——星雲。星雲在2010年11月的TOP500中以1.271千萬億次/秒的成績獲得第三名。

另一個曙光6000刀片叢集將配備3000個龍芯-3B晶片,計算水平將達到300萬億次/秒。預計會在今年夏天推出。

曙光6000不是最高密度

曙光6000刀片系統絕不是中科院計算所能達到的最高密度。我們可以檢視下胡偉武在ISSCC大會上展示的1U機架伺服器的系統板:

中科院IU2T 系統板

這個1U 2T的系統板整合了16個8核心的龍芯-3B處理器,計算水平為2萬億次/秒,一個機架就能得到42萬億次/秒的計算水平。因此要達到1千萬億次/秒的計算水平,理論上24個機架就可以實現。

龍芯-3C的設計將採用28nm製程工藝,推出8核與16核兩種產品,具有更高的主頻,介於1.5GHz至2GHz之間,計算水平將能夠達到5.12千億次/秒。從路線圖可以得知,該處理器還有能力擴充套件到16核以上,預計會在2012年底或2012年初推出。

英特爾新安騰處理器“Poulson”

在這次大會上,英特爾公佈了新一代安騰處理器“Poulson”的大量技術細節。專門為需要高可靠性和可用性的高階伺服器設計的Poulson,可以看做是一個測試英特爾最新技術的媒介,然後將技術向下應用於x86伺服器或PC晶片上。

晶片處理器
Poulson核心架構圖

Poulson使用32nmHKMG工藝(跨過45nm),最多八核心,電晶體也猛增一半多達到31億個,但是核心面積縮小了22%,只有29.9×18.1=544平方毫米,熱設計功耗則依然保持在170W,每核心同頻率下降低60%。

晶片處理器
Poulson核心架構圖解

直接採用32nm工藝,整合約31億個電晶體,這對採用65nm工藝的上一代安騰來說是個巨大的提升。更先進的製造工藝讓英特爾可以在晶片上整合更多的電晶體,從而提升效能,降低洩露,讓晶片也更具能效。Poulson還整合了四個全速和兩個半速QPI匯流排控制器,兩個SMI可擴充記憶體互連控制器。

核心架構與功耗優化

晶片處理器
單個核心架構圖

同時Poulson每個核心16KB一級資料快取、16KB一級指令快取、512KB二級資料快取、256KB二級指令快取,然後32MB三級快取一方面為八個核心共享,但又分成八個4MB大小的LLC區塊供給每個核心快速訪問(有些類似於SandyBridge),另外還有兩個1.5MB目錄快取,總的SRAM快取容量達到了54MB。

隨著處理器的系統整合度越來越高,從而對系統級的功耗優化和有效的電源管理提出了更加苛刻的要求。

晶片處理器
功率指標比例

在保持當前功耗特性不變的前提下通過一系列低功耗技術來提高系統效能仍然是很多工程師採取的方式。對功耗問題的持續關注也將促進各種系統如PC,伺服器,資料中心等類似的系統功耗優化,最終的結果必將是更低的成本,更低散熱需求,以及更加綠色環保的產品。

IBM zEnterprise 196處理器

IBM zEnterprise 196處理器其實已經發布了將近半年時間,從釋出到現在,IBM唯一談論的一個技術點就是新大型機的處理器主頻為5.2GHz,是“全球最快的微處理器”。

晶片處理器
IBM z196大型機晶片圖解

z196處理器有14億個電晶體,面積為512.3平方毫米,這使其在電晶體數量和麵積上都要大於POWER7晶片。z196晶片採用了IBM的觸點陳列封裝,被稱為C4的金屬觸點封裝取代了以往的針狀插腳。z196處理器有驚人的8093個電源觸電和1134個訊號觸電。

SMP Hub的一個優點就是可以載入到帶有L4快取的元件上,這是大多數伺服器所沒有的——幾年前IBM曾向至強處理器的EXA晶片組上增加了一些L4快取(編者注:即採用了eX4架構的IBM X3850M2/3950M2平臺,可通過擴充套件組建升級為16路系統。對應的CPU為Xeon 7400系列)。L4快取之所以重要,其原因在於大型機引擎的主頻要遠高於主記憶體速度,但是如果只通過增加一個快取層來滿足Z196的引擎需求是非常昂貴的。

快取的重要性

每個MCM上部署6個CP和2個SC,MCM是一個邊長96毫米的正方形,功耗1880瓦。每個處理器板有一個MCM,這使得一個完全連線的系統可以達到96個CP,十幾個控制器可以訪問多達3TB RAID記憶體,32個I/O Hub介面最高可實現288 GB/s的I/O頻寬。頂架式zEnterprise 196 M80裝置中的80個CP可用於執行工作負載,其他可以使用Parallel Sysplex叢集來耦合系統、管理I/O和熱備份等等。

晶片處理器
zEnterprise196SMPHub/共享快取

z196晶片上的每個核心都有64KB的L1指令快取和128KB的L1資料快取(與z10相同)。這些核心是非常相似的,但是z196有100個新指令和超標量通道允許指令重新排序,讓通道比z10更較有效,而且對編輯程式碼是不可見的。每個核心都有1.5MB的L2快取。

其採用45nmPDSOI工藝製造,13個金屬層,3500米連線,14億個電晶體,核心面積512平方毫米。每顆晶片有四個核心,每兩個核心共享一個協處理器(COP),用於加解密和壓縮的加速。

晶片處理器
IBM z196大型機晶片

快取方面,每個核心64KB一級指令快取、128KB一級資料快取、1.5MB二級快取,四個核心共享24MBeDRAM三級快取,六顆處理器組成一個節點還共享192MBeDRAM四級快取。同時z196還支援DDRRAIM記憶體容錯技術。

AMD推土機架構Bulldozer

至於AMD之前早就公佈過下一代處理器架構推土機的大量技術細節。推土機架構Bulldozer主攻效能和擴充套件性,面向的是主流客戶端和伺服器領域。可以說推土機是AMD徹底重新設計的核心,將成為AMD下一代高效能處理器技術,用於客戶端和伺服器領域,相比於Opteron6100系列會增加33%的核心、大約50%的效能。

Bulldozer是AMD最新的突破
Bulldozer是AMD最新的突破

推土機的模組可以通過HyperTransport高速點對點匯流排多個累加在一起,組成更多核心產品,比如代號英特拉格斯的Opteron6200系列伺服器處理器就有6-8個模組、12-16個核心,代號巴倫西亞的Opteron4200系列則有3-4個模組、6-8個核心,它們會分別取代現有的8-12核心Opteron6100系列、4-6核心的Opteron4100系列,均採用GlobalFoundries32nmSOI工藝製造。

Bulldozer晶片的基本構建塊是AMD所謂的“模組”,帶有一個有自己L1快取的單執行緒四通道的整數單元。這個模組中2個這樣的整數單元,以及2個128位浮點計算單元;所有4個這單元共享指令集和解碼單元,以及共享的L2快取、共享的L3快取和共享的北橋來連線到外圍裝置。這樣2個Bulldozer就有一個共享的浮點排程器和兩個整數排程器;如果整數單元空閒的話,這個四核晶片就可以在一個時脈頻率內執行4個雙精度或者8個單精度讀點運算。

推土機將採用新的模組化設計,每個模組擁有兩個四管線核心,彼此共享一個浮點排程器和兩個128位乘法累加單元(FMAC)。兩個核心都擁有自己的整數排程器、一級資料快取,並預取、解碼單元和二級快取。新架構還將有全新的x86指令集支援,包括SSE4.1、SSE4.2、AVX、XOP。 

除了高效能運算領域之外浮點運算量並不多,這種浮點排程器共享設計能大大節省電晶體、核心面積、功耗,降低成本;兩個FMAC單元既可以被每個核心單獨使用,也可以合併組成一個256位FMAC單元,當然這需要程式程式碼做相應改變。為了獲得最大程度的效能功耗比,推土機架構還會在共享、專用單元之間動態切換。

51CTO觀點:對於當今的伺服器處理器行業來說,無論是IBM、Intel還是AMD都各自在高階處理器市場獨當一面。處理器巨頭技術爭霸的結果我們暫時還無法判定高下,但既然能成為領跑者就有一定的原因。本次大會上,龍芯處理器再次提出新的規劃,如果能躋身超算處理器市場,那將是中國處理器一次里程碑的進步。在伺服器處理器的混戰中,最後贏家是Intel、AMD還是IBM呢?也許不只三家爭霸也未可知。

 

相關文章