https://zhuanlan.zhihu.com/p/371282138
就在2月21日,ARM釋出了新一代面向伺服器的高效能處理器N3和V3,N系列平衡效能和功耗,而V系列則注重更高的效能。此次釋出的N3,單個die
最高32核(並加入到CCS,Compute Subsystems,包含Core,System Ip等),以CCS來討論,每瓦效能比上一代提升20%-50%。而Neoverse V3,單個die
最高64核(加入CCS),ARM似乎更強調其AI相關的分析能力
,並於Neoverse V2 相比,Neoverse V3 在機器學習方面提供了+96%的效能提升,在RDBMS上提供了+16%的效能提升,在加密貨幣方面提供了+9%的效能提升,在整數工作負載方面提供了+12% 的效能提升。與此同時,相關的系統IP同時釋出,例如新一代的CMN S3,這將取代前一代的CMN700,但沒有更多的資訊。
2V3微架構的改變
Neoverse™ V3處理器應用 Arm®v9.2-A架構,Core介面使用DSU-120,Core總體效能提升沒有官方資料,部分分析認為相比較前代提升大約在10~20%。
MMU
MMU,左為V3,右為V2MMU仍然延續經典的2級TLB結構,更細節的微架構設計手冊沒有過多的描述,Translation Cache,聚合,預取等傳統技術依然存在,對於L2 TLB,3代微架構沒有明顯的改變。最大的改變是 L1 TLB,其中ITLB的entry從V2的48entry
升級到V3的128entry
,而DTLB 從48entry
升級為96entry
。最具特點的是ITLB的巨大升級,可能是為了應對AI場景下,指令集地址變化更頻繁。這也是為什麼ARM對V3更強調AI場景的分析。
L1 Cache
ICache,上為V3,下為V2ICache的改變主要在V3拋棄了Macro-Operation Cache(手冊沒提,應該是放棄了),這裡亦安分析可能是對於精簡指令集,這種做法價效比不高,或者設計確實沒有達到理想的狀態,再者,ARM本身非常關注功耗,所以在V3處理器版本拋棄了這種微架構。手機端A77,A78,X1,X2,X3均具有MOPCache,X4放棄該微架構。
DCache在引數上描述無差異。
L2 Cache
L2 cache,上V3,下V2L2從官方描述上看,從原來的V2(1-2MB)升級V3(2-3MB),其它引數沒有明顯變化,詳細的微架構尚不清楚。
3總結
由於V3/N3剛剛釋出,其它例如預測器,亂序等模組的微架構尚不清晰,等待公佈更多資訊再聊,除去按照慣例的效能提升描述,比較值得關注的是ARM對處理器涉及AI分析
的強調,由此可以知道近幾年AI發展對整個晶片行業的巨大沖擊,似乎只有往AI上靠,才會獲得市場的青睞,這一場AI爭奪戰已經進入白熱化,晶片行業本身就處在中心。