ARM新架构性能提升放缓 未来将聚焦每瓦性能提升

CFan 电脑爱好者 2021-07-15 08:52产品 标签:性能 架构 ARM

ARM每年都会发布新一代的IP核心,只是今年诞生的Cortex-X2、Cortex-A710和Cortex-A510有些特殊,因为它们是第一批基于ARMv9指令集打造的消费端IP(适用于数据中心的Neoverse N2发布更早)。

01

02

其中,Cortex-X2是ArmV9指令集架构中的“皇帝”,扮演SoC移动平台里的“超大核”角色。它通过将分支预测与预取单元解耦分离、减少流水线长度、增加乱序执行窗口和载入存储窗口的数量以增强数据预取能力等方式,较之上代Cortex-X1在整数性能(IPC)方面提升16%,机器学习性能(ML)则可以翻一番,同时还拥有更好的能效比表现。

04

注意参与对比的Cortex-X1仅配备4MB三级缓存,而真正满血的Cortex-X1也是支持8MB三级缓存的

Cortex-A710通过改进分支预测、提升预取增强功能、优化核心与DSU联系等方式,在同制程工艺和频率的情况下,相比Cortex-A78的IPC性能提升10%,或者可以将功耗降低30%,机器学习性能也可得以翻倍。

08

Cortex-A510借鉴了Cortex-X系列在分支预测、数据预取方面的一些技术,而且还引入了一种名为“融合核心”的微架构,相比前辈Cortex-A55可提升35%~62%的性能,机器学习性能更是提升了3倍。

10

需要注意的是,上述性能提升都存在一定的水分。比如,Cortex-X2的16%性能增益,是建立在满血8MB三级级缓的基础上;Cortex-A710和Cortex-A510要想满血释放性能,理论也需要搭配4MB二级缓存和8MB三级缓存(A710),以及32KB、256KB和8MB的一级、二级、三级缓存(A510)。然而,现实中芯片商很难将料“堆满”。

实际上,骁龙、天玑、麒麟等拥有相同工艺、架构和主频的芯片间之所以还存在性能上的差异,很大程度就是缓存容量的大小有别引起的。

而芯片商之所以鲜有搭配满血ARM IP架构核心设计的原因,就是受制于摩尔定律的放缓——哪怕采用了最先进的5nm制程工艺,以骁龙888为代表的旗舰级芯片还是存在发热高、功耗大的缺陷,很多骁龙888手机在玩《原神》级别游戏时的体验反而不如一些搭载骁龙870的次旗舰,是不是很惊喜?

在ARM最新的一篇博客文章中,企业院士兼技术总监Rob Aitken就表示,如今摩尔定律遇阻,在工艺缩进到原子尺度时,ARM需要重新调整下产品努力的方向,更多去关注每瓦性能的改进。

换句话说,未来ARM的IP核心,将不在着重于IPC性能的提升,而将更加看重能效比的改进——挤牙膏的时代即将来临,大家做好心理准备吧。

QQ图片20210420165237