详解Armv9.2 CPU集群的核心:Cortex-X与Cortex-A700系列及组合功能的实现

过去一年来,围绕2023 Arm全面计算解决方案(TCS23)中的CPU集群催生出许多令人瞩目的产品和发布,并共同推动AI等新的高级应用激增。

5月底,Arm发布了Arm终端计算子系统(CSS),以30%以上的计算和图形性能提升应对要求苛刻的实际应用中的安卓工作负载,同时也以59%的AI推理速度的提升支持更广泛的人工智能、机器学习和计算视觉工作负载。该平台包括了第二代Armv9.2 CPU集群,内含Arm性能最强的 Arm Cortex-X925 CPU 以及效率最高的Cortex-A725 和更新后的 Cortex-A520 CPU,让三纳米工艺上的性能和效率达到全新水平。

Arm终端事业部高级产品经理Manish Pandey

“AI运行于Arm平台和CPU集群之上,这些工作负载的计算密集度越来越高。Arm不断发展技术,以应对这一挑战。”在Arm终端事业部高级产品经理Manish Pandey看来,新的Armv9.2 CPU集群的问世,水到渠成。

作为Arm终端CSS核心之一的CPU家族Cortex-X/A系列,不仅在性能上显著提升,而且产品名称也有所变化,彰显Arm的创新成绩与服务客户的底气,而其中最值得大书特书的当属Cortex-X925。

作为迄今Arm速度最快、性能最强的CPU,Cortex-X925比前一代产品的单线程性能提升了36%,AI性能提高了46%。

Cortex-X系列是Arm于2020年推出的、以提高单线程性能为目标并且在过去四代年产品不断迭代升级的CPU。

另一款CPU——Arm Cortex-A725实现了性能与效率的最佳平衡,与前一代相比,其性能效率提升了35%。

针对最新的3nm工艺节点更新并优化的 Cortex-A520,能耗降低了15%。

功耗的降低有助于延长电池续航时间。在现实环境的体验中,Arm在40个指标上平均实现了30%的提升。

这些成果的取得,源自于Arm对关键用户体验指标搜集、设计和分析的结果。毫无疑问,每一个数字,对于芯片设计客户来说都意味着效率的提升、成本的降低、产品上市的提前,等等不一而足。而从终端消费者的角度来说,自然就等于更好的移动设备体验。

在高端移动设备之外,该集群能够扩展到更广泛的应用空间。如在PC笔记本领域,Cortex-A925与目前市面上的设备相比同样具备非常出色的性能。DSU与高效能的Cortex-A725相结合,提供了惊人的可扩展性,能够实现非常优异的多线程性能。

有形的“性能”与无形的“效率”,均保持两位数增速

性能指标的提升,背后是技术的强力支持。

除了聚焦单线程性能的提升,Arm更是基于每时钟周期指令数(IPC)、频率、编译器、操作系统(OS)、封装等多个因素大胆革新,以前沿的微架构功能、可配置性和先进的物理解决方案,让Arm终端CSS的性能得到了根本性的改变和提升。

Cortex-X925的性能改善正是得益于微架构的重大突破:在此先进的工艺节点上实现的3.8GHz频率,辅以对响应速度、网页浏览、图像和视频以及更出色的高帧率游戏体验等一系列的优化,实现了在Geekbench 6、应用启动速度及Speedometer 2浏览器基准测试中提升了约15%,而热门的大语言模型(LLM)上,词元(Token)首次响应时间缩短了约40%,AI网络推理速度提升高达35%。

Cortex-X在多个指标上也实现了性能和功耗的双重改进。

在动态电压频率调整(DVFS)曲线的操作点上端,Cortex-X925在关键时刻达到峰值性能,这表现在设备响应速度显著提升;Cortex-X925在给定的功耗范围内提升了性能,使得在功耗和热设计受限的设备中能够实现更多功能。

构建Cortex-X核心的目的不仅是为了取得卓越的基准测试结果,更是为了满足AI等实际应用的需求。

对于“基准测试无关紧要”这一观点,Manish Pandey并不认同,他认为这一观点产生的原因在于基准测试被不当使用甚至被滥用——例如以不合理的方式在CPU上运行。以游戏为例,由于设备上总是同时运行着多个应用而游戏并非单线程在运行,因此可用的硬件资源量受到限制——它不可能运行在最大的CPU核心上,也不会耗费所有的功率预算,内存系统也并非完全占用。Arm通过对在真实设备上运行并分析程序的上下文,对各个应用进行逐个分析,了解并行运行任务的上下文,以及哪些风险可以被序列化以实现所需的性能,在基准测试与实际应用之间存在巨大差异的环境下的得出准确的判断。

“从性能方面来看,我们达成了既定目标并有信心在下一代设备的CPU IPC方面保持领先。”Manish Pandey说。

“性能”的提升意味着用户能察觉手机上应用的快速运行和流畅度,而“效率”的成果则偏于无形。

至今已经发展了14代的Arm Cortex-A700系列对效率更是有独特的诠释。

Cortex-A725以持续的AI和游戏体验和在3nm工艺上实现最佳的物理解决方案,将性能效率推向新的高度。与去年产品相比,其能效提高了25%;借助更好的预取器和更大的L2缓存,L3流量减少了20%,为LLM提供了更多余量以提升性能。

Arm Cortex-A520也是Arm终端CSS的CPU组件之一。虽然其所采用的微架构更新频率较低,Arm依然与专用集成电路(ASIC)/芯片团队紧密合作,通过更新实现流程,确保在微架构不变的情况下,在此次更新的版本中为合作伙伴提供最佳的3nm工艺解决方案。

DSU :支撑“集群”功能的实现与支持

在现实生活和工作中,不同的应用对不同的指标有各自的敏感性:ML或游戏对缓存大小和缓存吞吐量较为敏感,AI智能摄像头一类的应用对缓存大小敏感度低,但关注内存延迟,而低强度线程的工作负载则对漏电比较敏感。

这就是多个CPU、GPU并存于集群中的原因。但如何让其在合适的时间各自能发挥最大的价值?DSU通过单个实现达到动态应对不同的应用,并达成最佳效果。

DynamIQ Shared Unit通过前所未有的设计灵活性和更多的面向智能解决方案的计算处理,赋能下一波创新。它将大核和小核CPU组合成一个完全集成的集群,使得可穿戴设备、XR、移动设备、大屏幕计算、汽车和基础设施等各类设备在功率和性能方面均能获得新的增强优势。其关键性能指标,如缓存大小、带宽、延迟、漏电和动态功耗等与实际应用之间存在紧密的联动。

此番推出的DSU-120至少包括三项更新:一是推出中高切片断电模式(Middle high slice power down);二是新增了Quick Nap(QNap)模式,后者是介于RAM的运作(Functional)模式和保留(Retention)模式之间一项可支持合作伙伴在不影响性能前提下显著降低漏电的功能,在为大型配置运行DSU时,可以使用整个DSU,但当需要降低功耗或满足不同带宽要求时,又可以适当缩小规模,大幅降低工作负载的功耗;此外,Arm还引入了硬件自动化。

优化三部曲:务实、稳健地解锁所有高难度挑战

在针对规模庞大的实际应用进行优化之前,开发者需要解决定义、设计、证明三大问题。以游戏为例,如果要提升25%的游戏性能,就要区分好是指每秒帧数增加25%,电池续航时间延长25%,或是游戏的复杂度提高25%,还是最终用户的体验满意度提升25%?这要求Arm必须能够从每个应用中提取关键区域。

在更深层级还需要考虑设备的限制条件,如屏幕的具体刷新率,决定每秒帧数的哪些因素,电池的续航能力以及在持续使用场景下的散热能力;针对系统级芯片(SoC)的设计选择,更需考虑DDR带宽如何在GPU、ISP和CPU之间动态分配等问题。

应用商店里有超过 300 万个应用,每天还有 3,000 个新应用上架,针对每一个应用进行优化是不现实的,因此需要对应用进行分类,并找出不同应用之间的共性,定义并确定需要改进的指标,将游戏、AI、基准测试分解为小的应用,然后采用合适的工具来设计CPU达成这些目标,即使是特定限制条件、无法使用整个系统资源的环境下也能在CPU上重放并找出瓶颈进行针对性的优化。

在性能之外,Arm同时也高度关注效率和能耗,并设计出新的电源模型来理解每项改进所带来的贡献。

Manish Pandey表示,最终Arm将所有这些成果综合起来,确保所有的解决方案都经过了优化并达到了预先设定的所有指标。

以卓越的解决方案与合作伙伴共同成长

Arm持续关注新的技术,并根据新的市场需求不断引入技术。作为Arm性能最强、效率最高、用途最广泛的一个全面的Armv9.2 CPU集群,其不仅胜任新的计算密集型工作负载,还能持续提供出色的性能和用户体验。

 “Arm所打造的不仅仅只是技术本身,还有为强大的软件生态系统提供支持。”Manish Pandey表示,Arm的最终目标是在各细分市场推出卓越的产品,同时也专注于人工智能与更加新的解决方案,帮助合作伙伴快速推出更卓越的产品,赋能合作伙伴加速成功。