导读
2025年9月10日 —— 全球领先的半导体IP提供商Arm宣布推出其迄今最先进的计算子系统(Compute Subsystem, CSS)平台——Arm Lumex CSS。该平台专为旗舰级智能手机及下一代个人电脑设计,旨在通过深度集成的CPU、GPU及系统IP,全面加速端侧人工智能(On-Device AI)体验。这标志着Arm正从提供单一IP向交付集成化、预验证的平台级解决方案进行战略转型,以应对AI时代对算力、能效和开发效率日益严苛的需求。
随着端侧AI从概念走向大规模应用,用户对设备的即时响应、个性化服务和隐私保护提出了更高要求。将AI计算从云端迁移至设备本地,已成为行业共识。Arm高级副总裁兼终端事业部总经理Chris Bergey表示:“AI已不再仅仅是一项技术功能,它已成为下一代移动与消费技术的支撑底座。”Arm Lumex CSS平台的发布,正是Arm对这一趋势的强力回应,旨在为整个生态系统提供一个更智能、更高效、更易于开发的AI计算基石。
文字编辑|宋雨涵
1
Lumex CSS:
一个为AI时代而生的集成平台
与以往提供独立的CPU、GPU内核不同,Arm Lumex CSS是一个高度集成和优化的“平台级”解决方案。它将最新的Armv9.3架构C1 CPU集群、Mali G1-Ultra GPU、全新的系统IP(如SI L1系统互连和MMU L1内存管理单元)以及生产就绪的3纳米物理实现方案“打包”提供给芯片设计厂商。
Arm Lumex CSS平台集成了CPU、GPU、系统IP及物理实现,旨在加速AI设备开发
这种“平台优先”的策略为合作伙伴带来了显著优势。一方面,通过采用经过Arm预先集成和验证的子系统,芯片供应商可以大幅缩短研发周期,降低在先进工艺节点(如3纳米)上的设计复杂性和流片风险,从而加速产品上市。另一方面,Lumex CSS平台提供高度的灵活性和可扩展性,合作伙伴既可以直接采用Arm交付的平台,也可以根据自身目标市场对寄存器传输级(RTL)设计进行配置,实现差异化创新。
2
C1 CPU集群与SME2技术:
端侧AI性能的核动力
CPU作为异构计算的核心,在驱动端侧AI转型中扮演着关键角色。此次Lumex平台的核心是全新的Arm C1 CPU集群,它基于Armv9.3架构,是Arm迄今性能最强的移动CPU系列。该系列包含四个不同定位的核心:
CPU型号 | 主要优势 | 关键性能指标 | 理想应用场景 |
Arm C1-Ultra | 旗舰级峰值性能 | 单线程性能较Cortex-X925提升25% | 大模型推理、计算摄影、内容创作 |
Arm C1-Premium | 卓越的面积效率 | 核心面积较C1-Ultra缩减35%,性能保持同等水平 | 次旗舰移动设备、多任务处理 |
Arm C1-Pro | 出色的持续能效 | 持续性能提升16%,能效提升12% | 游戏、视频播放、流式推理 |
Arm C1-Nano | 极致的能耗效率 | 能效较Cortex-A520提升26% | 可穿戴设备、紧凑型消费电子设备 |
C1 CPU集群最大的亮点在于内置了第二代可伸缩矩阵扩展(SME2)技术。SME2是一套专为加速矩阵运算而设计的CPU指令集,而矩阵运算正是大语言模型(LLM)、计算机视觉(CV)等现代AI工作负载的核心。通过SME2,C1 CPU集群在处理生成式AI、语音识别等任务时,能效和性能得到革命性提升。

Arm终端事业部产品管理总监Ronan Naughton
根据Arm公布的数据,在同等条件下,启用SME2的C1 CPU集群可带来高达5倍的AI性能提速和3倍的能效优化。这意味着用户可以在手机上体验更流畅、响应更迅速的AI交互,同时享受更长的电池续航。具体到应用层面,SME2的加持使得语音工作负载延迟降低4.7倍,在Google Gemma 3模型上进行聊天交互的AI性能增长4.7倍。
3
Mali G1-Ultra GPU
移动端的光追与AI新高峰
在图形处理和并行计算方面,全新的Arm Mali G1-Ultra GPU同样实现了巨大突破。作为Arm迄今性能最强的移动GPU,Mali G1-Ultra专为新一代手游和AI体验而生。其最引人注目的升级是搭载了第二代光线追踪单元(RTUv2)。
与上一代相比,RTUv2带来了高达2倍的光线追踪性能提升,使移动设备能够渲染出桌面级的光照、阴影和反射效果,极大地增强了游戏的沉浸感。在《暗区突围》、《原神》等主流游戏中,Mali G1-Ultra也实现了全面的性能增强,图形性能平均提升20%。
除了游戏,GPU在AI计算中也扮演着重要角色。Mali G1-Ultra引入了新的FP16矩阵计算路径,使其在AI与机器学习网络上的推理速度比上一代Immortalis-G925快上20%,可有效加速语义分割、图像增强等AI工作负载。
4
生态系统与开发者赋能
加速AI应用落地
强大的硬件需要完善的软件生态来释放其全部潜力。Arm深谙此道,在推出Lumex CSS平台的同时,也为开发者提供了无缝的开发体验。核心在于Arm KleidiAI软件库。
KleidiAI是一个面向AI框架开发者的计算内核库,它封装了对底层硬件(如SME2)的优化。这意味着开发者无需深入了解复杂的硬件指令,甚至无需修改任何代码,只要他们使用的AI框架(如Google LiteRT、阿里巴巴MNN、微软ONNX Runtime)集成了KleidiAI,其应用就能自动获得SME2带来的硬件加速能力。
“得益于SME2技术增强的硬件,像Gemma 3这样更先进的AI模型能够直接在各类设备上运行。随着SME2的持续扩展,移动开发者将能在整个生态系统中无缝部署新一代AI功能。”—— Iliyan Malchev, Google安卓平台杰出软件工程师
目前,KleidiAI已集成至所有主流移动操作系统和AI框架中。包括三星、阿里巴巴、腾讯、vivo在内的众多行业领导者已与Arm展开合作,共同推动端侧AI技术的创新和落地。
结语:
Arm Lumex CSS平台的发布,正值移动AI市场全蓬勃发展之际。市场研究机构预测,未来几年端侧AI芯片市场将以超过20%的年复合增长率高速扩张。Lumex平台的推出,不仅巩固了Arm在移动计算领域的领导地位,更通过平台化的方式,降低了AI硬件的开发门槛,有望加速“AI手机”、“AI PC”等新物种的普及。
通过将强大的AI计算能力置于用户设备端,Lumex平台解决了云端AI在延迟、隐私和网络连接方面的固有挑战,使得更复杂、更个性化的实时智能体验成为可能。从无需联网的实时语音翻译,到能即时提供姿势反馈的AI健身教练,再到捕捉惊艳夜景的计算摄影,一个“更智能、更高效、更个性化”的消费电子设备新时代正拉开序幕。
Arm预计,到2030年,SME与SME2技术将为超过30亿台设备新增超100亿TOPS的计算能力。Arm Lumex CSS平台作为这一宏伟蓝图的起点,无疑将成为未来移动创新的核心驱动力,引领行业迈向一个真正的“无处不AI”的未来。