“算力即生产力,各国都在大力建设算力基础设施。”华为计算产品线营销运作部部长张爱军在近日举行的华为2026新春媒体沙龙上点明了算力的战略意义。
重新定义超节点:场景化应用加速落地
随着人工智能技术的飞速发展,大模型规模不断扩大、输入长度持续增加、数据量呈指数级增长,传统集群模式已难以满足算力需求。在此背景下,华为超节点技术应运而生,成为破解算力瓶颈的关键创新。
谈及超节点,张爱军首先澄清了业界的两大误解:“超节点不是传统大型机的回归,也不是简单的服务器堆砌。”传统大型机以CPU为核心,采用单一操作系统,本质是“长胖了的服务器”;而超节点基于多个分布式设备,通过新型互联技术实现逻辑层面的整体协同,核心在于满足大带宽、低时延、内存统一编址三大关键要素。
从技术架构来看,超节点实现了从“CPU为中心”到“平等互联”的范式转变。以往设备间依赖PCIe协议互联,PCIe5.0最高双向速率仅128GB/s,难以支撑大规模数据传输;而华为超节点借助灵衢协议构建全新总线,以昇腾384超节点为例,通信带宽较传统架构提升10倍,RTT通信时延从7微秒降至3微秒,降幅超50%。更重要的是,超节点通过内存统一编址技术,将CPU、NPU等设备的内存整合为全局共享内存池,实现“像访问本地内存一样访问远端内存”——这一突破彻底改变了传统集群“消息语义通信”的低效模式,无需经过“序列化-网络传输-反序列化”流程,大幅提升了数据交互效率。
“没有内存统一编址,就没有真正的超节点。”张爱军强调。通过这一技术,华为超节点可实现128TB全局内存统一编址,在大模型训练中,能将暂时不用的数据或权重“offload”到CPU内存,需要时快速拉回片上内存激活,提升NPU计算效率。在推理场景中,基于内存语义的KV Cache池化方案,可实现一存多取,吞吐性能最高提升3倍,完美适配面向Agentic智能体带来的多轮对话长记忆场景。
华为的超节点创新并非局限于智能计算领域,更首次将其引入通用计算,发布全球首款通算超节点。在通用计算领域,过去百年间行业始终以“提升CPU主频、增加核数”为核心方向,但随着摩尔定律走向尽头,单纯的硬件堆砌已难以为继。华为通过超节点技术,将通信能力与计算能力深度融合,在搜推广、数据库等场景中实现突破——比如在搜推广系统时延每降低10毫秒,业务收入提升1%,这将为行业带来巨大的价值。
目前,华为Atlas900超节点已在多领域实现规模化应用。正如华为轮值董事长徐直军在HC大会上所言:“Atlas900超节点自上市以来,已经累计部署超过300套,服务20多个客户,涵盖互联网、电信、制造等多个行业。可以说,Atlas900于2025年,开启了华为AI超节点的征程。”在互联网行业,超节点支撑万亿参数大模型训练,实现TP、CP、EP多维并行;在金融领域,其低时延特性助力反电诈系统精准拦截风险交易;在能源行业,超节点为大型调度系统提供稳定算力支持,保障能源供应安全。
值得关注的是,华为并未将超节点技术“独家垄断”,而是选择开放核心能力。灵衢协议作为超节点互联的关键技术,已完全对外开放,600页的详细协议文档可在官网下载,截至沙龙举办时,下载量已近24000份。“我们希望联合产业链伙伴,共同构建超节点生态。”张爱军表示,华为坚定开源开放,与产业界共创,繁荣生态。
开源开放:构建算力生态的“中国模式”
“硬件开放、软件开源、使能伙伴、发展人才”,这16字方针是华为自2019年布局计算产业以来始终坚守的战略。在此次沙龙上,华为计算开源业务总经理李永乐详细拆解了华为开源战略的演进路径,展现了从“使用开源”到“参与开源”,再到“主导开源”的跨越式发展。
鲲鹏开发套件DevKit与应用使能套件BoostKit全面就绪,进一步降低了开发者的使用门槛。DevKit支持开发者在ARM架构上快速迁移X86代码,实现“同源开发、跨架构部署”;BoostKit则通过软硬协同优化,将应用性能提升50%以上。某金融客户基于BoostKit对核心交易系统进行优化后,单笔交易时延从50毫秒降至30毫秒,系统吞吐量提升40%,有力支撑了业务增长。
随着超节点技术的兴起,鲲鹏开源生态进一步向前沿领域延伸。2025年12月底,openEuler社区发布首个面向超节点的操作系统版本,将统一内存编址、新一代互联协议等关键特性开源。“这不仅方便openEuler下游伙伴直接使用,更能为其他开源操作系统提供参考。”李永乐介绍,openEuler已形成“社区发行版、企业自用版、商业发行版”三种形态,汇聚2100多家成员单位,累计装机量超1600万套。华为不推出商业版本,而是由麒麟、统信等伙伴打造商业发行版,形成“共建共享”的生态模式——华为在openEuler的代码贡献占比从最初的70%降至40%,正是生态成熟的最佳证明。
在人工智能计算领域,
2025年8月5日,华为正式宣布CANN开源开放策略;9月20日,成立由学术界、互联网企业、ISV伙伴组成的技术指导委员会;10月30日至12月30日,逐步完成30多个代码仓的开源。“在大模型时代,模型架构迭代速度极快,传统模式难以跟上创新节奏。”李永乐解释道,CANN开源后,开发者可自主优化算子、定制功能,快速响应业务需求。某AI创业公司基于CANN开源平台,仅用2周就完成了大模型推理算子的自主开发,开发效率得到了极大提升。
为提升开发者体验,华为对CANN进行分层解耦,划分出16个特殊兴趣小组(SIG),形成扁平化的社区治理结构。目前,昇腾平台已实现与50多个主流开源社区的对接,支持PyTorch、MindSpore等训练框架,以及vLLM、SGLang等推理工具的无缝运行。截至2025年底,昇腾开发者数量突破400万,独立软件开发商(ISV)超3000家,孵化行业解决方案2万余个,在互联网大模型训练、智能制造质检、港口智能排泊等场景形成标杆案例。
“优秀的开源社区必须以开发者为中心。”李永乐强调,华为不仅提供技术支持,更注重人才培养——与国内72所高校合作开设昇腾、鲲鹏相关课程,编写教材,推动基础研究与产业实践深度融合。越来越多高校教授的论文基于昇腾、鲲鹏平台完成,标志着国产算力生态已从“可用”向“好用”迈进。
结语:算力时代的中国担当
站在“十五五”开局的新起点,华为计算产业的探索与实践,不仅为中国构建了坚实的算力底座,更在全球范围内展现了开放合作的胸怀。从超节点技术突破到开源生态构建,从行业场景落地到社会价值创造,华为始终以“为世界提供算力新选择”为目标,推动计算产业从“跟跑”向“领跑”跨越。
在算力竞争日趋激烈的全球格局中,华为的每一步探索,都在为中国计算产业注入新的活力;每一次突破,都在为世界算力发展贡献“中国智慧”。未来,随着超节点技术的规模化应用与开源生态的持续完善,中国计算产业必将迎来更广阔的发展空间,为数字经济高质量发展提供强劲动力。








