灵衢:华为重构算力基础设施的“普通话”,开启超节点架构新纪元

AI技术与应用正以前所未有的速度蓬勃发展, 单一芯片再提升,也无法满足AI算力的增长需求,必须依赖于多芯片互联,做大规模计算节点的方式来解决。传统集群通过“服务器堆叠和以太网联接”的模式提升算力规模。服务器之间带宽不足、时延大,集群规模越大,算力利用率反而越低。同时,集群规模扩张还带来了可靠性问题。

在近日举行的华为全联接大会2025上,华为正式发布全球最强算力超节点和集群,依托灵衢,将多台物理机器深度互联,实现逻辑层面“像一台机器一样学习、思考与推理”,重新定义了高效、稳定、可扩展的大规模有效算力新范式。

灵衢以“协议归一”“全量资源池化”“平等协同”等特性,突破计算机网络与体系结构的边界,重新定义超节点架构,为智能时代的算力需求提供全新解决方案。

从单芯片局限到算力重构:灵衢的研发起点

在算力需求呈指数级增长的今天,单芯片的算力天花板日益明显,多样化算力协同成为行业共识。华为集群计算总经理朱照生表示,华为早在数年前就明确了核心战略:通过超节点与互联技术,突破单芯片算力瓶颈,提升整个计算系统的价值。

这一战略的落地,源于华为对计算系统四大核心痛点的深刻洞察:

性能线性度难题:传统计算系统在扩展节点规模时,性能往往无法随节点数量同步增长,N个节点的实际性能可能仅为0.1N,资源浪费严重;

系统可用性挑战:节点规模扩大后,运行可靠性下降,故障恢复效率低,难以满足企业级应用的稳定性需求;

资源利用率瓶颈:单芯片能力有限,内存、带宽、计算资源分散,无法通过池化实现高效调度,导致资源闲置;

产业协同壁垒:不同厂商的硬件组件协议不互通,需额外“翻译”成本,软件生态碎片化,难以形成规模化效应。

为解决这些问题,华为从2019年正式立项灵衢项目,整合了公司在IT基础设施、数据中心接口开发、集群工程等领域的数十年积累——从鲲鹏、昇腾处理器到DPU、Switch、SSD存储介质,华为先将灵衢协议集成到自研硬件的研发流程中,通过硬件迭代反哺协议优化,最终实现灵衢1.0的产品化落地,并完成大规模集群交付验证,达到工业化可信标准。

技术解构:突破边界的“协议综合体”

灵衢的核心创新,在于打破了计算机网络与计算机体系结构的“墙”,构建了一套融合两者优势的协议栈,形成了独特的超节点架构。

从协议栈结构来看,灵衢呈现出鲜明的“双层基因”:

底层:计算机网络的“骨架”:物理层、链路层、网络层沿用计算机网络的成熟概念,但进行了针对性创新,确保数据传输的广覆盖与高可靠,解决了“光的距离”难题——通过协议优化,实现跨机柜光互联时仍保持电信号级别的可靠性,通信距离可达100-200米,突破传统电信号2米的传输限制;

上层:计算机体系结构的“灵魂”:传输层负责数据的可靠点对点传输,支撑超节点规模扩展;事务层则涵盖内存访问、信息通信、管理等核心功能,搭配UMMU(灵衢内存与权限管理)、UBM(灵衢总线管理)等模块,提供与传统计算机架构一致的编程入口,让开发者无需适配新语言即可调用资源。

基于这套协议栈,灵衢超节点架构提炼出六大关键特征,彻底区别于传统松散节点集群:

1、总线级互联:构建统一总线,将CPU、NPU、GPU、MEM、SSU、DPU、Switch等均视为超节点内部组件,实现同质互联,消除交互阻碍;

2、全量池化:所有异构资源(计算、存储、带宽)均可池化调度,开发者可通过共享内存方式直接调用,符合冯·诺依曼架构的最短路径原则;

3、平等协同:不同组件间无“主从”之分,无论是处理器间通信还是集群扩展,均遵循同一套协议,避免“翻译”损耗;

4、协议归一:超节点内部、超节点之间无需切换协议,无转换开销,支持大规模组网;

5、高可用性:从物理层到事务层内置故障恢复机制,确保万卡甚至十万卡集群的稳定运行;

6、组件货架化:开放协议规范,任何厂商的组件均可即插即用,降低产业协同门槛。

与行业内现有场景化互联协议(如PCIe、CXL、NVLink等)相比,灵衢的核心优势在于“全覆盖”——后者多针对特定场景(如GPU互联、内存扩展)设计,功能存在缺失,而灵衢通过一套协议即可满足计算、存储、通信等全场景需求,相当于为算力基础设施提供了一套“普通话”,替代了此前五花八门的“方言”。

产业落地:从技术验证到生态共建

经过数年迭代,灵衢已从实验室走向商用,形成两大典型部署形态,兼顾兼容性与创新性:

原生超节点部署:所有组件通过灵衢协议直接互联,Switch不再仅是交换节点,而是作为处理单元参与算力协同,最大化发挥多样化算力价值;

兼容现有基础设施:通过UBOE模式,灵衢可作为UDP应用运行在客户已有的以太网、TCP/IP环境中,无需改造现有硬件;同时,华为申请的“UB类型”硬件,支持传统TCP/IP应用直接接入超节点,与外部资源基于TCP/IP、RoCE互通。

目前,灵衢1.0已在华为内部及头部互联网客户的384卡超节点中完成规模验证,客户反馈集中在三大维度:

运维层面:超节点简化了布线与管理,单柜算力密度提升,但也对机房供电(从传统2.5kW机柜升级至50kW以上)、散热(热流密度超100W/cm²)提出更高要求——华为已提前布局,两年前便实现单柜583kW的技术验证,并提出未来2-3年200-300kW机柜为合理演进方向;

开发层面:开发者无需受限于单台服务器的8卡约束,可在384卡甚至更大规模的超节点中自由设计模型并行、专家并行策略,模型开发空间大幅扩展;

业务层面:大模型推理的token输出时延显著降低,从“逐字蹦出”向“闪电加载”迈进,用户体验提升;同时,数据库(如OLTP)、推荐系统等传统场景也从灵衢的高带宽、低时延特性中获益,业务吞吐量提升。

更值得关注的是灵衢的开放生态进展。尽管华为是灵衢的开创者,但从2025年HC大会发布灵衢2.0至今,已有多家IT厂商、处理器厂商、IP厂商主动寻求合作——核心原因在于华为不仅开放了从物理层到事务层的完整协议规范(可在灵衢官网下载),还联合第三方打造了协议验证测试仪,能精准检测硬件的带宽、时延、物理层波形等指标,解决了“符合规范”的核心痛点。

朱照生强调,灵衢的生态路径清晰:先以企业标准推动商用验证,让客户获得实际价值;再联合第三方成立公立认证机构,确保组件兼容性;最终逐步从企标升级为团标、甚至国标,形成全产业共建的生态。“我们不希望灵衢仅绑定华为硬件,而是希望所有有能力的厂商参与进来,通过竞争提升整个算力基础设施的竞争力。”

未来展望:超节点没有“天花板”,算力生态无“边界”

当被问及“超节点是否越大越好”“灵衢是否仅适用于推理”等问题时,华为的回答展现了对产业趋势的判断:

超节点规模无固定“甜点”:回顾近十年AI发展,所有对算力、模型规模的预测均偏保守。华为计划2026年底将灵衢超节点规模提升至8192卡,后续逐步扩展至15488卡,目的是为模型厂商提供无约束的硬件平台,避免人为设定规模上限制约创新;

灵衢是全场景解决方案:无论是大模型训练(提升收敛速度与精度)、推理(降低时延),还是传统数据库、推荐系统,只要存在多节点协同需求,灵衢均可发挥价值——它的定位是“算力基础设施的通用协议”,而非单一场景的“优化工具”。

从更长远来看,灵衢的意义不仅在于技术创新,更在于推动算力产业的“范式转移”:过去,算力基础设施的核心是“单芯片性能竞赛”;未来,随着灵衢等互联技术的成熟,“系统协同效率”将成为竞争关键。当不同厂商的硬件能通过统一协议无缝协同,当软件开发者能自由调度全量池化资源,整个算力产业将摆脱“碎片化”困境,进入“协同创新”的新阶段。

正如朱照生用“普通话”类比灵衢:“方言有其历史合理性,但统一语言能提升整个社会的沟通效率。灵衢要做的,就是让算力基础设施的所有组件‘讲同一种话’,最终为智能时代的发展扫清算力障碍。”