灵衢：华为重构算力基础设施的“普通话”，开启超节点架构新纪元-DOIT-数据产业媒体与服务平台

AI技术与应用正以前所未有的速度蓬勃发展, 单一芯片再提升，也无法满足AI算力的增长需求，必须依赖于多芯片互联，做大规模计算节点的方式来解决。传统集群通过“服务器堆叠和以太网联接”的模式提升算力规模。服务器之间带宽不足、时延大，集群规模越大，算力利用率反而越低。同时，集群规模扩张还带来了可靠性问题。

在近日举行的华为全联接大会2025上，华为正式发布全球最强算力超节点和集群，依托灵衢，将多台物理机器深度互联，实现逻辑层面“像一台机器一样学习、思考与推理”，重新定义了高效、稳定、可扩展的大规模有效算力新范式。

灵衢以“协议归一”“全量资源池化”“平等协同”等特性，突破计算机网络与体系结构的边界，重新定义超节点架构，为智能时代的算力需求提供全新解决方案。

从单芯片局限到算力重构：灵衢的研发起点

在算力需求呈指数级增长的今天，单芯片的算力天花板日益明显，多样化算力协同成为行业共识。华为集群计算总经理朱照生表示，华为早在数年前就明确了核心战略：通过超节点与互联技术，突破单芯片算力瓶颈，提升整个计算系统的价值。

这一战略的落地，源于华为对计算系统四大核心痛点的深刻洞察：

性能线性度难题：传统计算系统在扩展节点规模时，性能往往无法随节点数量同步增长，N个节点的实际性能可能仅为0.1N，资源浪费严重；

系统可用性挑战：节点规模扩大后，运行可靠性下降，故障恢复效率低，难以满足企业级应用的稳定性需求；

资源利用率瓶颈：单芯片能力有限，内存、带宽、计算资源分散，无法通过池化实现高效调度，导致资源闲置；

产业协同壁垒：不同厂商的硬件组件协议不互通，需额外“翻译”成本，软件生态碎片化，难以形成规模化效应。

为解决这些问题，华为从2019年正式立项灵衢项目，整合了公司在IT基础设施、数据中心接口开发、集群工程等领域的数十年积累——从鲲鹏、昇腾处理器到DPU、Switch、SSD存储介质，华为先将灵衢协议集成到自研硬件的研发流程中，通过硬件迭代反哺协议优化，最终实现灵衢1.0的产品化落地，并完成大规模集群交付验证，达到工业化可信标准。

技术解构：突破边界的“协议综合体”

灵衢的核心创新，在于打破了计算机网络与计算机体系结构的“墙”，构建了一套融合两者优势的协议栈，形成了独特的超节点架构。

从协议栈结构来看，灵衢呈现出鲜明的“双层基因”：

底层：计算机网络的“骨架”：物理层、链路层、网络层沿用计算机网络的成熟概念，但进行了针对性创新，确保数据传输的广覆盖与高可靠，解决了“光的距离”难题——通过协议优化，实现跨机柜光互联时仍保持电信号级别的可靠性，通信距离可达100-200米，突破传统电信号2米的传输限制；

上层：计算机体系结构的“灵魂”：传输层负责数据的可靠点对点传输，支撑超节点规模扩展；事务层则涵盖内存访问、信息通信、管理等核心功能，搭配UMMU（灵衢内存与权限管理）、UBM（灵衢总线管理）等模块，提供与传统计算机架构一致的编程入口，让开发者无需适配新语言即可调用资源。

基于这套协议栈，灵衢超节点架构提炼出六大关键特征，彻底区别于传统松散节点集群：

1、总线级互联：构建统一总线，将CPU、NPU、GPU、MEM、SSU、DPU、Switch等均视为超节点内部组件，实现同质互联，消除交互阻碍；

2、全量池化：所有异构资源（计算、存储、带宽）均可池化调度，开发者可通过共享内存方式直接调用，符合冯·诺依曼架构的最短路径原则；

3、平等协同：不同组件间无“主从”之分，无论是处理器间通信还是集群扩展，均遵循同一套协议，避免“翻译”损耗；

4、协议归一：超节点内部、超节点之间无需切换协议，无转换开销，支持大规模组网；

5、高可用性：从物理层到事务层内置故障恢复机制，确保万卡甚至十万卡集群的稳定运行；

6、组件货架化：开放协议规范，任何厂商的组件均可即插即用，降低产业协同门槛。

与行业内现有场景化互联协议（如PCIe、CXL、NVLink等）相比，灵衢的核心优势在于“全覆盖”——后者多针对特定场景（如GPU互联、内存扩展）设计，功能存在缺失，而灵衢通过一套协议即可满足计算、存储、通信等全场景需求，相当于为算力基础设施提供了一套“普通话”，替代了此前五花八门的“方言”。

产业落地：从技术验证到生态共建

经过数年迭代，灵衢已从实验室走向商用，形成两大典型部署形态，兼顾兼容性与创新性：

原生超节点部署：所有组件通过灵衢协议直接互联，Switch不再仅是交换节点，而是作为处理单元参与算力协同，最大化发挥多样化算力价值；

兼容现有基础设施：通过UBOE模式，灵衢可作为UDP应用运行在客户已有的以太网、TCP/IP环境中，无需改造现有硬件；同时，华为申请的“UB类型”硬件，支持传统TCP/IP应用直接接入超节点，与外部资源基于TCP/IP、RoCE互通。

目前，灵衢1.0已在华为内部及头部互联网客户的384卡超节点中完成规模验证，客户反馈集中在三大维度：

运维层面：超节点简化了布线与管理，单柜算力密度提升，但也对机房供电（从传统2.5kW机柜升级至50kW以上）、散热（热流密度超100W/cm²）提出更高要求——华为已提前布局，两年前便实现单柜583kW的技术验证，并提出未来2-3年200-300kW机柜为合理演进方向；

开发层面：开发者无需受限于单台服务器的8卡约束，可在384卡甚至更大规模的超节点中自由设计模型并行、专家并行策略，模型开发空间大幅扩展；

业务层面：大模型推理的token输出时延显著降低，从“逐字蹦出”向“闪电加载”迈进，用户体验提升；同时，数据库（如OLTP）、推荐系统等传统场景也从灵衢的高带宽、低时延特性中获益，业务吞吐量提升。

更值得关注的是灵衢的开放生态进展。尽管华为是灵衢的开创者，但从2025年HC大会发布灵衢2.0至今，已有多家IT厂商、处理器厂商、IP厂商主动寻求合作——核心原因在于华为不仅开放了从物理层到事务层的完整协议规范（可在灵衢官网下载），还联合第三方打造了协议验证测试仪，能精准检测硬件的带宽、时延、物理层波形等指标，解决了“符合规范”的核心痛点。

朱照生强调，灵衢的生态路径清晰：先以企业标准推动商用验证，让客户获得实际价值；再联合第三方成立公立认证机构，确保组件兼容性；最终逐步从企标升级为团标、甚至国标，形成全产业共建的生态。“我们不希望灵衢仅绑定华为硬件，而是希望所有有能力的厂商参与进来，通过竞争提升整个算力基础设施的竞争力。”

未来展望：超节点没有“天花板”，算力生态无“边界”

当被问及“超节点是否越大越好”“灵衢是否仅适用于推理”等问题时，华为的回答展现了对产业趋势的判断：

超节点规模无固定“甜点”：回顾近十年AI发展，所有对算力、模型规模的预测均偏保守。华为计划2026年底将灵衢超节点规模提升至8192卡，后续逐步扩展至15488卡，目的是为模型厂商提供无约束的硬件平台，避免人为设定规模上限制约创新；

灵衢是全场景解决方案：无论是大模型训练（提升收敛速度与精度）、推理（降低时延），还是传统数据库、推荐系统，只要存在多节点协同需求，灵衢均可发挥价值——它的定位是“算力基础设施的通用协议”，而非单一场景的“优化工具”。

从更长远来看，灵衢的意义不仅在于技术创新，更在于推动算力产业的“范式转移”：过去，算力基础设施的核心是“单芯片性能竞赛”；未来，随着灵衢等互联技术的成熟，“系统协同效率”将成为竞争关键。当不同厂商的硬件能通过统一协议无缝协同，当软件开发者能自由调度全量池化资源，整个算力产业将摆脱“碎片化”困境，进入“协同创新”的新阶段。

正如朱照生用“普通话”类比灵衢：“方言有其历史合理性，但统一语言能提升整个社会的沟通效率。灵衢要做的，就是让算力基础设施的所有组件‘讲同一种话’，最终为智能时代的发展扫清算力障碍。”

灵衢：华为重构算力基础设施的“普通话”，开启超节点架构新纪元

lixiangjing

相关推荐

近期文章

热门标签