带宽、带宽、带宽,AI之争也是带宽之争!

AI会有摧枯拉朽之势改变未来社会发展的进程,透过英伟达市值以及营收感受到这一点!

我认为成就英伟达伟业的一是GPU;一是NVLink,其中包括NVLink Switch、NVLink-C2C,前者实现GPU-GPU互联,后者实现GPU-CPU互联,特别是NVLink Switch提供GPU之间的高速互联,让GPU高算力能够充分释放。

在支撑AI的过程中,英伟达意识到PCIe互联方式太慢了,成为了性能的瓶颈。为此,创新性采用了NVLink Switch对GPU进行互联,并为每个GPU配备了HBM内存,冲破内存访问的瓶颈,由此开启了GPU+HBM+NVLink AI智算的新时代。

具体看下性能表现:GPU-GPU之间透过NVLink switch互联,遵循NVLink协议,单 GPU 实现的双向带宽1.8 TB/s(18 条链路 ×100 GB/s/ 链路),总聚合带宽 14.4 TB/s(NVSwitch 144 端口)。GPU-HBM内存之间,多堆栈HBM 3可以扩展至 8 TB/s。远超32位PCIe 5.0通道252 GB/s,以及多颗粒GDDR7组合2.3 TB/s的带宽连接。

在英伟达超级点方案中,NVLink Switch也被用于节点之间互联,不超72个GPU规模限制,互联带宽1.8 TB/s(GB200 NVL72);若超过限制,则采用InfiniBand或者无损以太网的方案互联,网络带宽40 Gbps,从而激发了对40Gbps网络的需求。

NVLink也在渗透到GPU-CPU互联,采用NVLink-C2C其互联带宽达到了双向900 GB/s,是 PCIe Gen 5.0(约 128 GB/s)的 7 倍,充分利用CPU、GDDR的资源,部分缓解HBM容量小、价格昂贵的不足。

这就是计算架构变化的缘起!

这种变化并非只有英伟达和NVLink,AMD Infinity Fabric、华为灵衢(UnifiedBus)协议同样是改变世界的力量,甚至更为优秀。

对此,建议对比一下灵衢。

华为基于三十多年构筑的联接技术能力,通过系统性创新,突破了大规模超节点的互联技术巨大挑战,开创了面向超节点的互联协议灵衢(UnifiedBus),在华为全联接大会2025上,华为轮值董事长徐直军宣布华为将开放灵衢2.0技术规范,欢迎产业界伙伴基于灵衢研发相关产品和部件,共建灵衢开放生态。

灵衢不限于GPU-GPU,GPU-CPU互联,而是采用一种协议实现MEM(内存)、DPU、 SSU(Scalable Storage Unit)和Switch中的多种组件资源,实现池化、平等的UB协议互联,互联带宽达2 TB/s,相比,AMD Infinity Fabric在1.8 TB/s(MI450X IF128)。

对于超节点的连接方式,灵衢(UB)协议实现了光互联的方式,带宽达到了34 PB/s(Atlas 960),与NVLink Switch、AMD Infinity Fabric方案相比更为领先,这就是为什么华为会有:光的距离,电的可靠性连接的表述。

相对于美国超节点互联技术,灵衢(UB)不仅走在前面,甚至提供了光互连液冷方案的选择!

在AI的世界里,围绕着带宽的需求,连接的架构和方式正在发生翻天覆地的变化。

需要注意的是,灵衢(UB)采用全面开放的策略,覆盖物理层、链路层、网络层、传输层,以及事务层和功能层,NVLink尽管也在逐步开放中,但步伐和幅度没有办法相比。

这里有一个非常有意思的插曲。

我最初以为UB的中文是灵渠,始建于公元前 214 年,是世界上最古老的人工运河之一,用于连接长江水系的湘江与珠江水系的漓江,南北经济文化交融的枢纽;类似CXL标准,解决内存带宽和容量的拓展,但CXL以PCIe为基础,内存带宽逊于HBM,用于AI智算场景缺乏竞争力。因此,UB并非CXL局部创新,而是面向智能时代整个算力基础设施构建起来全新架构,是改朝换代的力量。

如今,NVLink、UB、Infinity Fabric三足鼎立的时代已经到来!