CXL要适配AI训练吗？-DOIT-数据产业媒体与服务平台

英伟达最近GTC大会发布了系列重磅产品，除了芯片和NIM软件外，在连接能力上继NVLink和NVLink-C2C还发布了X800 系列交换机，为AI训练量身定制，进一步加速各种数据中心中AI、云、数据处理和高性能计算应用。主要还是在大模型训练上是绝对王者。

而另一个高速协议CXL是通过PCIe总线连接DRAM池。以数据中心服务器为例，每个服务器都有定量内存，上面跑应用也是限量供应，超了不行，太少又不划算，CXL作为一个开放式内部互连新标准出现了，目标是跨主机和所有CXL设备构建通用内存池，提高内存容量，实现内存访问和一致性缓存。

它主要有三种变体：

CXL 1 提供扩展内存，让 x86服务器访问 PCIe 连接的加速器设备（如smartNIC 和 DPU）上的内存；

CXL 2 是在多个服务器主机和带有内存的 CXL 连接设备之间提供内存池；

CXL 3 是用 CXL交换机在服务器和CXL设备之间提供内存共享。

这三者都有一致性缓存机制，意味着本地CPU L1 缓存和指令缓存（包含内存中的子集）具有统一的存储内容。 CXL 1 和 2 基于 PCIe 5.0，CXL 3 使用 PCIe 6.0。通过 CXL 访问外部存储器增加延迟。

CXL系统中访问、共享或池化的所有内存都需要CXL 访问方式，也就是需要 PCIe 5.0 或 6.0访问和 CXL 协议支持。x86服务器中的DRAM和GPU中的GDDR 内存是合适的。但英伟达宇宙里没有 PCIe 接口，通过中间层与 GPU 集成的高带宽内存 (HBM) 不算匹配。

AMD的Instinct M1300A 加速处理单元 (APU) 有组合CPU和GPU内核及共享内存空间，有 CXL 2接口。英伟达的超级芯片GB200配置了Arm Grace CPU 和 Hopper GPU，有分离的内存空间。

SemiAnalysis分析师 Dylan Patel 在撰写的CXL和GPU文章中称，他观察到英伟达的 H100 GPU 芯片支持 NVLink、C2C（链接到 Grace CPU）和 PCIe 互连。但 PCIe 互连范围有限。只有16 个 PCIe 5.0通道，整体运行速度为 64GB/秒，而 NVlink 和 C2C 的运行速度均为 450GB/秒，速度快七倍。Patel认为，英伟达GPU 的 I/O 部分空间有限，与 PCIe 等标准互连相比，英伟达更喜欢带宽。因此，芯片上的PCIe部分未来不会增长，甚至可能会缩小。

国外媒体Block&Files指出，这个说法最终得出的结论是，CXL将无法访问英伟达GPU 的高带宽内存。而x86 CPU 不使用 NVLink，并且 x86 服务器中拥有额外的内存意味着即使外部内存访问延迟增加，内存密集型应用依然可以运行得更快。

因此，当AI训练工作负载在配备HBM的 GPU 系统上运行时，CXL 将不会出现在这些工作负载中，但它可能在运行AI调整和推理工作负载的数据中心 x86/GDDR-GPU 服务器中发挥作用。

GTC上还有群联电子的新发布，它的说法是自己采用了软件中间件。在AI模型训练等高性能计算任务中，经常需要处理的数据量远超过GPU内存的容量，需要频繁地在GPU内存和主存储（如SSD）之间交换数据，影响计算效率。群联的解决方案是在GPU内存和SSD之间创造一个“缓存层”，这个缓存层能部分承担原本由GPU内存要做的任务，从而在不显著增加成本的情况下，间接扩大GPU的“工作内存”，使其能够处理更大的数据集，提高AI训练的效率和规模。技嘉的老大李宜泰称这是把SSD 当作 DRAM 来用。

现在的CXL和 NVLink感觉在各自的圈子里都是无敌的，一个生态无敌，一个带宽无敌，而且都在向外扩展，会不会出现交汇尚未可知。如果谈大火的AI训练，CXL不好说适不适配，但英伟达目前不乐意是可能的。

另一方面也说明，AI训练的需求日益增长和复杂化，计算和存储的融合方案面临创新变革。在此背景下，4月24日，DOIT将在成都世外桃源酒店举办“2024数据基础设施技术峰会”，畅谈如何通过最新的技术创新，来提供更强大的存力与算力支持，以满足日益增长的用户需求。

CXL要适配AI训练吗？

崔欢欢

相关推荐

近期文章

热门标签