CXL:从协议标准到AI内存架构的演进

CXL是一种开放式内部互连协议,允许任意厂商基于统一协议生产相关硬件设备,实现有效扩展计算机系统的内存带宽和容量,并且CXL协议还在不断升级,从开始支持连接外部设备内存,到组建内存池,还有能增加更多的PCIe通路,降低延迟,未来还有CXL交换机,支持连接多个主机和设备。

在CXL协议支持下,内存能和DDR内存结合,通过PCIe通道进行带宽和容量的扩展,从而在保证系统性能的同时,降低了企业在硬件设备上的投入。比如,此前企业用户需要2T内存,那么可以采用1TDDR5内存+1TCXL内存的配置,实现更灵活的资源调度,提高数据处理效率和资源利用率。

CXL技术作为未来内存扩展和共享资源池的重要组成部分,正在逐渐改变计算机系统的架构与性能表现。通过扩展内存带宽、降低成本,并为大数据和AI应用提供支撑,CXL无疑将在未来的技术变革中发挥重要作用。

CXL标准演进

CXL 1.0/1.1:支持基本的缓存一致性与主机-设备内存访问;建立协议基础;

CXL 2.0:引入内存池(memory pooling)、内存共享机制、支持(即支持跨设备共享、互联);

CXL 3.0/3.x:2025年CXL规范进入3.x系列成熟期,重点是把CXL 3.1/3.2的一些特性(动态容量、可信安全、全局持久性)落地到实际硬件与管理软件中。

CXL 在 AI / 存储 /算力架构中的角色与价值

为什么在 AI、大模型、云计算时代,CXL 特别被看重?它能在以下几个层面产生价值:

1. 扩展内存容量 /缓解冗余

在传统架构中,每个计算节点都要配备自己的内存,有时为了应对极端场景,很多内存被闲置或重复预留。CXL 允许内存池化 /共享,多节点共享一部分内存资源,从而减少冗余、提高总体资源利用率。

2. 降低能耗 / 更高能效

因为可按需激活 /休眠 /共享内存,CXL 可帮助数据中心 / AI 集群降低内存功耗。例如有报告指出,在某些模拟中,通过集中化内存策略,可节省 20–30% 的功耗。

3. 缩短数据移动 / 提升访问效率

在未来的架构中,CXL 有可能让计算单元(如 NPU / GPU / FPGA)直接访问共享内存或其他设备内存,从而减少中间复制 /拷贝,提升访问效率和带宽利用。特定情境下,CXL 设备之间还可以实现设备到设备 (peer-to-peer) 的数据传输,而不通过主机路径。

4. 存储与内存边界融合(CXL-SSD / 计算存储等方向)

新的研究探索将 SSD / 闪存等块存储装置使用 CXL 协议暴露为 byte-addressable 设备 (即 CXL‑SSD),使得存储设备可以作为扩展内存被访问,同时兼顾持久性。这样可以让一些算法 / workload 直接在设备端运行,减轻主机负载。

此外,CXL 交换机(Switch / Fabric)与持久化交换设计也在研究中,以减小持久性存储访问的延迟开销。

5. AI / RAG /大模型的场景契合

在 RAG(检索增强生成模型)、向量数据库、近似最近邻搜索(ANN)等场景中,数据访问的内存带宽和容量压力大。CXL可以让这些系统有更灵活的内存结构,缓解传统缓存 / DRAM 装载的瓶颈。像学术界的 Cosmos 系统,就是在 CXL 内存设备端集成计算单元,用于 ANN 搜索任务,以提升吞吐和延迟性能。