GPU 内存不够用了，这家公司想让 SSD 来“顶上去”-DOIT-数据产业媒体与服务平台

AI 计算正在撞上一堵墙：GPU 的显存（HBM）不够用了。

无论是大模型训练，还是长上下文推理，真正的瓶颈已经不再是算力，而是能被 GPU 快速访问的数据量。

现在，铠侠打算让 GPU 直接把 SSD 当成扩展显存来用。

在传统架构中：

问题是，随着模型越来越大，这种架构开始拖后腿。铠侠推出的 GP系列SSD就是要让 GPU 可以更直接地访问闪存数据，把 SSD 纳入“内存层级”，而不仅是存储层。

这和英伟达正在推动的 Storage-Next 架构是同一个方向，都是为了允许 GPU 更直接地访问闪存存储来扩展可用内存空间。

铠侠管这类产品叫Super High IOPS SSD”（超高 IOPS SSD），但关键不只是 IOPS，延迟也更低，接近存储级内存。支持512 字节级别的细粒度访问，而不是4K大块的读写。同时，它有更高的并发 I/O，更低每次 I/O 的功耗。

核心技术是它的 XL-FLASH（存储级闪存），就是当年拿来跟英特尔傲腾PK的那个，是介于 DRAM 和 NAND 之间的东西。本质上，它不只是让 SSD 更快，而是让它“更像内存”。

这件事为什么现在发生？

因为 AI 推理正在变成一个“内存问题”。例如：长上下文（long context），多轮对话，KV cache（键值缓存）暴涨。这些都需要大量、可快速访问的数据空间。

铠侠同时提到的 CM9 PCIe 5.0 SSD（25.6TB），其实就是为这个场景准备的：用 TLC 做大容量，用高性能 SSD 承接 KV cache，配合英伟达的 CMX（Context Memory Storage）使用。

也就是说GPU 装不下的数据，往 SSD里面挪。如果 SSD 能部分替代 HBM：模型部署成本会下降，推理节点更容易扩展，AI 服务可能更便宜。

GPU 内存不够用了，这家公司想让 SSD 来“顶上去”