AI 计算正在撞上一堵墙:GPU 的显存(HBM)不够用了。
无论是大模型训练,还是长上下文推理,真正的瓶颈已经不再是算力,而是能被 GPU 快速访问的数据量。
现在,铠侠打算让 GPU 直接把 SSD 当成扩展显存来用。
SSD 不再只是存储,而是“慢一点的显存”。
在传统架构中:
- GPU → 用 HBM(高速但昂贵且容量有限)
- CPU → 负责调度数据
- SSD → 只是“远端仓库”,数据要绕一圈才能给 GPU
问题是,随着模型越来越大,这种架构开始拖后腿。Kioxia 推出的 GP Series SSD就是要让 GPU 可以更直接地访问闪存数据,把 SSD 纳入“内存层级”,而不仅是存储层。

这和英伟达正在推动的 Storage-Next 架构是同一个方向,都是为了允许 GPU 更直接地访问闪存存储来扩展可用内存空间。
Kioxia 管这类产品叫Super High IOPS SSD”(超高 IOPS SSD),但关键不只是 IOPS,延迟也更低,接近存储级内存。支持512 字节级别的细粒度访问,而不是4K大块的读写。同时,它有更高的并发 I/O,更低每次 I/O 的功耗。
核心技术是它的 XL-FLASH(存储级闪存),就是当年拿来跟英特尔傲腾PK的那个,是介于 DRAM 和 NAND 之间的东西。本质上,不只是让 SSD 更快,而是让它“更像内存”。
真正的战场:AI 推理和 KV Cache
这件事为什么现在发生?
因为 AI 推理正在变成一个“内存问题”。例如:长上下文(long context),多轮对话,KV cache(键值缓存)暴涨。这些都需要大量、可快速访问的数据空间。
Kioxia 同时提到的 CM9 PCIe 5.0 SSD(25.6TB),其实就是为这个场景准备的:用 TLC 做大容量,用高性能 SSD 承接 KV cache,配合 Nvidia 的 CMX(Context Memory Storage)
也就是说GPU 装不下的数据,往 SSD里面挪溢出。从技术路径来看,这件事很重要——它可能意味着:AI 成本结构会变化
如果 SSD 能部分替代 HBM:模型部署成本会下降,推理节点更容易扩展,AI 服务可能更便宜。








