闪迪企业级存储增长背后:AI推理为何带火企业级SSD

如果回看2022年底到2025年年中AI基础设施的发展,GPU是最受关注的核心变量,HBM和高速网络是最常被提及的重要“搭子”。那是堆算力和拼集群扩展能力的阶段,到了2025年下半年,形势发生了转变。

GPU依然是毋庸置疑的焦点,但随着大模型从训练走向推理阶段,存储的重要性突显。

训练就像一次性的大规模供养,核心是把数据高效投喂给大模型。推理则是持续在线的服务,除了问答,还包括长上下文、多轮交互、向量检索、RAG、智能体调用,还有对容量需求越来越高的KV Cache(键值存储)。HBM和DRAM成本高,不能无限度地承接这些存储需求,于是SSD开始进入推理世界。

AI系统不只是算得出,还要记得住、调得快、撑得久,存储成为AI推理时代的关键变量之一。这一变化,也是闪迪今年企业级业务显著增长的背景,总的来说,这既是闪迪的业务规模变化,又是它抓住了AI推理场景重新分层的节点。

闪迪公司副总裁兼中国区总经理 蔡耀祥

正如闪迪公司副总裁兼中国区总经理蔡耀祥所说, “闪迪通过丰富的产品组合助力客户充分释放数据价值,在AI时代擘画一条清晰的高质量发展道路。”

AI推理阶段分层大容量与高性能

闪迪公司全球产品高级副总裁Eric Spanneut

近日,闪迪亮相CFMS | MemoryS 2026峰会。峰会期间,闪迪公司全球产品高级副总裁Eric Spanneut在主题演讲中提到闪迪的定制化企业级SSD产品组合是为满足不同用例下的特定需求。他举了两个典型用例——RAG(检索增强生成)和KV Cache(键值存储),这两类场景分别对应推理时代最突出的两类需求——前者面向企业私有数据的接入与调用,后者面向推理过程中的效率提升和状态保留。

RAG是把企业自身的数据直接、实时注入推理流程中,让模型在每一次响应时都具备事实依据、准确性和排他性。因此,在当前企业级应用场景中,大多数企业倾向于采用 RAG,而不是投入自身数据不断对模型进行微调。

RAG的起点,是先将企业数据完成向量化处理,以便后续高效检索。这个过程通常会明显提高数据占用量。大容量QLC企业级SSD很适用。闪迪此前推出的SANDISK® SN670 NVMe SSD已经得到了很好的应用。

SANDISK® SN670 NVMe SSD

另一个就是键值存储。现在推理过程逐步形成一个相对清晰的两阶段框架,第一阶段是预填充阶段,就是模型的思考阶段,在这一阶段会生成第一个Token,因此它本质上属于计算密集型场景。第二阶段则是解码阶段,也就是模型持续输出后续Token的过程,这一阶段更接近真实对话,对内存资源的要求也更高。

键值存储是在这一过程中发挥作用的活动工作内存,它在预填充阶段生成,并在解码阶段不断增强。借助键值存储,大模型在生成每一个新Token时,不必重新执行完整的预填充过程,这也就显著提高了推理效率。

不过随着并发对话数量持续增加,让成千上万个会话的键值存储全部保留在内存层不大现实。现在大家想到的办法是把键值存储卸载到企业级SSD,并在需要时实现快速读取和调用。基于这一趋势,闪迪推出的SANDISK® SN861 NVMe SSD能更好地服务于键值存储相关的应用场景。

SANDISK® SN861 NVMe SSD

因此,基于这两大类需求表明,AI推理阶段不只会放大高性能SSD的价值,还会重新定义大容量QLC SSD的意义。

AI应用部署热潮下的存储新压力

在闪迪的媒体圆桌会谈中还提到了大热AI应用部署对存储的影响。该话题不只让智能体概念具象化,还抛出了一个现实问题:当智能体越来越多,并且依赖历史信息与长期记忆时,推理成为长期在线服务。

这同样会直接推高键值存储的需求。首先,长上下文是最直接的驱动力。过去对话窗口很短,模型处理的是当前问题。现在从128K到1M,甚至更长的上下文逐步成为现实,模型需要保留和调用的中间状态显著增加。

其次,并发用户数量也会放大压力。每位用户、每次会话都需要独立的上下文状态,用户越多,键值存储需求就越会从单体增长转向并发增长。还有就是智能体越智能,对温数据的保留需求越强。哪些历史信息需要长期留在较快的数据层,哪些可以下沉到冷数据层,这件事目前还没有标准答案,但长期看一定会影响SSD容量与成本结构。

这也解释了为什么未来推理场景下的SSD需求还会继续增长。现在大家讨论的是RAG、键值存储,未来讨论的可能就是长期记忆、温冷数据分层,以及更细的耐久性、速度和接口要求。存储在AI基础设施里的位置将变得更细、更复杂。

最后

从长远来看,闪迪的企业级业务增长显著,反映了AI基础设施重心的转移。过去比的是训练规模,未来更看重推理服务能否长期稳定运行。过去存储更多承担容量支撑,未来它还要承担效率支撑和分层支撑。

闪迪公司产品市场总监 张丹

闪迪公司产品市场总监张丹认为,用NAND去分层解决各个阶段的瓶颈,假设往数据链路接近GPU是上层,往下是HDD则为南向,北向就是传输速度更快,南向则是容量更大。

闪迪当前的企业级存储布局——SANDISK® SN861 NVMe SSD对应高性能推理层,SANDISK® SN670 NVMe SSD对应大容量数据底座。它所押注的,是推理时代企业级存储分层后形成的两个新席位。