AI 从模型能力竞争,进入规模化推理能力竞争的新阶段。随着大模型在企业级场景中的落地,推理系统的性能、成本与资源利用率,正成为决定 AI 商业化成败的关键因素。在这一过程中,存储作为 AI 基础设施核心支撑环节,成为释放 AI 算力、重构推理效率结构的核心能力。
为系统评估算力中心的“存力”水平、打通技术研发与产业应用壁垒,在 NVIDIA、美团、三星、Solidigm 等产业链领军企业支持下,ODCC 成立 AI 存储实验室。针对推理场景中的数据响应瓶颈,实验室聚焦大模型推理中的关键制约因素—KV Cache,启动面向存储软硬件的专项协同测试工作,旨在构建一套适配推理场景的 KV Cache 存储解决方案及测试规范,切实推动 AI 存储技术的标准化、规范化与规模化落地。

ODCC AI 存储实验 KV Cache 评测环境
焱融科技作为国内专业的 AI 存储厂商,其自主研发的 YRCache 推理存储系统参与首批测试,并取得优异成果。测试结果不仅验证了 YRCache 对推理性能的显著提升,更证明了 YRCache 可以让中低配置 GPU 跑出接近高配置 GPU 的推理性能,优化推理成本,重构企业 AI 推理基础设施的投入产出比。
本次测试亮点数据
- 推理性能全面数量级提升
- TTFT(首 Token 延时)降低 97%,实时响应,告别等待
- TPOT(每个输出 Token 生成时间)降低 97%,流畅输出不卡顿
- Token 吞吐量(每秒生成 token 数)提升 22 倍,单 token 成本可随之同比例降低
- 低配 GPU 跑出高配性能,推理成本结构性优化
- YRCache 加持下,中端 GDDR GPU 各项推理性能接近高端 HBM GPU,ROI 提升 14 倍
- 为企业提供“用更低算力预算获得更高推理能力”的可行路径
测试背景
随着大语言模型(LLM)的持续演进,应用场景不断拓展,模型能力快速迭代,上下文长度快速增长。以 DeepSeek-R1 为代表的新一代推理模型,已支持 100K+ 的超长上下文。这在提升模型复杂任务处理能力的同时也带来了 KVCache(Key-Value Cache,键值缓存) 的爆炸式增长。
KVCache 作为 Transformer 推理阶段的核心数据结构,用于缓存注意力机制中间结果,是影响推理效率的关键变量。但随着上下文长度增加,KVCache 占用的显存呈线性膨胀,成为推理系统的主要瓶颈。如何高效管理 KVCache,已成为决定大模型推理系统规模化能力的关键。
测试目的
焱融 YRCache 推理存储系统是专为大规模推理设计的 KVCache 存储管理平台。通过构建 GPU 显存、主机内存、本地 NVMe SSD 和 YRCloudFile 高性能分布式文件存储等多级 KV 缓存架构,YRCache 显著扩展 KV 缓存空间,加速推理性能提升。本次测试旨在评估在基于 NVIDIA 计算和网络平台的测试环境下, YRCache 对推理性能的提升效果。

YRCache 架构图
测试环境
本次测试主要围绕 PD(Prefill-Decode)一体化推理场景,基于 DeepSeek-R1 等主流大模型,对比原生 vLLM 框架与集成 YRCache 后的系统,在不同网络带宽配置(200Gbps / 400Gbps / 800Gbps)下的性能表现。
- 测试模型:DeepSeek-R1-0528-FP4(671B 参数,FP4 量化),支持 128K tokens 上下文。
- 测试框架:vLLM + YRCache (焱融客户端),基于 RDMA/RoCEv2 协议。
- 测试环境:采用 NVIDIA Spectrum-X 400Gbps 以太网网络,搭配 3 台 GPU 计算节点(节点 A/B/C)和 3 台焱融存储服务器,通过 Spine-Leaf 网络拓扑实现高速互联。
在具体 GPU 服务器配置方面,测试分别在以下两类算力环境中进行:
- 中端 GDDR GPU 服务器
该类服务器显存容量和带宽低,主要面向成本敏感型的大规模推理部署、中等规模模型推理服务、轻量级微调、企业 AI 平台建设等。在此类环境下,系统对显存容量与带宽资源更加敏感,KV Cache 占用与跨节点通信效率直接影响整体吞吐与稳定性。
- 高端 HBM GPU 服务器
该类服务器主要面向超大规模推理、高并发及长上下文推理需求,如 100K+ Tokens 长文本处理、复杂 Agent 推理与高端智算中心部署等。HBM 显存容量和带宽更高、单卡计算性能更强,但在大规模并发与 PD 一体负载下,仍对存算协同效率与网络带宽提出更高要求。
在不同 GPU 环境下的测试,也进一步揭示了焱融 YRCache 在不同硬件配置下的推理加速与性能提升效果。

测试环境网络拓步图
测试结果:不仅是性能指标的飞跃
更是用户体验和推理成本的重塑
1
Boost Performance
推理性能全面提升

极致加速:让“长文本”推理如丝般顺滑
在 ODCC 严格测试中,对比原生 vLLM 框架,在不同 GPU 和网卡配置下,YRCache 均实现了 TTFT、TPOT、Token 吞吐量等全维度核心指标数量级优化,直接转化为用户可感知的真实价值:
- 瞬时响应,即问即答,用户交互感拉满,留存率提升。
- 流式输出行云流水,长文档生成效率质变。
- 吞吐能力升级,系统能够服务更多并发用户请求,单 token 成本也同比例降低。
不同 GPU & 网络带宽测试数据:

上图展示了在 8 卡中端 GDDR GPU 服务器环境中,batch size = 16、输入长度 10K tokens 条件下,分别在 400Gbps 与 800Gbps 网络带宽配置下的测试数据。可以看到:
- 在 400Gbps 网络环境下,使用 YRCache 后, TTFT 降低 95%,TPOT 降低 96%,token 吞吐量提升 17 倍。
- 在 800Gbps 网络环境下,TTFT 降低 97%,TPOT 降低 97%,token 吞吐量提升 22 倍。
在高端 HBM GPU 服务器环境下,推理性能同样实现了全面提升。

从上图数据可以看出,在高端 HBM GPU 环境中,当 batch size 为 16、输入长度为 10K tokens 时,集成 YRCache 后,在 200Gbps、400Gbps 与 800Gbps 三种网络带宽配置下,系统性能均实现大幅优化:

此外,可以看到,随着网络能力的增强,推理性能的提升也进一步增强。
不同业务场景:让“复杂任务”变“高效”
在模拟不同上下文长度场景的测试中,随着 Token 长度从 100 增加到 100K,YRCache 实现了全程稳定的性能提升,且随着上下文的增长,YRCache 的性能增益呈放大趋势(如下面两张图所示)。这为企业部署长上下文模型处理复杂长文档分析、代码生成、多轮交互等重负载任务提供了技术底气,无需担忧性能断崖。


2
Maximize ROI
跨越硬件代差:YRCache让中低配卡性
能接近追平高配卡,推理成本革命性优化
如果说性能提升是意想之中的效果,那么跨越硬件代差、实现结构性成本优化,则是在价格波动与供应紧张的现实背景下,YRCache 为企业提供的更具战略意义的价值支撑。
本次测试结果充分体现了 YRCache 能够给用户带来的核心商业价值:在 YRCache 的加持下,配置较低的中端 GDDR GPU 服务器,其综合推理性能指标接近高端 HBM GPU 服务器。


从上图中的数据可以看到,在未使用 YRCache 时,中端 GDDR GPU 相较于高端 HBM GPU 存在明显的性能差距:
- TTFT:19051ms vs 6992ms,比 高端 HBM GPU 慢了 173%。
- TPOT:1637ms vs 448ms,比 高端 HBM GPU 慢了 265%。
- Throughput:4341 vs 14269 tokens/s,吞吐量仅为 高端 HBM GPU 的 30%。
而在使用 YRCache 后,中端 GDDR GPU 和高端 HBM GPU 的性能均实现显著跃升,且两者差距急剧缩小,中端 GDDR GPU 各项性能大幅逼近 高端 HBM GPU:

在大模型推理场景中,硬件采购成本与实际产出吞吐量(Token 吞吐量)是衡量投资回报率(ROI)的关键因素。本次测试数据进一步揭示了不同配置下的 ROI 表现差异。

如上图数据所示,虽然在原生状态下,中端 GDDR GPU 的推理表现并不占优,但在引入 YRCache 优化方案后,其 ROI 呈现出爆发式增长——在 400Gbps 和 800Gbps 网络环境下,分别提升了 11 倍和 14 倍。这意味着在投入相同资金的情况下,采用“中端 GDDR GPU 服务器 + YRCache”方案能够带来远超高端 HBM GPU 原生方案的产出效率,实现了成本效益的显著优化。
这正体现了 YRCache 对企业 AI 成本结构的重构。对用户而言,他们能够:
- 拥有更多选择,不用盲目追求顶级 GPU,通过部署 YRCache,现有硬件也可释放超强推理性能
- 规模化部署时,TCO(总拥有成本)可实现显著优化
- 中小企业也能用更低门槛,实现高性能 AI 推理服务
对于正处于商业化关键期的 AI 企业而言,这不只是性能和成本的优化,更是商业模式的重新定义——当推理成本从”高端卡依赖”转向”存储技术创新”,AI 应用的盈亏平衡点将大幅下移,更多创新场景将具备经济可行性。
此外,焱融 YRCache 推理存储系统还支持 PD 分离场景,能够为下一代推理架构的极致优化提供坚实的数据流转基础。
此次参与 ODCC AI 存储实验室首批 KVCache 场景测试的结果,不仅是焱融 YRCache 技术实力的有力印证,也为整个 AI 推理行业指明了 “存储驱动性能、架构优化成本” 的全新路径。
焱融科技将继续深耕 AI 存储,以数量级性能提升 + 颠覆性成本优化双重能力,助力企业在 AI 爆发时代,以更低成本、更高效率、更优体验,抢占规模化落地先机







