上海交大谷云飞出席2026人工智能基础设施峰会，破解大模型长上下文KV Cache加速难题

作者：宋雨涵 • 2026年06月16日 • 智能算力

2026人工智能基础设施峰会圆满落幕

2026年4月17日，以“智算筑基生态共生”为主题的2026人工智能基础设施峰会在上海成功举行。在下午的存力底座应用论坛上，上海交通大学助理研究员谷云飞老师重磅讲述了大模型长上下文推理KV Cache加速核心技术——CacheSlide。

该技术直击大模型长上下文推理场景下存储负载过高、推理精度不稳硬件成本高企的行业共性难题，创新打造相对位置依赖缓存新范式，实现推理性能与精度双重突破，为大模型规模化落地筑牢关键技术支撑。

长上下文推理遇阻，KV Cache陷三大困局

当前大模型产业已完成发展阶段转型，从2022年的训练攻坚期，全面迈入2023年后的应用落地期。2024至2026年，大模型推理技术核心主线从 “拼算力、拼训练吞吐”，转向优化KV Cache、降低推理延迟、提升长上下文处理能力。随着AI Agent成为大模型主流应用形态，多轮对话、记忆总结、外部工具调用等场景带来上下文长度激增，长上下文背后的KV Cache存储与计算瓶颈，已成为制约大模型高效落地的核心症结。

大模型推理由Prefill（预填充）和Decode（解码）两大核心阶段构成

而KV Cache是衔接两阶段的核心载体。Prefill阶段算力消耗随Token长度激增，1024Token增至4096Token时算力占用最高达70%；Decode阶段性能直接依赖KV Cache复用效率与存储管理能力。

行业现有KV Cache优化方案存在明显局限：

位置依赖型缓存：可保障推理精度、减少计算量，但存储负载过重、跨会话质量下降；
位置无关型缓存：缓存调用灵活，但受多头注意力机制影响，推理精度不稳定。

同时，大模型上下文窗口扩容至百万Token级别后，KV Cache总量可达3TB-10TB，显存硬件成本极高；存储层级切换还会引发写放大问题，进一步加剧性能损耗，存储负载重、精度不稳定、硬件成本高成为行业三大核心痛点。

CacheSlide

构建全新相对位置依赖缓存范式

针对行业难题，上海交通大学科研团队自2024年初启动技术研发，聚焦1024-4096Token核心场景并逐步拓展至百万Token级别，最终推出CacheSlide技术。

该技术核心创新为构建相对位置依赖缓存（Relative-Position Dependent Caching）范式，有效规避现有两类缓存方案的瓶颈。团队首创位置失配退化度（PMDK）评判指标，精准量化相对位置依赖缓存中KV相似性随位置偏差增加的失真程度，为技术优化提供量化依据。

核心架构：三大模块打造全流程优化体系

CacheSlide由三大核心模块组成，形成端到端优化体系，全方位破解KV Cache难题：

CCD模块（含CPT子模块）：通过CoPE预训练统计高频位置编码模式，为缓存KV Cache赋予最优编码，实现缓存片段高效复用；

WCA模块（加权校正注意力）：筛选偏差最大的TOP-K Token作为重点纠正对象，重新计算KV并自适应加权融合，恢复关键跨注意力，保障推理精度；

SLIDE模块：解耦Prefill阶段KV Cache加载与WCA重算写入，通过流水式加载、异步写入避免阻塞，搭配脏页标记与优先级淘汰机制，大幅缓解SSD写放大问题。

落地适配主流引擎，助推大模型规模化应用

据业内专家评价，CacheSlide技术突破现有前缀缓存范式局限，优于PSN、PBC等顶尖基线方案，推理延迟降低3倍以上、吞吐提升5.8倍，践行 “以存代算” 理念，彻底解决长上下文推理三大行业痛点。

目前该技术已进入企业落地阶段，可适配主流推理引擎，能够为高校科研、企业应用提供高效经济的大模型长上下文推理方案，推动大模型从技术突破走向低成本、规模化落地，为AI产业高质量发展注入技术动能。

本文来源于DOIT传媒，文章内容仅供参考，不构成投资建议。

赞 ()

上海交大谷云飞出席2026人工智能基础设施峰会，破解大模型长上下文KV Cache加速难题

2026年06月16日 17点40分
AIIC2026：焱融科技CTO张文涛详解AI存储如何筑牢Agentic AI底座

2026年06月16日 17点35分
AIIC2026：晶耀智远刘钢详解从PC到AC，OpenClaw赋能智能体主机，引领AI Infra新纪元

2026年06月16日 17点33分
算力「芯」动向 | 燧原过会，国产GPU四小龙的资本拼图拼齐了，但真正的考试才刚刚开始

燧原科技科创板IPO过会，国产GPU四小龙资本化拼图终告完整。但83.79%营收绑定腾讯、产销率持续下滑、三年累亏43亿，过会只是发令枪，从影子股到独立玩家的交付大考才真正开始。

2026年06月16日 16点46分
国产最强通用计算平台：当所有人盯着GPU，中科曙光在FP64的地下水位上凿了一口深井

中科曙光发布新一代通用高性能计算平台，128核CPU、10T FP64算力、HPL性能提升近2倍。国内首个原生支持AVX512的国产平台，实现HPC软件零迁移成本。浸没液冷PUE低至1.04，推动FP64高精度计算与AI的超智融合落地。

2026年06月16日 16点42分
探索算力极限，C4-AI昇腾赛道为自主AI计算平台打造未来工程师

当前AI产业正经历从“模型训练”向“模型应用”的关键转型，Agent智能体成为下一代人机交互的关键技术，昇腾赛道将“创建Skill实现模型迁移”作为赛题核心设计之一，既是紧跟技术趋势的必然要求，也是衡量开发者技术水平的关键赛点。

2026年06月16日 16点25分
AIIC 2026：上海联通朱炜垚详解AI算力网络创新实践

2026年06月16日 16点23分
2026人工智能基础设施峰会榜单揭晓！

2026年06月16日 16点19分
新华网报道：百易数字推出GEO服务平台“言雀AI”，助力AI营销领域合规化发展

2026年06月16日 16点15分
海康存储亮相2026人工智能基础设施峰会加速布局AI推理存储新赛道

2026年06月16日 16点09分
端到端智驾时代：普惠量产、高阶体验、芯片生态智驾企业盘点

2026年06月08日 00点00分
企业站C位，科大硅谷承载创业梦想

2026全球科漂创新创业大赛，已于初夏面向全球创新创业者从合肥发出邀约

2026年06月12日 00点00分
东莞“AI+制造”应用论坛：聚焦出海、数据、安全等落地挑战提供应对方案

分享了“人工智能+制造业”探索转型、AI智能体应用落地场景及经验、制造企业数据出境合规、数据管理解决方案、出海数字化建设及转型策略

2026年06月16日 10点43分
算力「芯」动向 | AI存储：当NAND闪存的层数竞赛逼近400层大关，SK海力士选择了一条比堆层数更狠的路

2026年06月15日 17点22分
英伟达最新模型也用大晓的架构？4B参数登顶四大榜单，具身智能出现“效率派”

2026年06月15日 17点17分
Agentic Infra重塑云产业：智能体时代，云厂商的转型赛道与Token新秩序

2026华为云INSPIRE创想者大会上，一套全新基础设施范式——Agentic Infra（智能体原生基础设施）正式走到行业台前。

2026年06月15日 15点52分

发表回复

评论列表

点击查看更多

联系我们

微信：百易小助手

邮件：contact@doit.com.cn

工作时间：周一至周五，9:30-18:30，节假日休息