PS:谷歌Turboquant论文争议——颠不颠覆且不论,你就说走向癫不癫吧
前情回顾:
最近谷歌面向大模型和向量搜索场景发布免训练压缩算法(ICLR 2026 论文)TurboQuant,号称能将kv cache(键值存储)使用容量降低6倍以上,同时部分场景性能提升8倍。
简单来说,在AI推理应用中,为了提升计算效率、支持上下文关联以及多轮问答,模型需要通过键值存储来不断存储中间结果,避免重复计算。但随着上下文长度增加,这部分存储会迅速膨胀,逐渐成为系统的核心瓶颈之一。现在谷歌说,键值存储可以压缩,就是你可以用更少的内存记更多的事儿,发布一出引发存储市场股价波动,比如SK海力士股价一度下跌6.4%,铠侠跌幅也与之相近,还有美光等都出现一定程度下跌。
首先我认为内存压缩不是件坏事,但没过几天,这场声势浩大的论文发布质疑声也来了——RaBitQ作者高健扬在知乎和X等社交平台上发布公开声明如下:


简单翻译一下:
TurboQuant在三个方面歪曲了RaBitQ:
回避承认核心方法的相似性(JL变换,即约翰逊 – 林登斯特劳斯变换);
毫无证据地将RaBitQ的理论定性为 “次优”;
在不公平的实验设置下报告结果;
我们在作者投稿前就已向其提出了这些问题,但他们在提交论文时选择不予修正。
事实如下:
RaBitQ已证明其达到渐近最优性(符合FOCS 2017提出的理论边界);
TurboQuant 采用了完全相同的随机旋转步骤,却未说明二者的关联;
他们的实验中,RaBitQ使用单核CPU测试,而TurboQuant使用A100 GPU测试;

来自谷歌论文图片
以上所有问题均未得到恰当披露。
总的来说就是,RaBitQ论文作者出来发声,整个事件不是对谷歌发布的Turboquant能压缩内存容量这事质疑,是认为它和自己发布的RaBitQ论文中的核心方法类似,要明确谁先出的,且RaBitQ被谷歌论文评为次优,他认为实验对比判断不公平,这些都要明确,这是一场行业舆论与学术传播之间的一次对抗,很明显前者快一点,这也是RaBitQ作者迫切想要对外发声的原因。
本质上,RaBitQ作者是在争取方法归属、理论评价以及研究方向的话语权,以避免在大规模传播下,他的工作被边缘化或被重新定义。
对存储的影响
从结构上看,TurboQuant作用的是针对推理阶段的键值存储,即模型运行过程中的临时状态数据。这一部分的压缩,确实可以缓解显存压力,使推理更加高效。
需要明确的是,这并不等同于存储整体的重要性下降。训练数据、数据湖、长期存储以及模型检查点,依然构成AI系统的主体数据负载。KV cache只是其中一层,而且是更偏运行时的部分。
因此,更合理的理解是:推理阶段的部分存储压力小了,但存储体系本身没有被改变。








