谷歌TurboQuant争议背后的叙事战争-DOIT-数据产业媒体与服务平台

PS：谷歌Turboquant论文争议——颠不颠覆且不论，你就说走向癫不癫吧

给吃瓜群众们的事件梳理：

谷歌：我们推出了turboquant算法，能压缩内存容量，颤抖吧大家！

大家（围观）：哇，此算法一出，内存需求少了，要颠覆存储行业，内存市场变天啦！（存储股价小跳水）

RaBitQ作者：怎么个事儿？内存压缩的核心方式跟我的类似，还拿我用CPU测试，你用GPU测试的实验结果说你比我厉害，这公平不！

总结：TurboQuant对推理场景非常有用，但不会影响内存需求，反而内存需求会有所增加。后面的反转就是RaBitQ作者要明确谁比谁先，在争夺内存压缩的优先权，毕竟这个算法对推理场景确实很有用。

前情回顾：

最近谷歌面向大模型和向量搜索场景发布免训练压缩算法（ICLR 2026 论文）TurboQuant，号称能将kv cache（键值存储）使用容量降低6倍以上，同时部分场景性能提升8倍。

简单来说，在AI推理应用中，为了提升计算效率、支持上下文关联以及多轮问答，模型需要通过键值存储来不断存储中间结果，避免重复计算。但随着上下文长度增加，这部分存储会迅速膨胀，逐渐成为系统的核心瓶颈之一。现在谷歌说，键值存储可以压缩，就是你可以用更少的内存记更多的事儿，发布一出引发存储市场股价波动，比如SK海力士股价一度下跌6.4%，铠侠跌幅也与之相近，还有美光等都出现一定程度下跌。

首先我认为内存压缩不是件坏事，但没过几天，这场声势浩大的论文发布质疑声也来了——RaBitQ作者高健扬在知乎和X等社交平台上发布公开声明如下：

简单翻译一下：

TurboQuant在三个方面歪曲了RaBitQ：

回避承认核心方法的相似性（JL变换，即约翰逊 – 林登斯特劳斯变换）；

毫无证据地将RaBitQ的理论定性为 “次优”；

在不公平的实验设置下报告结果；

我们在作者投稿前就已向其提出了这些问题，但他们在提交论文时选择不予修正。

事实如下：

RaBitQ已证明其达到渐近最优性（符合FOCS 2017提出的理论边界）；

TurboQuant 采用了完全相同的随机旋转步骤，却未说明二者的关联；

他们的实验中，RaBitQ使用单核CPU测试，而TurboQuant使用A100 GPU测试；

来自谷歌论文图片

以上所有问题均未得到恰当披露。

总的来说就是，RaBitQ论文作者出来发声，整个事件不是对谷歌发布的Turboquant能压缩内存容量这事质疑，是认为它和自己发布的RaBitQ论文中的核心方法类似，要明确谁先出的，且RaBitQ被谷歌论文评为次优，他认为实验对比判断不公平，这些都要明确，这是一场行业舆论与学术传播之间的一次对抗，很明显前者快一点，这也是RaBitQ作者迫切想要对外发声的原因。

本质上，RaBitQ作者是在争取方法归属、理论评价以及研究方向的话语权，以避免在大规模传播下，他的工作被边缘化或被重新定义。

对存储的影响

从结构上看，TurboQuant作用的是针对推理阶段的键值存储，即模型运行过程中的临时状态数据。这一部分的压缩，确实可以缓解显存压力，使推理更加高效。

需要明确的是，这并不等同于存储整体的重要性下降。训练数据、数据湖、长期存储以及模型检查点，依然构成AI系统的主体数据负载。KV cache只是其中一层，而且是更偏运行时的部分。

因此，更合理的理解是：推理阶段的部分存储压力小了，但存储体系本身没有被改变。

谷歌TurboQuant争议背后的叙事战争

崔欢欢

相关推荐

近期文章

热门标签