谷歌将 AI 模型的内存消耗降低了六倍，同时保持准确性，得益于 TurboQuant 算法

09.04.2026 5 hardware

简要内容

Google Research提出了一种新的大型语言模型KV缓存压缩方法——TurboQuant。该算法将缓存位宽降至3比特（若加入错误校正则为4比特），不降低回答准确率且无需额外训练。在Nvidia H100加速器上，TurboQuant将注意力logits计算性能提升了8倍，并将KV缓存大小缩小了六倍。

什么是KV缓存以及它的重要性
* KV缓存存储在注意力机制计算中得到的键（K）和值（V）。
这使得模型无需在每一步生成令牌时重新计算它们。
* 随着上下文窗口扩大，缓存呈指数增长，导致显著的内存开销。
* 传统量化方法通过减小缓存大小来降低成本，但需要存储与ZIP/RAR类似的量化常数表（字典）。这些字典会产生大量额外开销。

TurboQuant如何工作
TurboQuant由两个阶段组成，完全消除了字典依赖。
1. PolarQuant：将笛卡尔坐标向量转换为极坐标（半径+角度）。角度分布可预测且集中，无需对每个块进行昂贵的归一化，从而实现高质量压缩且不使用字典。
2. 1比特错误校正层：采用Johnson–Lindenstrauss量化算法；残差误差被压缩到单个位。消除注意力计算中的系统性偏差，几乎无额外成本。

实际结果
| 测试 | 算法 | 结果 |
|------|------|------|
| LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L‑Eval（Gemma & Mistral） | TurboQuant vs KIVI | TurboQuant：KV缓存最小压缩6倍；在“针尖探寻”任务中无精度损失。LongBench表现不劣，甚至优于KIVI。 |
| 向量搜索（GloVe） | TurboQuant vs Product Quantization, RabbiQ | 即使未训练，TurboQuant的结果质量和内存占用也超越已训练竞争者。 |

结论
* TurboQuant将KV缓存压缩至3–4比特，实现强大压缩而不牺牲准确率，也无需额外训练。
* 在Nvidia H100上性能提升8倍，缓存大小缩小六倍。
* 该算法适用于大型语言模型和向量搜索任务，无需细粒度调优。

谷歌将 AI 模型的内存消耗降低了六倍，同时保持准确性，得益于 TurboQuant 算法

Related news

苹果汽车可能会是这样的：法拉利展示了由乔尼姆·艾夫设计的电动汽车Luce的内饰。

销量超过800万份，但前作的记录仍未能被打破

特斯拉发起了一场针对在禁止使用自动驾驶功能地区的“欺骗性”激活方法的活动。

在未来五年，德尔（Dell）董事会估计，由于人工智能的兴起，对内存的需求将增长超过六百倍。

评论 (0)

登录后发表评论