谷歌将 AI 模型的内存消耗降低了六倍,同时保持准确性,得益于 TurboQuant 算法
简要内容
Google Research提出了一种新的大型语言模型KV缓存压缩方法——TurboQuant。该算法将缓存位宽降至3比特(若加入错误校正则为4比特),不降低回答准确率且无需额外训练。在Nvidia H100加速器上,TurboQuant将注意力logits计算性能提升了8倍,并将KV缓存大小缩小了六倍。
什么是KV缓存以及它的重要性
* KV缓存存储在注意力机制计算中得到的键(K)和值(V)。
这使得模型无需在每一步生成令牌时重新计算它们。
* 随着上下文窗口扩大,缓存呈指数增长,导致显著的内存开销。
* 传统量化方法通过减小缓存大小来降低成本,但需要存储与ZIP/RAR类似的量化常数表(字典)。这些字典会产生大量额外开销。
TurboQuant如何工作
TurboQuant由两个阶段组成,完全消除了字典依赖。
1. PolarQuant:将笛卡尔坐标向量转换为极坐标(半径+角度)。角度分布可预测且集中,无需对每个块进行昂贵的归一化,从而实现高质量压缩且不使用字典。
2. 1比特错误校正层:采用Johnson–Lindenstrauss量化算法;残差误差被压缩到单个位。消除注意力计算中的系统性偏差,几乎无额外成本。
实际结果
| 测试 | 算法 | 结果 |
|------|------|------|
| LongBench、Needle In A Haystack、ZeroSCROLLS、RULER、L‑Eval(Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant:KV缓存最小压缩6倍;在“针尖探寻”任务中无精度损失。LongBench表现不劣,甚至优于KIVI。 |
| 向量搜索(GloVe) | TurboQuant vs Product Quantization, RabbiQ | 即使未训练,TurboQuant的结果质量和内存占用也超越已训练竞争者。 |
结论
* TurboQuant将KV缓存压缩至3–4比特,实现强大压缩而不牺牲准确率,也无需额外训练。
* 在Nvidia H100上性能提升8倍,缓存大小缩小六倍。
* 该算法适用于大型语言模型和向量搜索任务,无需细粒度调优。
因此,TurboQuant已准备好在高负载环境下实用,并为大模型的高效运作开启新机遇。
评论 (0)
分享你的想法——请保持礼貌并围绕主题。
登录后发表评论