谷歌发布3比特量化算法，性能飙升8倍

谷歌发布3比特量化算法，实现无损高速推理

谷歌研究院于3月25日发布名为TurboQuant的全新量化压缩技术，该算法可将大语言模型的键值（KV）缓存压缩至仅3比特，显著降低内存消耗，降幅达六倍以上。整个过程无需重新训练或微调，同时保持原始模型精度不变。

研究团队在LongBench、Needle In A Haystack及ZeroSCROLLS等多个长上下文任务基准上，采用Gemma与Mistral模型进行测试，结果显示TurboQuant在所有评估指标中均取得最优成绩，展现出强大的泛化能力和稳定性。

TurboQuant由两个核心组件构成：PolarQuant通过极坐标变换机制有效消除传统量化带来的额外存储开销；QJL则仅以1比特实现残差误差修正，大幅减少校正成本，兼顾效率与准确性。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！