谷歌发布3比特量化算法,实现无损高速推理
谷歌研究院于3月25日发布名为TurboQuant的全新量化压缩技术,该算法可将大语言模型的键值(KV)缓存压缩至仅3比特,显著降低内存消耗,降幅达六倍以上。整个过程无需重新训练或微调,同时保持原始模型精度不变。
多场景验证展现卓越性能,长文本处理能力跃升
研究团队在LongBench、Needle In A Haystack及ZeroSCROLLS等多个长上下文任务基准上,采用Gemma与Mistral模型进行测试,结果显示TurboQuant在所有评估指标中均取得最优成绩,展现出强大的泛化能力和稳定性。
双模块设计突破传统瓶颈,误差校正更高效
TurboQuant由两个核心组件构成:PolarQuant通过极坐标变换机制有效消除传统量化带来的额外存储开销;QJL则仅以1比特实现残差误差修正,大幅减少校正成本,兼顾效率与准确性。
