小米的推理框架通过为滑动窗口注意力(SWA)实施分层优化,将缓存成本降低了 80%,并将令牌容量提升了 5 倍。70 层的 MiMo-V2.5-Pro 模型在全局注意力(GA)层与 SWA 层之间采用 1:7 的稀疏比例,执行的预填计算相当于传统 10 层全局 GQA 模型,从而显著降低推理成本。

小米的推理框架通过为滑动窗口注意力(SWA)实施分层优化,将缓存成本降低了 80%,并将令牌容量提升了 5 倍。70 层的 MiMo-V2.5-Pro 模型在全局注意力(GA)层与 SWA 层之间采用 1:7 的稀疏比例,执行的预填计算相当于传统 10 层全局 GQA 模型,从而显著降低推理成本。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.