小米通过分层缓存将 MiMo API 成本削减 80%，等同于 10 层 GQA 模型

据 Beating 称，小米在跟随与 DeepSeek 一致的近期降价之后，披露了其 MiMo-V2.5 API 的核心优化技术。该公司高负载推理引擎通过混合注意力架构以及分层 KV cache 优化来维持盈利能力。

小米的推理框架通过为滑动窗口注意力（SWA）实施分层优化，将缓存成本降低了 80%，并将令牌容量提升了 5 倍。70 层的 MiMo-V2.5-Pro 模型在全局注意力（GA）层与 SWA 层之间采用 1:7 的稀疏比例，执行的预填计算相当于传统 10 层全局 GQA 模型，从而显著降低推理成本。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！