小米披露 MiMo-V2-Pro 训练细节：1T 模型参数，部署成千上万台 GPU

4月24日——小米的大语言模型团队负责人罗福丽在一场深入采访中透露，MiMo-V2-Pro 模型的总参数量达到 1 万亿，并且训练过程中需要成千上万台 GPU。她表示，1T 规模代表要实现接近 Claude Opus 4.6 等级的性能，并为下一阶段 AI 智能体抢占具备竞争力的入场券所达到的最低门槛

从技术层面看，Pro 版本采用极端稀疏注意力机制，在全局注意力与滑动窗口注意力之间的比例为 7:1，从而在长上下文处理时控制推理成本。模型还保留了 MTP (Multi-Token Prediction) 架构，以利用富余的计算能力实现更快的推理。

在管理层面，100 人规模的 MiMo 团队中，直接参与核心迭代的只有 30-40 人。团队在没有正式层级或明确子分组划分的情况下运作，也没有交付截止期限。遇到诸如训练损失突增这类不稳定的数值问题时，团队会优先考虑停止训练以进行排查，即使这意味着停止业务一到两周，并产生数百万美元的计算成本。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

小米披露 MiMo-V2-Pro 训练细节：1T 模型参数，部署成千上万台 GPU

相关阅读