从技术层面看,Pro 版本采用极端稀疏注意力机制,在全局注意力与滑动窗口注意力之间的比例为 7:1,从而在长上下文处理时控制推理成本。模型还保留了 MTP (Multi-Token Prediction) 架构,以利用富余的计算能力实现更快的推理。
在管理层面,100 人规模的 MiMo 团队中,直接参与核心迭代的只有 30-40 人。团队在没有正式层级或明确子分组划分的情况下运作,也没有交付截止期限。遇到诸如训练损失突增这类不稳定的数值问题时,团队会优先考虑停止训练以进行排查,即使这意味着停止业务一到两周,并产生数百万美元的计算成本。
