K2.6 的发布将协调步骤从 K2.5 的 1,500 步扩展至 4,000 步,使复杂多领域任务的并行化程度更高、执行更快。根据 Moonshot AI 的说法,该模型在跨 Rust、Go 和 Python 的长程编码方面表现更优,并在前端开发、DevOps 运维和性能优化方面具备增强能力。基准测试结果显示其在 HLE 上达到业界最先进水平,借助工具 (54.0)、SWE-Bench Pro (58.6)、SWE-bench 多语言 (76.7)、BrowseComp (83.2) 以及使用 Python 的 Math Vision (93.2)。
该模型引入了一种“Skills”机制,可将结构化文档——包括 PDF、电子表格和 Word 文件——转换为可复用的任务模板,从而捕捉格式与推理模式以供未来工作流使用。K2.6 被定位用于自主用例,包括多步骤软件工作流、全栈应用开发以及持续监测任务;测试表明其在更长的执行周期中可靠性得到提升。
