Opus 4.7 在代理式工作流和视觉能力方面带来了显著提升。在广泛用于软件工程任务的基准 SWE-bench Pro 上,自主编码性能从上一版本的 53.4% 提升至 64.3%。图像处理现在支持超过三倍的分辨率,视觉敏锐度的准确率也在标准测试中从 54.5% 提升到 98.5%。在训练过程中实施了有意的网络安全限制;在网络安全性能基准 CyberGym 上,Opus 4.7 的得分为 73.1%,低于 Mythos Preview 的 83.1%。
Anthropic 在预发布测试后限制了 Mythos Preview:测试发现了数千个高严重度漏洞,其中包括一个在 OpenBSD 中潜伏了 27 年仍未被发现的缺陷。开展漏洞研究、渗透测试或红队演练的安全研究人员,可以申请 Anthropic 的 Cyber Verification Program(网络安全验证计划)以获得防御性访问权限,而无需默认拒绝。Opus 4.7 的防护措施所获得的反馈将用于指导未来的模型发布。
