GPT-5.5 重返编程前沿，但 OpenAI 在输给 Opus 4.7 后更换了基准测试

4 月 27 日——SemiAnalysis，一家半导体与 AI 分析公司，发布了包含 GPT-5.5、Claude Opus 4.7 和 DeepSeek V4 在内的代码助手对比基准测试。关键发现：GPT-5.5 标志着 OpenAI 在六个月后首次重返编程模型前沿；随后 SemiAnalysis 工程师在 Codex 和 Claude Code 之间交替使用；此前他们几乎完全依赖 Claude。GPT-5.5 基于代号为 "Spud" 的新预训练方法，代表 OpenAI 自 GPT-4.5 以来首次扩展预训练规模。

在实际测试中，出现了明确的分工。Claude 负责新的项目规划与初始搭建，而 Codex 在推理密集型的漏洞修复方面表现更出色。Codex 展现出更强的数据结构理解与逻辑推理能力，但在推断含糊的用户意图方面存在困难。在一个单一的仪表盘任务上，Claude 会自动复刻参考页面布局，但会捏造大量数据；而 Codex 跳过布局，却提供了显著更准确的数据。

分析揭示了一个基准测试操纵细节：OpenAI 2 月的一篇博客文章敦促业界将 SWE-bench Pro 作为代码基准测试的新标准。然而，GPT-5.5 的公告改用了一个名为 "Expert-SWE" 的新基准。原因被藏在细微的说明中：GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越，并且与 Anthropic 尚未发布的 Mythos (77.8%) 相比差距巨大。

关于 Opus 4.7，Anthropic 在发布后一周发表了死后复盘分析，承认 Claude Code 中存在三个在 3 月至 4 月持续了数周、影响近乎所有用户的漏洞。多名工程师此前曾报告 4.6 版本的性能下降，但这些说法被当作主观观察而否定。此外，Opus 4.7 的新分词器会使 token 使用量最高增加 35%，而 Anthropic 公开承认了这一点——本质上相当于隐性涨价。

DeepSeek V4 被评为 "跟上前沿但并不领先"，将自己定位为封闭源模型中成本最低的替代方案。分析还指出，"Claude 在高难度中文写作任务上继续优于 DeepSeek V4 Pro"，并评论道："Claude 在它自己的语言上赢过了中文模型。"

文章提出了一个关键概念：模型定价应通过 "每任务成本（cost per task）" 来评估，而不是通过 "每 token 成本（cost per token）"。GPT-5.5 的定价是 GPT-5.4 的两倍 (input $5, output $30 per million tokens)，但它使用更少的 tokens 完成相同的任务，因此实际成本未必更高。最初的 SemiAnalysis 数据显示，Codex 的输入到输出比例为 80:1，低于 Claude Code 的 100:1。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

GPT-5.5 重返编程前沿，但 OpenAI 在输给 Opus 4.7 后更换了基准测试

相关阅读