V4-Pro 在内部自用测试中实现 67% 编码通过率，逼近 Opus 4.5 性能

4月24日——V4 已公开披露其 V4-Pro 模型的内部自用（dogfooding）数据。该公司从 50 多名工程师处收集了约 200 项真实的工程任务，覆盖特性开发、错误修复、重构以及跨技术栈的诊断，包括 PyTorch、CUDA、Rust 和 C++。经过严格筛选后，保留了 30 项任务用于基准评估。

V4-Pro-Max 达到了 67% 的编码通过率，显著优于 Sonnet 4.5 的 47%，并接近 Opus 4.5 的 70%。不过，它仍落后于 Opus 4.5 Thinking (73%) 和 Opus 4.6 Thinking (80%)，同时远超 Haiku 4.5 的 13%。

在一次内部调查中，共有 85 名受访者，所有参与者都表示在日常工作流程中使用 V4-Pro 进行具备行动性的（agentic）编码。52% 将 V4-Pro 作为默认的首选编码模型，39% 倾向于认可，而不到 9% 表达不赞同。报告的问题包括底层错误、对含糊提示的误读，以及偶尔出现的过度思考行为。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

V4-Pro 在内部自用测试中实现 67% 编码通过率，逼近 Opus 4.5 性能

相关阅读