Vals AI 发布金融代理 v2 基准；GPT-5.5 得分 51.76%，在严格评分下所有模型均低于 40%

根据 Beating，AI 评估公司 Vals AI 于 5 月 14 日发布其第二代 Finance Agent v2 基准测试，通过 927 道经专家审核的问题来测试金融分析工作流。GPT-5.5 以 51.76% 的准确率领跑，其次是 Claude Opus 4.7（51.51%）和 Claude Sonnet 4.6（51.03%）。该测试要求模型能够在 10-K 和 10-Q 财务报表的数百页中独立定位相关部分，并使用精确的中间数值完成多步骤计算。

在要求完全正确答案的严格评分标准下，所有领先模型的准确率均降至 40% 以下，最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中，Kimi K2.6 以 44.87% 排名第五，随后是 GLM 5.1（44.79%）和 DeepSeek V4（44.08%）。与上一版本中 Opus 4.7 得分 64.4% 相比，这种显著下滑表明：尽管 AI 能处理简单检索，但在金融领域这类需要严格数值精度的复杂场景中，它仍远未能取代人类分析师。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

Vals AI 发布金融代理 v2 基准；GPT-5.5 得分 51.76%，在严格评分下所有模型均低于 40%

相关阅读