在要求完全正确答案的严格评分标准下,所有领先模型的准确率均降至 40% 以下,最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,随后是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。与上一版本中 Opus 4.7 得分 64.4% 相比,这种显著下滑表明:尽管 AI 能处理简单检索,但在金融领域这类需要严格数值精度的复杂场景中,它仍远未能取代人类分析师。

在要求完全正确答案的严格评分标准下,所有领先模型的准确率均降至 40% 以下,最难的类别——金融建模和先例分析——最高也仅达到 23%。在其他模型中,Kimi K2.6 以 44.87% 排名第五,随后是 GLM 5.1(44.79%)和 DeepSeek V4(44.08%)。与上一版本中 Opus 4.7 得分 64.4% 相比,这种显著下滑表明:尽管 AI 能处理简单检索,但在金融领域这类需要严格数值精度的复杂场景中,它仍远未能取代人类分析师。
声明:文章不代表币圈网立场和观点,不构成本站任何投资建议。内容仅供参考!
免责声明:本站所有内容仅供用户学习和研究,不构成任何投资建议.不对任何信息而导致的任何损失负责.谨慎使用相关数据和内容,并自行承担所带来的一切风险.