GPT-5 在生产事故上的准确率达到 62.7%，未达到 72.7% 的专家基准

根据 Datadog 和卡内基梅隆大学的最新基准测试，GPT-5 在 ARFBench 测试中实现了 62.7% 的准确率，低于人类领域专家的 72.7%。ARFBench 是首个基于 63 起真实生产事故构建的人工智能基准，包含 750 道多项选择题，覆盖 142 项监控指标和 5.38 million（538 万）数据点——无合成数据。

人工智能模型在跨指标推理（第 III 级问题）上最为吃力，在该类别中 GPT-5 的 F1 仅为 47.5%。一个结合 AI 与人类判断的理论模型-专家神谕可达到 87.2% 的准确率，说明协作如何可能超越单独任何一方。Datadog 的混合模型 Toto-1.0-QA-Experimental 在榜单上以 63.9% 的准确率位居首位，在异常识别方面也优于 GPT-5。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

GPT-5 在生产事故上的准确率达到 62.7%，未达到 72.7% 的专家基准

相关阅读