GPT-5.4 在 ARC-AGI 上经过反复记忆摘要后准确率从 100% 降至 54%

根据 Beating，Dylan Zhang 在伊利诺伊大学的博士生进行的一项近期 Agent 记忆研究发现，反复对模型经验进行总结可能会降低性能，而不是提升性能。在 ARC-AGI 任务中，GPT-5.4 在不使用记忆的情况下对 19 道问题实现了 100% 的准确率，但在基于正确解题轨迹进行多轮记忆压缩之后，准确率降至 54%。类似地，在 WebShop 购物任务中，AWM 记忆方法在拥有 8 条专家轨迹时得分为 0.64，但当轨迹增加到 128 条时降至 0.20，并回到基线水平。研究认为，该问题源于过度总结：每一步抽象都会丢失特定细节，并将与任务相关的规则合并进通用指导，最终导致模型性能下降。

声明：文章不代表币圈网立场和观点，不构成本站任何投资建议。内容仅供参考！

GPT-5.4 在 ARC-AGI 上经过反复记忆摘要后准确率从 100% 降至 54%

相关阅读